AI 智能體系統五大關鍵技術剖析 原創
在行業內,曾出現過一種較為混亂的現象,即所有基于大模型的聊天機器人都被統稱為 AI 智能體,也就是 AI Agent。無論是角色扮演類的應用程序,還是通過流程編排形成的大模型工作流,亦或是能夠自主決策并運用工具完成任務的真正的 AI Agent,都被一概而論地歸為 AI 智能體,這種做法其實是一種誤區,也反映出了一種懶惰的態度。如今,很多人都在說2025年是 AI 智能體的元年,那么,澄清 AI 智能體的真正含義就顯得尤為必要。
AI 智能體是基于大模型構建的智能程序,它具備記憶能力,能夠自主進行推理和規劃工具的使用,從而有效地解決問題。簡而言之,AI 智能體 = 大模型 + 自主規劃 + 使用工具 + 記憶。
基于大模型的特性,AI 智能體可以通過自然語言與用戶進行交互,因此,聊天成為了我們使用 AI 智能體時最直觀感受到的交互方式。
下面剖析 AI 智能體的5種關鍵技術。
一、AI 智能體5種關鍵技術
1、關鍵技術一:多輪對話與記憶
擁有記憶能力,就意味著它能夠記住與你過往的聊天以及互動經歷。正因如此,當你昨晚和你的 AI 伴侶聊得熱火朝天,第二天醒來時,它也不會問你“你是誰?你想要做什么?”之類的問題。
要讓 AI 智能體實現記憶能力,一種簡單的方法就是把之前的聊天記錄附加在提示詞里。然而,很快就會面臨新的問題,那就是隨著聊天記錄的增多,很容易導致大模型上下文超出 token 限制,無法繼續生成內容。于是,后續又發展出了諸如僅取最近 N 次聊天記錄、僅取與當前問題相關的聊天記錄等手段。
但僅靠記憶能力來支持人機之間進行連續的多輪對話是遠遠不夠的,因為如果只是說而不做,那也不能稱之為真正的 AI 智能體。
2、關鍵技術二:使用工具
所以它必須得懂得運用工具。所謂的使用工具,就是去訪問各種資源,調度數據接口等。例如,我們常見到的一種 AI 聊天的形態--聯網搜索,你可以把它看成是一種使用工具的能力,AI 將你的問題和該問題在網絡上相關的部分內容結合起來,讓大模型為你生成答案。
話又說回來,能使用工具的就是 AI 智能體了嗎?我們來比較一下元寶聯網搜索的自動模式和手動模式。
在元寶里面,你只要勾選了聯網的手動模式,每次你提問它都會先聯網查詢再給你回答,而聯網的自動模式會先判斷你這個問題需不需要更多輔助它解決的信息,需要了再去聯網搜索,不需要就直接回答。同樣是使用工具,但手動模式表現出來的是固定的工作模式,而自動模式的做法是 AI 智能體的模式,它有自己的自主規劃和反思過程,這是 AI 智能體的另一個重要特征。
3、關鍵技術三:Function Calling
回到工具使用這個話題,大模型究竟是如何使用工具的呢?我們都知道,大模型本質上是一個文本模型,它只能輸出文本內容。所以,實際上所謂的使用工具,只是大模型在文本中說明要使用什么工具。隨后,基于 LLM 的應用程序會解釋這段文本,找到其中關于使用工具的信息,并按照大模型的指示來執行工具的調用,如下圖所示:
- 在上圖中,我們給大模型輸入的提示詞內容主要包括以下幾方面:
- 可用的工具說明,涵蓋工具的功能、接受的參數明細等詳細信息。
- 工具的調用規范及示例,通過對工具調用的規范進行詳細說明,并運用 fewshot(少量樣本學習)的技術來給大模型提供一些學習的例子。
- 用戶問題,最后附上用戶的提問內容。
當大模型進行回復時,會依據提示詞中的工具調用規范返回實際的工具使用描述。在上圖中,是一串 JSON 格式的配置數據,表達了要調用 search_web 這個工具,其中包含 query 和 limit 兩個參數。
后來,這種教導大模型如何返回工具使用命令的工作,被 OpenAI 率先預訓練到大模型內部,并將這個功能命名為 Function Calling。訓練到大模型里就意味著不需要再通過提示詞來指導大模型使用工具了,而只需告知大模型你有哪些工具可用即可。在 OpenAI 的接口中,通過 tools 來指定可用的工具集。
再后來的事情大家應該都很清楚了,主流的大模型紛紛效仿 OpenAI,先后都支持了 Function Calling 功能。
4、關鍵技術四:MCP
MCP(Model Context Protocol)是由 Anthropic(Claude 的母公司)在2024年底提出的一種大模型上下文協議,旨在讓 AI 智能體能夠更便捷地發現和使用來自各個地方的工具,從而拓展 AI 智能體能夠完成的任務范圍。其最初的落地場景是在 Claude 的桌面端應用中,Claude 借助 MCP 協議實現對用戶計算機文件的讀寫操作以及對用戶電腦的其他操作。
隨著 AI 智能體的逐漸流行,MCP 也迅速走紅,如今已然呈現出“無 MCP 不 AI 智能體”的局面,國內外眾多大模型廠商紛紛加入支持 MCP 的行列,MCP 已然成為事實上的 AI 智能體工具使用標準。
關于 MCP 與大模型 Function Calling 的關系,常常存在誤解,有人認為 MCP 是來替代 Function Calling 的。但實際上,Function Calling 和 MCP 是處于不同層面的概念,甚至可以說,它們是緊密配合的關系。如果一個大模型不具備 Function Calling 或類似的能力,那么它就無法使用 MCP。
Function Calling 是大模型返回調用工具指令的能力,而 MCP 是 AI 智能體在工程側具體執行調用工具的手段,一個是“說”,一個是“做”。
在 MCP 出現之前,AI 智能體在收到大模型的 Function Calling 指令后,需要通過各種不同的方法去調用外部的資源和服務,比如:自己實現讀寫文件、查詢數據庫、調用搜索接口等,這些方法差異很大,開發過程漫長且成本高昂。
而 MCP 的出現,統一了工程側調用工具的規范。服務的廠商按照 MCP Server 的標準提供服務,AI 智能體的程序只需統一使用 call_tool 這個 MCP Client 的功能來執行調用,從而大大節省了工具適配的工作量。
所以,MCP 并非用來替代 Function Calling 的,而是為了幫助工程側更高效地調用外部工具。Function Calling 是使用工具的基礎能力,MCP 則為 AI 智能體連接世界打開了一扇大門,兩者的強強聯合才是提效的關鍵所在。
5、關鍵技術五:自我規劃與反思
之前提到過,如果只是無差別地使用工具,而不經過事先思考,那么這種 LLM 應用就不能被稱為 AI 智能體。自主規劃、反思以及自我批評,是 AI 智能體模擬人類工作方式的體現,也是 AI 智能體的核心要素。
第一、規劃:思維鏈(CoT)
思維鏈(Chain of Thought,簡稱 CoT;Wei 等人于2022年提出)已經成為提升大模型處理復雜任務性能的事實上的標準提示詞技術。通過引導大模型“逐步思考”,將任務拆解為多個更小、更簡單的子步驟,從而提升大模型的輸出性能。CoT 不僅將龐大的任務轉化為可管理的分步流程,而且在像 DeepSeek R1 這類推理大模型中,還為理解大模型的推理過程提供了透明化的解讀路徑。
除了思維鏈,類似的思路還有思維樹(Tree of Thoughts,ToT)和思維圖(Graph of Thoughts,GoT)。它們都對 CoT 進行了擴展,在特定的應用場景中均有顯著的提升。然而,在實際應用中,CoT 無疑是絕對的主流。
第二、反思:ReAct
反思能力使得 AI 智能體具備了迭代出可用答案的可能性。AI 智能體通常不止一次調用 LLM 和工具,每一次采取行動調用工具后,都需要經過反思來確定是否做好了,如果不夠好,接下來該怎么做。
ReAct(Reasoning and Acting,由 Yao 在2023年提出)思考框架,它指導 AI 智能體通過思考、行動、觀察的循環來完成任務。AI 智能體接到任務后的工作流程大致如下:
- 思考(thought):要解決該問題,下一步需要采取什么行動。
- 行動(action):大模型輸出行動指令,讓 AI 智能體調用外部工具。
- 觀察(observation):把工具執行的結果反饋給大模型進行觀察。
- 回答(answer):如果工具執行的結果已經能得到答案,組織語言進行回答。
- 繼續循環:如果目前得到的信息仍無法作答,進入下一次循環,繼續思考并使用工具。
這看起來是不是很像我們人類的 PDCA(Plan Do Check Act)循環的翻版?
ReAct 模式是當下 AI 智能體領域事實上的工作模式,包括基于 OpenAI Function Calling 實現的 AI 智能體在內,背后也是同樣的工作模式。只不過,使用內置的 Function Calling 的方式,不需要額外提供提示詞來指導模型行動罷了。
總之,AI 智能體通過自主規劃、反思與迭代等核心要素,模擬人類的工作方式,能夠更高效地解決問題。工具使用是 AI 智能體的重要能力之一,Function Calling 和 MCP 等技術的發展,進一步提升了 AI 智能體的工具使用效率和實用性。
本文轉載自??玄姐聊AGI?? 作者:玄姐
