谷歌剛剛發布AI Agent智能體白皮書,2025年AI Agent時代已到來! 原創 精華
人類在處理復雜的模式識別任務上表現出色。
在形成結論之前,他們常常借助諸如書籍、谷歌搜索或計算器等工具來增強其現有知識。
同樣地,AI 大模型能夠通過訓練,學會使用工具來獲取實時信息或提出現實世界的行動建議。例如,這些大模型能夠運用數據庫檢索工具來查詢特定信息,如顧客的購買歷史,進而提供個性化的購物建議。再比如,基于用戶的查詢,大模型能夠執行多種 API 調用,用于發送郵件回復給同事或代表用戶完成財務交易。
為了實現這些功能,大模型不僅需要能夠接入各種外部工具,還必須能夠自主規劃并執行任務。這種結合了推理、邏輯以及對額外信息的利用的能力,是 AI大模型的核心,它體現了 AI Agent 智能體的概念,即超出單純 AI 大模型獨立功能的程序。
1、模型
在 AI Agent 智能體領域,所提到的模型是指那些在 AI Agent 智能體工作流程中充當決策中樞的語言模型(LM)。
AI Agent 智能體所采用的模型可以是單個或多個不同規模(小型或大型)的語言模型,這些模型能夠遵循基于指令的推理邏輯,例如:反應(ReAct)、思維鏈(Chain-of-Thought)或思維樹(Tree-of-Thoughts)等架構。這些模型可能是通用的、多模態的,或者根據特定智能體框架的需求進行定制化調整。
為了實現最佳的應用效果,應選擇與目標應用最匹配的模型,并且最好該模型已經針對將在認知架構中使用的工具相關的數據特性進行了訓練。
應當注意的是,模型通常不會專門針對 AI Agent 智能體的特定配置(即工具的選擇、編排和推理設置)進行訓練。然而,通過向模型提供展示 AI Agent 智能體能力的示例,包括 AI Agent 智能體在不同情境中使用特定工具或推理步驟的案例,可以進一步針對 AI Agent 智能體的任務對模型進行優化。
2、工具
工具的形式多樣,復雜度不一,通常與標準的網絡應用程序編程接口(API)方法(如 GET、POST、PATCH 和 DELETE)保持一致。比如,某個工具能夠修改數據庫中的客戶資料,或者獲取天氣信息以優化 AI Agent 智能體為用戶提供的旅行建議。
通過使用這些工具,AI Agent 智能體得以接入和處理現實世界的數據。這使得它能夠支撐更專業的系統,如檢索增強生成(RAG)系統,該系統顯著提升了AI Agent 智能體的功能,使其能力超越了基礎模型本身的限制。
3、編排層
編排層描述了一個循環過程,它管理著 AI Agent 智能體如何接收信息、進行內部推理,并使用這些推理來指導其下一個動作或決策。通常,這個循環會一直持續,直到 AI Agent 智能體達到其目標或一個停止點。編排層的復雜性可以根據 AI Agent 智能體及其執行的任務而有很大差異。有些循環可能是簡單的計算和決策規則,而其他循環可能包含連鎖邏輯,涉及額外的機器學習算法,或者實現其他概率推理技術。
AI Agent 智能體可以利用 ReAct、CoT、ToT 等推理技術,或者許多其他技術,來為給定的用戶請求選擇下一個最佳動作。例如,讓我們考慮一個被編程使用 ReAct 框架來為用戶查詢選擇正確動作和工具的 AI Agent 智能體。事件序列可能如下所示:
1.用戶向 AI Agent 智能體發送查詢;
2.AI Agent 智能體開始 ReAct 序列;
3.AI Agent 智能體向模型提供一個提示詞(Prompt),要求它生成下一個ReAct 步驟及其對應的輸出:
a. 問題:用戶查詢中的輸入問題,隨提示詞一起提供
b. 思考:模型關于接下來應該做什么的想法
c. 動作:模型關于接下來采取什么動作的決定
i. 這里的工具選擇可以發生
ii. 例如,一個動作可以是[航班、搜索、編碼、無]之一,前三個代表模型可以選擇的已知工具,最后一個代表“不選擇工具”
d. 動作輸入:模型關于向工具提供什么輸入的決定(如果有的話)
e. 觀察:動作/動作輸入序列的結果
i. 這個思考/動作/動作輸入/觀察可以根據需要重復N次
f. 最終答案:模型對原始用戶查詢提供的最終答案
4.ReAct 循環結束,并向用戶返回最終答案。
4、擴展:自定義插件
將擴展(Extensions)視為一種在 AI Agent 智能體與應用程序編程接口(API)之間建立標準化連接的方式,是最直接的理解方法。這種方式使得 AI Agent 智能體能夠順暢地執行多種 API 操作,而無需關心其背后的具體實現細節。
設想你開發了一個旨在幫助用戶預訂航班的 AI Agent 智能體。你打算利用谷歌航班 API 來獲取所需的航班信息,但你不確定如何讓你的 AI Agent 智能體來調用這個 API。
采用一種更為靈活的方法是使用擴展。擴展通過以下步驟在 AI Agent 智能體和 API 之間搭建橋梁:
- 通過示例指導 AI Agent 智能體如何使用 API 接口。
- 指導 AI Agent 智能體了解成功調用 API 接口所需的參數。
擴展可以獨立于 AI Agent 智能體進行開發,但它們應該作為 AI Agent 智能體配置的一部分來提供。在運行時,AI Agent 智能體依靠模型和示例來決定哪個擴展(如果有)最適合處理用戶的查詢。這體現了擴展的一個重要優勢,即它們的“示例內嵌”特性,它允許 AI Agent 智能體根據任務需求動態地選擇最合適的擴展。
5、功能函數
在 AI Agent 智能體領域,函數的運作方式與軟件開發中的情況類似,但在這里,模型取代了軟件開發人員的角色。模型能夠訪問一系列已知的函數,并依據函數的定義來決定何時調用哪個函數以及需要傳遞哪些參數。
函數與擴展在幾個關鍵點上有所不同,最明顯的區別包括:
- 模型會輸出一個函數及其所需的參數,但不會直接執行實時應用程序編程接口(API)調用。
- 函數在客戶端環境中運行,而擴展則在 AI Agent 智能體端執行。
大多數開發人員傾向于使用功能函數,原因包括:
- 需要進行應用程序編程接口(API)調用的應用程序棧的另一層,這超出了 AI Agent 智能體直接架構的范圍(例如中間件系統、前端框架等)。
- 存在安全或認證的限制,導致 AI Agent 智能體無法直接訪問 API(例如 API 未在互聯網上公開,或者 AI Agent 智能體基礎設施無法連接到該 API)。
- 有時間安排或操作順序的限制,使得 AI Agent 智能體無法實時執行 API 調用(例如批量操作、人工審核等場景)。
- 需要對 AI Agent 智能體無法直接執行的應用程序編程接口(API)響應進行額外的數據轉換邏輯。例如,如果一個 API 端點沒有提供限制返回結果數量的篩選機制,客戶端使用函數可以為開發人員提供執行這些轉換的額外機會。
- 開發人員希望在 AI Agent 智能體開發過程中進行迭代,而不需要為 API 端點部署額外的基礎設施(即函數調用可以作為 API 的“存根”)。
6、數據存儲
數據存儲機制使得開發人員能夠以原始格式向 AI Agent 智能體提供額外數據,這樣他們就無需進行繁瑣的數據轉換、模型的重新訓練或微調。
數據存儲將接收到的文檔轉換成一系列向量數據庫嵌入,AI Agent 智能體可以利用這些嵌入來提取必要信息,以支持其后續操作或對用戶的響應。
為了使模型能夠獲取特定類型的知識,可以采用以下幾種策略:
? 上下文學習:在推理過程中,向通用模型提供提示詞、工具和一些示例,使其能夠即時學習如何以及在何時使用這些工具來執行特定任務。自然語言處理中的反應(ReAct)框架就是這種方法的一個例子。
? 基于檢索的上下文學習:動態地通過從外部存儲器檢索最相關的信息、工具和示例來構建模型提示詞。例如,Vertex AI 擴展中的“示例存儲”或之前提到的基于數據存儲的檢索增強生成(RAG)架構。
? 基于微調的學習:這涉及到在推理之前使用包含大量特定示例的數據集對模型進行訓練。這種方法有助于模型在處理用戶查詢之前就已經學會了何時以及如何應用某些工具。
7、實施與應用
在 AI Agent 智能體的背景下,數據存儲通常被實現為向量數據庫,開發人員希望 AI Agent 智能體在運行時能夠訪問這些數據庫。雖然這里不會深入討論向量數據庫,但關鍵是要理解它們以向量嵌入的形式存儲數據,這是一種高維向量或數據的數學表示。最近,數據存儲與語言模型結合使用的一個最典型的例子是基于檢索增強生成(RAG)的應用程序實現。這些應用程序試圖通過讓模型訪問各種格式的數據,來擴展模型知識的基礎訓練數據之外的范圍和深度,例如:
? 網站內容
? 結構化數據,如 PDF、Word 文檔、CSV、電子表格等格式
? 非結構化數據,如 HTML、PDF、TXT 等格式
上圖展示了 AI Agent 智能體與數據存儲之間的一對多關系,這些數據存儲可以代表各種類型的預索引數據。
每個用戶請求和 AI Agent 智能體響應循環的底層過程通常如下圖所示。
- 用戶查詢被發送到嵌入模型以生成查詢的嵌入;
- 然后使用像 SCaNN 這樣的匹配算法將查詢嵌入與向量數據庫的內容進行匹配;
- 從向量數據庫中以文本格式檢索匹配的內容并返回給 AI Agent 智能體;
- AI Agent 智能體接收用戶查詢和檢索到的內容,然后制定響應或行動;?
- 最終響應被發送給用戶。
最終結果是,應用程序允許 AI Agent 智能體通過向量搜索將用戶查詢與已知數據存儲匹配,檢索原始內容,并將其提供給編排層和模型進行進一步處理。下一個行動可能是向用戶提供最終答案,或者執行額外的向量搜索以進一步精煉結果。
上圖展示了一個實現 RAG 與 ReAct 推理/規劃的代理與用戶的示例交互。
8、總結
在本白皮書中,我們討論了生成式人工智能 AI Agent 智能體的基礎構建塊、它們的組成以及有效實施它們的方法,即認知架構。本白皮書的一些關鍵收獲包括:
- AI Agent 智能體通過利用工具來訪問實時信息、建立現實世界的行動以及自主規劃執行復雜任務,從而擴展了語言模型的能力。AI Agent 智能體可以利用一個或多個語言模型來決定何時以及如何過渡狀態,并使用外部工具來完成模型自身難以或無法單獨完成的任何數量的復雜任務。
- AI Agent 智能體操作的核心是編排層,這是一種認知架構,它結構化了推理、規劃、決策制定并指導其行動。各種推理技術,如 ReAct、思維鏈(Chain-of-Thought)和思維樹(Tree-of-Thoughts),為編排層提供了一個框架,以接收信息、進行內部推理并生成明智的決策或響應。
- 工具,如擴展(Extensions)、函數(Functions)和數據存儲(Data Stores),是 AI Agent 智能體與外部世界互動的鑰匙,使它們能夠與外部系統互動并訪問超出其訓練數據的知識。擴展在 AI Agent 智能體和外部API 之間架起橋梁,使得執行 API 調用和檢索實時信息成為可能。函數為開發者提供了更細致的控制,通過分工允許代理生成可以在客戶端執行的函數參數。數據存儲為代理提供了結構化或非結構化數據的訪問,使得數據驅動的應用程序成為可能。
AI Agent 智能體的未來充滿了激動人心的進步,我們只是開始觸及可能性的表面。隨著工具變得更加復雜和推理能力的增強,AI Agent 智能體將能夠解決越來越復雜的問題。此外,"AI Agent 智能體鏈"的戰略方法將繼續獲得勢頭。通過結合在特定領域或任務上表現出色的專業代理,我們可以創建一個“AI Agent 智能體專家混合”方法,能夠在各個行業和問題領域提供卓越的結果。
本文轉載自公眾號玄姐聊AGI 作者:玄姐
原文鏈接:??https://mp.weixin.qq.com/s/Ow7gAHSaLFyYO5luB0XPhg??
