AI Agent"社交網(wǎng)絡"來了!最新研究揭示AI Agent通信協(xié)議全景圖
就像互聯(lián)網(wǎng)需要TCP/IP和HTTP協(xié)議一樣,AI Agent之間的協(xié)作也需要標準化的通信協(xié)議。本文帶你深入了解AI Agent協(xié)議的現(xiàn)狀與未來,看看學術界是如何構(gòu)建Agent之間的"社交網(wǎng)絡"的。
圖片
1、AI Agent通信協(xié)議:打破信息孤島的關鍵一步
你有沒有想過,當ChatGPT、Claude這些AI助手需要互相交流、協(xié)作時,它們該如何"對話"?
隨著大語言模型(LLM)的迅猛發(fā)展,各種AI Agent已經(jīng)廣泛應用于客戶服務、內(nèi)容創(chuàng)作、數(shù)據(jù)分析甚至醫(yī)療輔助等領域。然而,當這些智能體需要與外部工具交互或者彼此協(xié)作時,一個嚴峻的問題浮現(xiàn)出來:缺乏標準化的通信協(xié)議。
就像早期互聯(lián)網(wǎng)被各種不兼容系統(tǒng)和有限連接所分割一樣,當前AI Agent生態(tài)系統(tǒng)也面臨著類似的"孤島化"困境。回顧歷史,TCP/IP和HTTP協(xié)議不僅僅解決了技術問題,更開啟了全球連接、創(chuàng)新和價值創(chuàng)造的前所未有時代,徹底改變了人類社會。
同樣地,統(tǒng)一的Agent通信協(xié)議不僅能解決當前的互操作性問題,更有望創(chuàng)造出一個革命性的"智能網(wǎng)絡",讓不同形式的智能能夠在系統(tǒng)間自由流動,從而產(chǎn)生比任何單一組件更強大的集體智能。
圖片
2、Agent協(xié)議的兩大分類:上下文獲取與Agent間交互
圖片
研究者首次提出了一個系統(tǒng)化的二維分類框架來組織各種Agent協(xié)議:
第一維度:面向?qū)ο箢愋?/p>
(1)上下文導向協(xié)議:幫助Agent獲取外部數(shù)據(jù)、調(diào)用工具和服務
(2)Agent間協(xié)議:促進不同Agent之間的交流與協(xié)作
第二維度:應用場景
(1)通用型協(xié)議:適用于廣泛的場景和多種類型的Agent
(2)領域特定協(xié)議:針對特定領域或使用場景進行了優(yōu)化
圖片
3、上下文導向協(xié)議:Agent的"外腦"
盡管LLM具有強大的語言理解和推理能力,但它們無法僅依靠內(nèi)在知識來應對復雜查詢。因此,Agent通常需要自主決定何時以及調(diào)用哪些外部工具,并通過這些工具執(zhí)行操作來獲取必要的上下文。
早期開發(fā)中,Agent的工具使用能力通常是通過格式化的函數(shù)調(diào)用數(shù)據(jù)集來微調(diào)實現(xiàn)的。然而,由于缺乏標準化和統(tǒng)一的上下文導向協(xié)議,這種方法面臨著多重挑戰(zhàn)。
模型上下文協(xié)議(MCP)是一種開創(chuàng)性的通用型上下文導向協(xié)議,由Anthropic開發(fā)。它提供了一種標準化方法,使Agent能夠更簡單、可靠地連接到外部數(shù)據(jù)、工具和服務。MCP的核心架構(gòu)包括四個組件:
(1)Host:指LLM Agent,負責與用戶交互,理解和推理用戶查詢,選擇工具,發(fā)起策略性上下文請求
(2)Client:連接到Host,提供可用資源的描述,并負責發(fā)起執(zhí)行上下文請求
(3)Server:連接到資源,為客戶端提供所需上下文
(4)Resource:指數(shù)據(jù)、工具或服務等資源
MCP通過引入公開標準化的調(diào)用協(xié)議,將工具使用與特定基礎LLM提供商和上下文提供商接口解耦,從而解決了LLM生態(tài)系統(tǒng)中的碎片化問題。此外,MCP通過將工具調(diào)用與LLM響應解耦,增強了隱私和安全性,使敏感信息可以保持在本地,從而降低數(shù)據(jù)泄露風險。
4、Agent間協(xié)議:構(gòu)建Agent的"社交網(wǎng)絡"
隨著LLM和Agent技術的發(fā)展,多Agent協(xié)作越來越受到關注。在某些大規(guī)模、復雜且內(nèi)在可分解或分布式的任務中,多Agent方法可以提高效率,降低成本,并提供更好的容錯性和靈活性。
目前已提出的Agent間協(xié)議包括:
(1)Agent Network Protocol (ANP):由開源技術社區(qū)開發(fā),旨在實現(xiàn)各種異構(gòu)領域Agent的互操作性
(2)Agent2Agent Protocol (A2A):Google提出的Agent協(xié)作協(xié)議,旨在實現(xiàn)無縫的Agent協(xié)作
(3)Agora:利用LLM在自然語言理解、代碼生成和自主協(xié)商方面的能力,使Agent能夠根據(jù)上下文采用不同的通信協(xié)議
這些協(xié)議雖然都聚焦于Agent之間的交互,但在問題領域、應用場景和實現(xiàn)策略上各有不同。
圖片
5、Agent協(xié)議的評估維度:不只是性能和功能
在快速發(fā)展的Agent通信協(xié)議領域,靜態(tài)的性能或功能比較很快就會過時。例如,MCP在2024年11月引入時最初缺乏對HTTP和認證機制的支持,但到2025年初,它已經(jīng)融合了HTTP Server-Sent Events (SSE)和認證,并且已轉(zhuǎn)向HTTP Streaming。
研究者識別了評估Agent協(xié)議的七個關鍵維度:
(1)效率:管理吞吐量、最小化延遲、優(yōu)化握手開銷等
(2)可擴展性:隨著節(jié)點或連接數(shù)量指數(shù)級增長,維持性能和可用性的能力
(3)安全性:保護系統(tǒng)免受惡意行為和數(shù)據(jù)泄露
(4)可靠性:確保消息和任務在各種條件下正確傳遞和處理
(5)互操作性:與不同供應商和架構(gòu)的系統(tǒng)無縫工作的能力
(6)可演化性:協(xié)議適應變化和新要求的能力
(7)簡潔性:協(xié)議設計的易用性和可理解性
6、思考
展望未來,研究者預見了Agent協(xié)議的幾個關鍵發(fā)展方向:
(1)可演化協(xié)議:能夠自我調(diào)整和適應不斷變化的Agent生態(tài)系統(tǒng)
(2)隱私保護協(xié)議:在數(shù)據(jù)敏感時代保護用戶隱私和數(shù)據(jù)安全
(3)群體協(xié)調(diào)協(xié)議:支持多Agent團隊的有效協(xié)作和決策
(4)分層架構(gòu):將協(xié)議分解為專門的層,類似于TCP/IP模型
(5)集體智能基礎設施:促進Agent之間的知識共享和動態(tài)協(xié)作
正如互聯(lián)網(wǎng)的基礎協(xié)議一樣,未來的Agent通信標準有望開啟分布式集體智能的新時代,重塑智能如何在系統(tǒng)間共享、協(xié)調(diào)和放大。
這項研究為我們提供了AI Agent協(xié)議的全景圖,包括系統(tǒng)化的分類、關鍵性能維度的評估以及未來發(fā)展趨勢。隨著AI Agent技術的發(fā)展,標準化的通信協(xié)議將成為連接各種智能體的關鍵基礎設施,使它們能夠動態(tài)形成聯(lián)盟、交換知識,并共同解決日益復雜的現(xiàn)實世界問題。
就像TCP/IP和HTTP協(xié)議開啟了互聯(lián)網(wǎng)時代一樣,統(tǒng)一的Agent協(xié)議可能會開啟一個全新的"智能互聯(lián)網(wǎng)"時代,讓AI不再是孤立的個體,而是能夠協(xié)作、共享和集體進化的網(wǎng)絡。
論文標題:A Survey of AI Agent Protocols
論文鏈接:https://arxiv.org/abs/2504.16736
本文轉(zhuǎn)載自??????AI帝國??????,作者:無影寺
