ACL'25 | 多智能體叛變進行中?首個多智能體安全守衛G-Safeguard亮相!
獨木不成林,隨著基于大型語言模型(LLM)的多智能體系統(MAS)的崛起,我們見證了智能體團隊在復雜任務中展現的驚人潛力,儼然形成了數字世界的"智慧軍團"。然而,當這些"AI戰隊"深入醫療診斷、金融決策等關鍵領域時,你是否為這些安全隱患夜不能寐:
- 攻擊者"策反"智能體,讓系統輸出錯誤內容卻渾然不覺?
- 攻擊者注入的病毒像"數字病毒"般在智能體間傳播,導致集體表現出"中毒"現象?
- 傳統單agent防御策略在應用于多智能體系統時,效率低下且資源消耗顯著?
別擔心!多智能體界的"拓撲盾牌"已然出鞘!由中國科學技術大學聯合NUS等機構等提出G-Safeguard ——一個基于拓撲智能的安全防護框架,為多智能體系統打造"數字免疫網絡"。論文已經被ACL 2025錄用為Main track論文。
論文
論文標題:G-Safeguard: A Topology-Guided Security Lens and Treatment on LLM-based Multi-agent Systems
論文鏈接:https://arxiv.org/pdf/2502.11127
代碼鏈接:https://github.com/wslong20/G-safeguard
背景介紹
隨著大型語言模型的快速發展,基于LLM的多智能體系統(在協作問題解決、自主決策和環境感知等復雜任務中展現出卓越能力。然而,隨著此類系統在關鍵領域的廣泛應用,其暴露的安全隱患日益凸顯。攻擊者可通過提示注入(直接或間接操縱系統指令)、內存中毒(污染智能體的歷史記錄或外部知識庫)和工具攻擊(利用外部接口傳播惡意指令)等手段,使單個智能體產生偏差或錯誤輸出,并通過多智能體間的交互迅速擴散,導致系統整體性能下降甚至引發集體惡意行為。現有防御方法多局限于單智能體場景,忽視了MAS的拓撲依賴性(如信息傳播路徑)和跨規模通用性挑戰,難以應對動態交互網絡中攻擊的級聯效應。
近年來,針對多智能體系統的毒性傳播機制與單智能體防御策略已取得顯著進展,但多智能體協同防御領域仍存在關鍵挑戰:(1)基于LLM的防御策略因其高昂的計算成本與實時性不足,難以適配多智能體系統的動態需求;(2)現有防御框架難以應對MAS拓撲結構的動態可變性,缺乏跨架構的通用防御范式。
為了應對這些挑戰,我們推出了G-Safeguard——一款基于拓撲引導的安全防護框架,旨在為多智能體系統提供強大的安全保障。
MasRouter
G-Safeguard是一款基于圖神經網絡(GNN)的安全防護框架,專為多智能體系統設計。它通過構建多智能體話語圖,實時監控智能體之間的交互,識別異常行為,并通過拓撲干預阻斷惡意信息的傳播。方法的整體流程如下圖所示:
多智能體話語圖
基于多智能體系統安全防御需求,G-Safeguard通過動態構建多智能體話語圖捕捉攻擊傳播特征。由于攻擊類型與拓撲結構的動態耦合關系難以顯式定義,G-Safeguard采用概率圖模型隱式建模語義關聯:通過文本嵌入模型(如MiniLM)提取節點歷史話語的語義表征,并通過排列不變融合函數將跨輪次交互序列編碼為邊特征:
從而構建動態演化的話語圖,為后續風險檢測提供拓撲-語義耦合的圖結構數據。我們用像MiniLM這樣的文本嵌入模型來實例化。
基于圖的攻擊檢測
將多智能體系統(MAS)中的攻擊檢測形式化為多智能體話語圖上的節點分類問題。通過構建動態的交互圖(節點表示智能體,邊表示通信關系),利用圖神經網絡(GNN)捕捉拓撲結構與語義依賴,識別受攻擊的智能體。具體流程如下:
通過以下公式計算是否攻擊節點的概率:
用于修復的邊剪枝
G-Safeguard通過拓撲干預來緩解攻擊的負面影響,在每一輪對話結束后,通過圖神經網絡識別出高風險節點。一旦識別出高風險節點,G-Safeguard會剪除這些節點的出邊,阻止惡意信息的傳播。具體來說,下一輪的交互拓撲會被重新定義為當前拓撲減去高風險節點的所有出邊。公式如下:
除了拓撲干預,修復策略可以根據用戶需求進行定制。例如,可以使用過濾機制(如AWS Bedrock)來清理被攻擊代理生成的內容,或者向用戶發出預警,主動減輕潛在危害。
通過這種剪枝操作,G-Safeguard有效地抑制了誤導或對抗性信息的傳播,確保了多智能體系統的魯棒性。
優化目標
我們通過優化交叉熵損失函數來提高G-Safeguard的攻擊檢測能力,該函數被公式化為攻擊標簽的期望負對數似然:
實驗分析
G-Safeguard 我們在3種對智能體不同的攻擊方式(提示注入,工具攻擊,記憶攻擊)下,在各種拓撲結構(chain, tree, star, random)以及基于各種不同LLM(GPT-4o, GPT-4o-mini, LLaMA-3.1-70b, Claude-3.5-haiku, Deepseekv3)的多智能體系統上進行了實驗驗證,驗證結果如下:
我們可以發現,G-Safeguard 具有非常強大的防御能力,能夠有效防止各種不同類型的攻擊在多智能體系統中進一步傳播,從而恢復多智能體系統處理任務的能力。此外,G-Safeguard 可以遷移到由不同大語言模型(LLM)構建的多智能體系統以及不同拓撲結構的多智能體系統上,展現出極強的泛化性。
除此之外,我們將MAS的規模變大,將其拓展到具有更多智能體(最高80個)的MAS系統,實驗結果如下:
從圖中可以看出,G-safeguard可以在更大的多智能體系統上,依舊有優越的效果,這得益于圖的歸納特性,從而讓我們以低成本訓練的G-safeguard可以直接遷移到大型的多智能體系統上!
結語
我們引入了 G-Safeguard 框架,該框架旨在增強模型的歸納學習能力。這個框架開創了在小規模 MAS 上進行訓練并將防御機制無縫轉移到大規模 MAS 架構的能力。通過在各種系統配置(例如樹、鏈、圖)以及不同攻擊場景(例如提示注入、內存攻擊)下進行廣泛的實驗,我們證明了 G-Safeguard 不僅提供了卓越的攻擊防御能力,還促進了保護能力在不同基礎大型語言模型(LLM)之間的輕松轉移。這些發現為 MAS 安全的未來研究開辟了新途徑。
本文轉載自???PaperAgent??
