性能提升90%,Anthropic 首次公開多智能體架構構建全流程 原創 精華
Anthropic 6月13日分享了關于構建多智能體系統的架構設計,幾乎是毫無保留地展示了如何從零開始打造一個強大的多智能體(Multi-Agent)DeepResearch 系統,也就是 Claude 目前內置的 Research 功能。
整個內容干貨滿滿,涵蓋了架構設計、Prompt 提示詞工程、效果評估,以及在生產環境中可能遇到的各種問題,可以說毫無保留。
下文對要點詳細剖析。
1、多智能體系統的優勢
為什么不用單個強大的 AI 智能體,而是要搞復雜的“多智能體”架構呢?
Anthropic 用數據給出了答案:在內部研究評估中,一個由 Claude Opus 4 擔任“領導”,多個 Claude Sonnet 4 作為“員工”的多智能體系統,性能比單獨使用的 Opus 4 高出 90.2%!
背后的邏輯其實很簡單:通過投入更多的 Token 來解決問題。Token 的使用量本身就解釋了80%的性能差異。多智能體架構通過并行處理,讓多個 AI 智能體同時在各自的上下文中思考和搜索,本質上是擴展了解決問題的“算力”和“思考容量”,尤其適合處理那些需要“廣度優先”探索的復雜問題。
不過,缺點也很明顯:成本高昂。多智能體系統消耗的 Token 大約是普通聊天的15倍。因此,這種架構更適合那些價值足夠高、能夠承受高成本的復雜任務。
2、多智能體架構設計
Anthropic的 Research 多智能體系統采用了經典的“協調者-工作者”(Orchestrator-Worker)架構。一個“主導智能體”(Lead Agent)負責協調整個流程,并將任務分解后分配給多個并行的專業子智能體(Subagents)。
以下是整個架構設計工作流程的清晰描述:
引用與生成:當信息足夠時,系統將所有發現交給一個專門的“引用智能體”(Citation Agent),確保所有結論都有可靠的依據,并最終生成帶有引用的完整報告。
傳統的檢索增強生成(Retrieval Augmented Generation,RAG)方法采用的是靜態檢索:即根據輸入查詢檢索出最相似的信息片段,并用這些片段生成回復。相比之下,我們的架構采用多步搜索,能夠動態發現相關信息,及時調整策略,并對結果進行分析,從而給出高質量答案。
這種架構通過分工協作,極大地提高了復雜任務的處理效率和準確性。
3、多智能體系統的 Prompt 提示詞工程設計
多智能體系統的復雜度呈指數級上升,很容易出現“為了解決一個簡單問題而調用50個 AI 智能體”的失控局面。
而 Prompt 提示詞工程是規范和引導 AI 智能體行為的關鍵。Anthropic 總結了以下8條核心法則:
- 像 AI 智能體一樣思考:在控制臺(Console)中模擬 AI Agent 的工作流程,逐個步驟觀察其行為,這樣才能直觀地發現問題。
- 教會 Lead 智能體如何描述子任務:給子智能體的任務描述必須清晰明確,包括目標、輸出格式、使用工具和任務邊界。模糊的指令如“去研究一下XX”是遠遠不夠的。
- 根據任務復雜度調整資源投入:在 Prompt 中明確指定不同難度任務的資源配比。簡單任務用1個 AI 智能體,復雜任務則動用10個以上 AI 智能體,避免小題大做。
- 工具設計和選擇至關重要:工具的描述必須清晰且有區分度。同時,要給 AI 智能體一些啟發式規則,比如“先瀏覽一遍所有可用工具再做決策”。
- 讓 AI 智能體自我改進:Anthropic 創建了一個“工具測試 Agent”。它會反復試用新工具,并自動重寫工具的描述文檔,以便后續 AI 智能體使用起來更加順手。結果是任務完成時間減少了40%。
- 先廣后窄:引導 AI 智能體像人類專家一樣進行研究,先用寬泛的查詢了解全貌,再逐步縮小范圍,而不是一開始就使用一個又長又窄的查詢,否則可能什么也搜不到。
- 引導思考過程:使用“思考模式”(extended thinking),讓 AI 智能體把思考過程寫下來。Lead 智能體用它來規劃,子智能體用它來評估每一步的工具調用結果。
- 并行工具調用改變游戲規則:讓 Lead Agent 并行分派子 Agent,再讓每個子 Agent 并行調用工具。這兩層并行直接將復雜查詢的耗時減少了90%。
4、多智能體系統的有效評估
評估多智能體系統不能像傳統軟件測試那樣,只檢查它是否遵循了預設的“正確”路徑,因為通往正確答案的路徑不止一條。Anthropic 的經驗是:
- 立即開始小樣本評估:在開發的早期階段,一個小小的 Prompt 調整可能讓成功率從30%飆升到80%。這種巨大的變化通過20個測試用例就能明顯看出。不要等到構建幾百個測試用例的完美評估系統才開始動手。
- 用 LLM 當裁判:對于研究這類開放式輸出,讓 LLM 根據一個標準化的評分表(比如:事實準確性、引用準確性、完整度、信源質量等)來打分,是一種既可擴展又具一致性的方法。
- 真人測試必不可少:自動化評估總有盲點。比如:真人測試員發現早期 AI 智能體總是傾向于選擇 SEO 過度的內容農場,而不是權威的學術 PDF。這些細微的偏好只有通過人工測試才能發現。
5、多智能體系統生產環境下的可靠性與工程挑戰
從能夠運行的 AI 智能體原型到穩定可靠的生產系統,中間隔著巨大的鴻溝。以下是四大工程難題:
第一、錯誤恢復
AI 智能體是長時間運行的,一旦出錯,不能簡單地從頭開始(成本過高)。必須建立一種機制,能夠在錯誤發生的地方恢復,并讓 AI 智能體學會優雅地處理工具失效等問題。
第二、非確定性下的監控
AI 智能體的行為是動態的,且不完全可復現,這使得調試變得極其困難。唯一的解決辦法是建立完善的生產環境追蹤系統,監控 AI 智能體的決策模式和交互結構。
第三、部署協調
線上隨時有大量 AI 智能體在運行,不能直接暴力更新。他們采用“rainbow deployments”(彩虹部署)的方式,平滑地將流量從舊版本遷移到新版本,確保服務不中斷。
第四、同步的瓶頸
目前系統是同步的,Lead Agent 必須等待一批子 Agent 全部完成后才能進行下一步,這效率很低。未來向異步執行演進是必然趨勢,盡管這會帶來狀態一致性、錯誤傳遞等新的挑戰。
6、總結
在構建 AI 智能體的過程中,最后一公里往往成為最為艱難的階段。開發者本地能夠運行的代碼,距離成為可靠的生產系統還需要大量工程化努力。在 AI 智能體系統中,錯誤具有復合特性,這意味著對于傳統軟件而言的輕微問題,可能會導致 AI 智能體完全崩潰。只要某一步失敗,AI 智能體就可能走向完全不同的路徑,進而產生不可預測的結果。正如本文所述,從原型到生產環境之間的鴻溝,往往比人們預期的更為寬廣。
盡管存在這些挑戰,多智能體系統在開放性研究任務中依然展現出巨大價值。用戶反饋稱,Claude 幫助他們發現了未曾考慮過的商業機會,理清了復雜的醫療方案,解決了棘手的技術難題,還能通過揭示原本難以獨立發現的研究關聯,節省數天工作時間。只要注重工程細節、全面測試、精心設計提示詞和工具、完善運維實踐,并確保研究、產品與工程團隊之間緊密協作,對當前 AI 智能體能力有深刻理解,多智能體研究系統完全可以在規模化應用中保持可靠運行。我們已經看到,這些系統正在改變人們解決復雜問題的方式。
本文轉載自??玄姐聊AGI?? 作者:玄姐
