性能提升90%，Anthropic 首次公開多智能體架構構建全流程原創精華

發布于 2025-6-20 06:33

瀏覽

0收藏

Anthropic 6月13日分享了關于構建多智能體系統的架構設計，幾乎是毫無保留地展示了如何從零開始打造一個強大的多智能體（Multi-Agent）DeepResearch 系統，也就是 Claude 目前內置的 Research 功能。

整個內容干貨滿滿，涵蓋了架構設計、Prompt 提示詞工程、效果評估，以及在生產環境中可能遇到的各種問題，可以說毫無保留。

下文對要點詳細剖析。

1、多智能體系統的優勢

為什么不用單個強大的 AI 智能體，而是要搞復雜的“多智能體”架構呢？

性能提升90%，Anthropic 首次公開多智能體架構構建全流程-AI.x社區

Anthropic 用數據給出了答案：在內部研究評估中，一個由 Claude Opus 4 擔任“領導”，多個 Claude Sonnet 4 作為“員工”的多智能體系統，性能比單獨使用的 Opus 4 高出 90.2%！

背后的邏輯其實很簡單：通過投入更多的 Token 來解決問題。Token 的使用量本身就解釋了80%的性能差異。多智能體架構通過并行處理，讓多個 AI 智能體同時在各自的上下文中思考和搜索，本質上是擴展了解決問題的“算力”和“思考容量”，尤其適合處理那些需要“廣度優先”探索的復雜問題。

不過，缺點也很明顯：成本高昂。多智能體系統消耗的 Token 大約是普通聊天的15倍。因此，這種架構更適合那些價值足夠高、能夠承受高成本的復雜任務。

2、多智能體架構設計

Anthropic的 Research 多智能體系統采用了經典的“協調者-工作者”（Orchestrator-Worker）架構。一個“主導智能體”（Lead Agent）負責協調整個流程，并將任務分解后分配給多個并行的專業子智能體（Subagents）。

以下是整個架構設計工作流程的清晰描述：

性能提升90%，Anthropic 首次公開多智能體架構構建全流程-AI.x社區

用戶提問：系統創建一個主導智能體（Lead Agent）。

規劃：主導智能體思考并制定研究計劃，將計劃存儲在外部“記憶”中，以避免因上下文過長而被截斷。

分派：創建多個專業的子智能體（Subagents），并為它們分配具體的研究任務。

執行：每個子智能體獨立進行網絡搜索、調用工具，并通過“交錯思考”（interleaved thinking）來評估結果、調整下一步行動。

匯總：子智能體將發現的結果返回給主導智能體。

綜合與迭代：主導智能體綜合所有信息，判斷是否需要進一步研究。如果需要，則啟動新一輪的子智能體任務。

引用與生成：當信息足夠時，系統將所有發現交給一個專門的“引用智能體”（Citation Agent），確保所有結論都有可靠的依據，并最終生成帶有引用的完整報告。

性能提升90%，Anthropic 首次公開多智能體架構構建全流程-AI.x社區

傳統的檢索增強生成（Retrieval Augmented Generation，RAG）方法采用的是靜態檢索：即根據輸入查詢檢索出最相似的信息片段，并用這些片段生成回復。相比之下，我們的架構采用多步搜索，能夠動態發現相關信息，及時調整策略，并對結果進行分析，從而給出高質量答案。

這種架構通過分工協作，極大地提高了復雜任務的處理效率和準確性。

3、多智能體系統的 Prompt 提示詞工程設計

多智能體系統的復雜度呈指數級上升，很容易出現“為了解決一個簡單問題而調用50個 AI 智能體”的失控局面。

而 Prompt 提示詞工程是規范和引導 AI 智能體行為的關鍵。Anthropic 總結了以下8條核心法則：

像 AI 智能體一樣思考：在控制臺（Console）中模擬 AI Agent 的工作流程，逐個步驟觀察其行為，這樣才能直觀地發現問題。
教會 Lead 智能體如何描述子任務：給子智能體的任務描述必須清晰明確，包括目標、輸出格式、使用工具和任務邊界。模糊的指令如“去研究一下XX”是遠遠不夠的。
根據任務復雜度調整資源投入：在 Prompt 中明確指定不同難度任務的資源配比。簡單任務用1個 AI 智能體，復雜任務則動用10個以上 AI 智能體，避免小題大做。
工具設計和選擇至關重要：工具的描述必須清晰且有區分度。同時，要給 AI 智能體一些啟發式規則，比如“先瀏覽一遍所有可用工具再做決策”。
讓 AI 智能體自我改進：Anthropic 創建了一個“工具測試 Agent”。它會反復試用新工具，并自動重寫工具的描述文檔，以便后續 AI 智能體使用起來更加順手。結果是任務完成時間減少了40%。
先廣后窄：引導 AI 智能體像人類專家一樣進行研究，先用寬泛的查詢了解全貌，再逐步縮小范圍，而不是一開始就使用一個又長又窄的查詢，否則可能什么也搜不到。
引導思考過程：使用“思考模式”（extended thinking），讓 AI 智能體把思考過程寫下來。Lead 智能體用它來規劃，子智能體用它來評估每一步的工具調用結果。
并行工具調用改變游戲規則：讓 Lead Agent 并行分派子 Agent，再讓每個子 Agent 并行調用工具。這兩層并行直接將復雜查詢的耗時減少了90%。

4、多智能體系統的有效評估

評估多智能體系統不能像傳統軟件測試那樣，只檢查它是否遵循了預設的“正確”路徑，因為通往正確答案的路徑不止一條。Anthropic 的經驗是：

立即開始小樣本評估：在開發的早期階段，一個小小的 Prompt 調整可能讓成功率從30%飆升到80%。這種巨大的變化通過20個測試用例就能明顯看出。不要等到構建幾百個測試用例的完美評估系統才開始動手。
用 LLM 當裁判：對于研究這類開放式輸出，讓 LLM 根據一個標準化的評分表（比如：事實準確性、引用準確性、完整度、信源質量等）來打分，是一種既可擴展又具一致性的方法。
真人測試必不可少：自動化評估總有盲點。比如：真人測試員發現早期 AI 智能體總是傾向于選擇 SEO 過度的內容農場，而不是權威的學術 PDF。這些細微的偏好只有通過人工測試才能發現。

5、多智能體系統生產環境下的可靠性與工程挑戰

從能夠運行的 AI 智能體原型到穩定可靠的生產系統，中間隔著巨大的鴻溝。以下是四大工程難題：

第一、錯誤恢復

AI 智能體是長時間運行的，一旦出錯，不能簡單地從頭開始（成本過高）。必須建立一種機制，能夠在錯誤發生的地方恢復，并讓 AI 智能體學會優雅地處理工具失效等問題。

第二、非確定性下的監控

AI 智能體的行為是動態的，且不完全可復現，這使得調試變得極其困難。唯一的解決辦法是建立完善的生產環境追蹤系統，監控 AI 智能體的決策模式和交互結構。

第三、部署協調

線上隨時有大量 AI 智能體在運行，不能直接暴力更新。他們采用“rainbow deployments”（彩虹部署）的方式，平滑地將流量從舊版本遷移到新版本，確保服務不中斷。

第四、同步的瓶頸

目前系統是同步的，Lead Agent 必須等待一批子 Agent 全部完成后才能進行下一步，這效率很低。未來向異步執行演進是必然趨勢，盡管這會帶來狀態一致性、錯誤傳遞等新的挑戰。

6、總結

在構建 AI 智能體的過程中，最后一公里往往成為最為艱難的階段。開發者本地能夠運行的代碼，距離成為可靠的生產系統還需要大量工程化努力。在 AI 智能體系統中，錯誤具有復合特性，這意味著對于傳統軟件而言的輕微問題，可能會導致 AI 智能體完全崩潰。只要某一步失敗，AI 智能體就可能走向完全不同的路徑，進而產生不可預測的結果。正如本文所述，從原型到生產環境之間的鴻溝，往往比人們預期的更為寬廣。

盡管存在這些挑戰，多智能體系統在開放性研究任務中依然展現出巨大價值。用戶反饋稱，Claude 幫助他們發現了未曾考慮過的商業機會，理清了復雜的醫療方案，解決了棘手的技術難題，還能通過揭示原本難以獨立發現的研究關聯，節省數天工作時間。只要注重工程細節、全面測試、精心設計提示詞和工具、完善運維實踐，并確保研究、產品與工程團隊之間緊密協作，對當前 AI 智能體能力有深刻理解，多智能體研究系統完全可以在規模化應用中保持可靠運行。我們已經看到，這些系統正在改變人們解決復雜問題的方式。

本文轉載自??玄姐聊AGI?? 作者：玄姐

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

多智能體

AI智能體

已于2025-6-20 06:33:19修改

贊

回復

舉報

社區頭條

熱門內容榜 ? 最近上榜

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

性能提升90%，Anthropic 首次公開多智能體架構構建全流程原創精華

1、多智能體系統的優勢

2、多智能體架構設計

3、多智能體系統的 Prompt 提示詞工程設計

4、多智能體系統的有效評估

5、多智能體系統生產環境下的可靠性與工程挑戰

第一、錯誤恢復

第二、非確定性下的監控

第三、部署協調

第四、同步的瓶頸

6、總結

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

性能提升90%，Anthropic 首次公開多智能體架構構建全流程 原創 精華

1、多智能體系統的優勢

2、多智能體架構設計

3、多智能體系統的 Prompt 提示詞工程設計

4、多智能體系統的有效評估

5、多智能體系統生產環境下的可靠性與工程挑戰

第一、錯誤恢復

第二、非確定性下的監控

第三、部署協調

第四、同步的瓶頸

6、總結

目錄

性能提升90%，Anthropic 首次公開多智能體架構構建全流程原創精華