AI Agent評測基準大揭秘:智能體的“體檢標準”
最近通用agent越來越火了,從3月初的manus到昨天的Genspark Super Agent,功能越來越強大,AI Agent的技術日新月異,眼花繚亂。
越來越多的公司將數以千計的agent作為核心競爭力,好不好用并不知道,究竟是數量取勝還是質量更加贏得消費者的喜歡?
從數量上,像扣子、騰訊元器等Agent創建平臺,上面有大量的agent,各行各業的agent都有,特別方便。
從質量上,爆火的通用智能體manus、Genspark Super Agent,以及多智能體mgx.dev,一夜爆火,全球追捧。
什么樣的Agent才算是好的Agent呢?
企業在推進agent業務時,究竟是保證質量還是數量為主呢?值得探討。
今天小編帶你一起來了解一下市面上主流的Agent評測基準。
先點個關注吧,防止走丟。
正文開始。
當前主流的AI Agent評測基準覆蓋了從通用智能到垂直領域、從英文到中文、從功能到安全的多個維度。
GAIA基準測試
核心內容與測試范圍
由Meta AI等團隊提出的綜合性基準,旨在評估通用AI助手解決現實問題的能力。
任務類型:466個問題分為三個難度級別,涉及文檔理解、網絡瀏覽、邏輯推理、多模態處理(如PPTX、PDF等文件分析)。
目前市面上的agent,可能90%都不能通過這個嚴苛的測試基準,做agent容易(prompt就可以,或者+workflow),做一個好的agent很難。
核心評價標準
GAIA 使用以下關鍵維度評估代理:
- 任務執行:代理能夠以最小的錯誤完成預定義的任務,并且無需直接人工干預。
- 適應性:代理對不可預見的情況的反應如何,需要動態的問題解決策略。
- 協作:評估多代理協調和人工代理合作功能。
- 普遍化:測試代理是否可以將學習到的知識應用于其訓練分布之外的新穎、看不見的場景。
- 真實世界的推理:GAIA 背離了優先考慮人類日益困難的任務的基準。相反,它專注于人類認為簡單但需要 AI 系統表現出結構化推理、規劃和準確執行的任務。
任務套件
GAIA 分為多個任務類別,每個任務類別評估不同的模式和交互模式:
- 語言和推理套件 :復雜的問答、基于對話的任務、解謎和戰略規劃。
- 視覺和感知套件 :對象檢測、場景理解和視覺語言任務。
- 協作套件 :多智能體協調和人機交互場景。
- Adaptation Suite:需要實時戰略轉變和動態學習的新事件。
評估指標
GAIA 使用可量化和可解釋的指標來衡量成功:
- 完成率 :成功完成的任務的比例。
- 響應質量 :生成輸出的準確性、相關性和精密度。
- 效率 :所花費的時間和計算開銷。
- 穩健性 :對抗場景下的性能、不完整的指令或誤導性數據。
- 泛化分數 :將技能擴展到訓練數據之外的新任務的能力。
特點:強調人類看似簡單但需要結構化推理的任務,例如通過畫作識別水果并按順序排列。
應用領域與認可度
應用:Meta、Monica的Manus等企業用于評估通用AI助手能力,尤其在多模態和工具調用場景。
Genspark 超級代理 GAIA
行業地位:被認為是評估AGI的重要里程碑,被學術界和工業界廣泛引用。
AgentBench
核心內容與測試范圍
清華大學等機構開發的系統性基準,評估LLM作為智能體的推理與決策能力。
任務類型:8個環境,包括操作系統(SQL操作)、知識圖譜、卡牌游戲、網絡購物等。
- 操作系統:評估LLM在Linux系統的bash環境中的操作能力,如文件操作、用戶管理等。
- 數據庫:考察LLM利用SQL操作給定的數據庫完成查詢、修改等任務。
- 知識圖譜:需要LLM利用給定的工具查詢知識圖譜,完成復雜的知識獲取任務。
- 卡牌游戲:將LLM視為玩家,根據規則和狀態進行數字卡牌游戲,評估策略決策能力。
- 橫向思維難題:提供難題故事,LLM需要進行問答來推理得到真相,檢查橫向思維能力。
- 家庭環境:在模擬的家中場景下,LLM需要自主完成日常任務,如搬移物品等。
- 網絡購物:按照要求在模擬購物網站上瀏覽和購買商品,評估自主探索決策能力。
- 網頁瀏覽:在真實網頁環境中,根據高級指令實現操作序列,完成網頁任務。
關于LLM的代理能力包括:理解人類意圖并執行指令、編碼能力、知識獲取和推理、策略決策、多輪一致性、邏輯推理、自主探索、可解釋的推理。
指標:任務完成率、多輪對話一致性、代碼生成準確性。
特點:覆蓋代碼與生活場景,如用SQL提取數據或預訂機票。
應用領域與認可度
應用:OpenAI的GPT-4、Anthropic Claude等主流模型參與測試,GPT-4以4.01分領先。
行業地位:首個系統性評估LLM代理能力的基準,推動學術界對開源與閉源模型差距的研究。
PaperBench
核心內容與測試范圍
定義:OpenAI推出的新基準,評估AI代理復現前沿研究的能力。
任務類型:復現20篇ICML 2024論文,包括代碼開發與實驗執行。
PaperBench 分 3 個階段運行:
- 代理推出 :代理在 ubuntu 容器中執行,它必須在其中創建其提交:復制論文的代碼庫。
- 復制 :代理提交的代碼庫在具有 GPU 訪問權限的第二個新容器中執行,以便獲得執行代碼庫的結果。這將創建已執行的提交 。
- 評分 :使用論文的評分量規對已執行的提交進行評分。在運行 judge 的位置創建第三個容器。
指標:復現得分(Claude 3.5 Sonnet平均21.0%)、人類基線對比。
特點:需要深入理解論文貢獻,測試科研輔助潛力。
應用領域與認可度
應用:OpenAI內部及學術機構用于測試模型科研能力,目前模型表現仍低于人類。
行業地位:新興基準,可能成為評估AI科研工具的關鍵標準。
WAA
核心內容與測試范圍
定義:微軟開發的基準,評估AI代理在Windows環境中的任務執行能力。
任務類型:154項任務,涵蓋Edge瀏覽器操作、Visual Studio Code編程、文件管理等。
指標:任務成功率(微軟Navi代理為19.5%,人類為74.5%)。
特點:支持Azure云并行測試,20分鐘完成全面評估。
應用領域與認可度
應用:微軟用于優化Windows生態中的AI助手,如Cortana后續迭代。
行業地位:首個聚焦操作系統級任務的基準,推動企業級AI工具開發。
SuperCLUE-Agent
核心內容與測試范圍
中文評測基準,評估大模型在中文任務中的Agent能力。
任務類型:包括工具使用(API調用)、任務規劃(分解與反思)、長短期記憶(多輪對話)、十大基礎能力。
維度一:工具使用
- 調用API:評估AI Agent能否根據API描述精確調用并正確響應。
- 檢索API:評估AI Agent能否選擇合適的API并學習使用。
- 規劃API:評估AI Agent在復雜任務中規劃多次API調用的能力。
- 通用工具使用:評估AI Agent使用搜索引擎、網頁瀏覽、文件操作等通用工具的能力。
維度二:任務規劃
- 任務分解:評估AI Agent將復雜任務分解為小任務的能力。
- 自我反思:評估AI Agent從錯誤中學習并改進的能力。
- 思維鏈(CoT):評估AI Agent將復雜任務分解為簡單步驟并逐步解決問題的能力。
維度三:長短期記憶
- 多文檔問答:評估AI Agent從多個文檔中提取并組合答案的能力。
- 長程對話:評估AI Agent在長對話中切換多個主題的能力。
- 少樣本示例學習:評估AI Agent通過少量示例解決新任務的能力,無需微調。
指標:中文場景下的任務完成率,GPT-4領先,國內模型接近GPT-3.5水平。
特點:填補中文Agent評估空白,覆蓋金融、醫療等垂直領域。
應用領域與認可度
應用:商湯科技、智譜AI等國內企業用于優化中文助手(如SenseChat 3.0)。
行業地位:中文領域權威基準,推動國產模型商業化。
AgentHarm
核心內容與測試范圍
評估LLM代理對有害請求的魯棒性,由Gray Swan AI等機構提出。
任務類型:440個惡意任務(如欺詐、騷擾),測試越獄后的多步驟執行能力。
指標:合規率、攻擊成功率(GPT-4等模型易被越獄)。
特點:首個聚焦代理安全性的基準,揭示現有模型的安全漏洞。
應用領域與認可度
應用:AI安全研究機構用于模型防御策略開發,如Anthropic Claude的安全迭代。
行業地位:AI安全領域的重要工具,被納入英國AI安全研究所的評估體系。
PromptBench
核心內容與測試范圍
微軟開發的統一評估庫,支持多樣化提示工程與對抗攻擊測試。
官方:https://promptbench.readthedocs.io/en/latest/
任務類型:情感分析、語法檢查、自然語言推理等12類任務。
- 情感分析(SST-2)
- 語法正確性(CoLA)
- 重復句子檢測(QQP和MRPC)
- 自然語言推理(MNLI,QNLI,RTE和WNLI)
- 多任務知識(MMLU數據集)
- 閱讀理解(SQuAD V2數據集)
- 翻譯(UN Mult,IWSLT 2017)
- 數學問題求解(Math和GSM8K)
- 邏輯推理(布爾表達式)
- 常識推理(常識QA,QASC,NummerSense,日期和對象跟蹤)
- 符號推理(LastLetterConcat)
- 算法(有效括號數據集)。
PromptBench目前包括6種提示工程方法:
- 少樣本Chain-of-Thought( few-shot Chainof-Thought)
- 零樣本Chain-of-Thought(zero-shot Chain-of-Thought)
- EmotionPrompt(EmotionPrompt)
- 專家提示(Expert Prompting)
- 生成知識(Generated Knowledge)
- 最小到最大(Least to Most)。
為便于研究LLM對提示的魯棒性,PromptBench集成了7種對抗性提示攻擊:TextBugger,TextFooler,BertAttack,DeepWordBug,Checklist,StressTest和語義。通過提示攻擊接口輕松調用,方便測試。
指標:對抗攻擊下的模型魯棒性、動態評估性能。
特點:模塊化設計,支持自定義提示與攻擊方法(如字符級/詞級攻擊)。
應用領域與認可度
應用:學術界用于模型魯棒性研究,微軟內部用于優化GPT系列提示策略。
行業地位:提示工程領域的標準化工具,被多篇頂會論文引用。
本文轉載自???AIGC新知??,作者:絳燁
