蘋果大模型新成果：GPT-4o扮演用戶，在場景中考察大模型工具調用，網友：Siri也要努力 | 開源

作者：量子位 2024-08-14 12:54:46

人工智能新聞

這套Benchmark創新性地采用了場景化測評方法，可以更好體現模型在真實環境中的水平。

蘋果團隊，又發布了新的開源成果——一套關于大模型工具調用能力的Benchmark。

這套Benchmark創新性地采用了場景化測評方法，可以更好體現模型在真實環境中的水平。

而且還引入了對話交互、狀態依賴等傳統標準中沒有關注到的重要場景。

這套測試基準名叫ToolSandbox，蘋果基礎模型團隊負責人龐若鳴也參與了研究工作。

ToolSandbox彌補了現有測試標準缺乏場景化評估的不足，縮小了測試條件與實際應用之間的差距。

而且在交互上，作者讓GPT-4o扮演用戶和被測模型進行對話，從而模擬真實世界中的場景。

比如告訴GPT-4o你不再是一個助理，而是要扮演正在和用戶B對話的用戶A，然后提出一系列具體要求。

另外，作者也利用ToolSandbox對一些主流模型進行了測試，結果整體上看閉源比開源模型分數更高，其中最強的是GPT-4o。

iOS應用開發者Nick Dobos表示，蘋果的這套標準簡潔明了。

同時他指出，現在ChatGPT面對三個工具就已經有些捉襟見肘，Siri要想管理好手機中幾十上百個應用，也需要提高工具調用能力。

言外之意，ToolSandbox的研究，或許是為了給Siri之后的研發探明方向。

在場景中測試模型

如前文所述，ToolSandbox采用了場景化、交互式的測試方法。

具體來說，ToolSandbox中一共包括了單/多工具調用、單/多輪對話、狀態依賴、標準化和信息不足等七種類型的近2000個場景。

前面的相對比較好理解，這里針對后面的三種場景類型這里做一下解釋：

狀態依賴：工具的執行依賴于某些全局狀態，需要先通過其他工具對該狀態進行修改；
規范化：將自然語言表達轉換為工具需要的標準形式，過程中可能需要借助其他工具；
信息不足：故意缺失完成任務所需的關鍵工具，考察模型能否識別無法完成的情況。

在這些場景下，ToolSandbox會關注模型的三個指標：

整體表現，即各類場景下的與預設答案的平均相似度
魯棒性，用多種方式對工具進行魔改、干擾，觀察模型在這種環境下的表現
效率，也就是平均任務完成輪次

工具方面，作者選用了34個可組合的Python函數作為工具，與真實場景的復雜性相當。

其中既有原生Python工具，也集成了部分RapidAPI工具，功能覆蓋搜索、對話、導航、天氣、圖像處理等多個常見領域。

流程上，首先是準備測試場景，研究人員會定義初始世界狀態并存儲，同時使用經過校準的GPT-4o模型生成初始用戶消息。

然后進入交互式執行階段，系統首先初始化Message Bus作為角色間的通信渠道，并配置好扮演用戶的模型以及被測模型。

對話循環開始后，模擬用戶的模型發送初始消息，被測模型接收這條消息并決定下一步行動——直接回復用戶，或調用工具與環境交互。

如果模型選擇調用工具，它會以JSON格式提供必要的參數，執行環境隨后解釋并執行這個調用，可能會更新世界狀態，并處理潛在的并行調用條件。

執行結果返回給被測模型后，被測模型再次決定下一步行動，這個過程持續進行，直到用戶模擬器認為任務完成（或無法完成），此時它會調用end_conversation工具結束對話。

在整個交互過程中，系統記錄所有的消息和狀態變化，形成一個完整的“對話軌跡”，這個“軌跡”隨后進入評估階段。

評估則使用預定義的“里程碑”和“雷區”來衡量代理模型的表現。

里程碑定義了完成任務的關鍵事件，形成一個有向無環圖來反映時間依賴關系。

系統會尋找軌跡中事件與里程碑之間的最佳匹配，同時保持里程碑的拓撲順序。

雷區則定義了禁止發生的事件，主要用于檢測模型是否在信息不足的情況下產生幻覺。

舉個例子，下圖展示了“不充分信息”場景下一個地雷場（Minefield）評估的例子。

在這個任務中，由于當前時間戳不可用，模型不應該調用timestamp_diff工具，但模型錯誤地猜測了當前時間戳并調用了工具，導致這一輪得分為0。

最終，系統計算出一個綜合得分，這個得分是平均里程碑匹配分數與雷區懲罰的乘積。

此外，系統還會統計完成任務所需的平均輪次，作為評估模型效率的補充指標。

復雜交互場景仍然是挑戰

從整體上看，閉源模型在工具調用上的表現要好于開源模型。

平均分最高的是GPT-4o，成績是73.0，唯一一個超過了70，且在作者設置的七個場景中的四個里都取得了最高成績。

而且GPT-4o魯棒性也極強，作者用了8種方法對工具進行魔改，GPT-4o對其中的其中都有最高的魯棒性評分。

緊隨其后的是Claude 3-Opus，平均分為69.2，在信息不足的場景當中表現還超過了GPT-4o，再然后就是GPT和Claude的一些其他版本。

谷歌的Gemini則相對落后，1.5 Pro的成績為60.4，剛剛及格，還不如GPT-3.5，不過在信息不足這個單項上表現不錯。

開源模型的最高平均分就只有31.4了，其中比較有名的Mistral-7B得分是29.8，但在信息不足這個單項上取得了76.8的最好成績。

甚至其中的Gorilla、Command-R等部分開源模型根本無法處理工具響應，或者只能勉強完成單輪工具調用。

進一步分析表明，開源模型在識別何時該調用工具方面表現不佳，更傾向于將問題當作純文本生成任務。

從任務維度上看，大模型在單/多工具調用和單輪用戶請求上表現優異，但在多輪對話和狀態依賴任務上優勢減弱。

在GPT、Claude、Gemini等家族中，更大的模型在多工具調用和多輪對話任務上的優勢更明顯；但在狀態依賴任務上，中小模型（如GPT-3.5、Claude-3-Sonnet）反而比大模型（GPT-4、Claude-3-Opus）表現更好。

另外，規范化是所有模型的一大挑戰，尤其是需要借助工具進行規范化的場景，以及時間相關參數的規范化也十分困難。

針對魯棒性的研究表明，模型對工具描述、參數信息等變化的敏感程度差異較大，沒有發現明顯的規律。

效率上，更強的模型通常更高效，但也有例外，比如Claude系列模型的效率普遍優于GPT。

總之，大模型在工具使用方面，應對現實世界的復雜交互場景時仍面臨諸多挑戰。

作者簡介

ToolSandbox團隊成員來自蘋果公司的機器學習、數據科學、基礎大模型等多個團隊。

第一作者是華人機器學習工程師Jiarui Lu，本科畢業于清華大學，就讀期間還在朱軍教授實驗室中擔任研究助理。

隨后，Lu在卡內基梅隆大學取得了機器學習碩士學位，畢業后于2020年加入蘋果公司。

包括Lu在內，署名的12位作者當中有10位都是華人，而且都有名校背景。

其中也包括基礎大模型團隊負責人龐若鳴（Ruoming Pang）。

另外，在蘋果工作了8年的工程主管Bernhard Aumayer也參與了這一項目。

論文地址：https://arxiv.org/abs/2408.04682

責任編輯：張燕妮來源：量子位

AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

蘋果大模型新成果：GPT-4o扮演用戶，在場景中考察大模型工具調用，網友：Siri也要努力 | 開源

在場景中測試模型

復雜交互場景仍然是挑戰

作者簡介