成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

蘋果大模型新成果:GPT-4o扮演用戶,在場景中考察大模型工具調用,網友:Siri也要努力 | 開源

人工智能 新聞
這套Benchmark創新性地采用了場景化測評方法,可以更好體現模型在真實環境中的水平。

蘋果團隊,又發布了新的開源成果——一套關于大模型工具調用能力的Benchmark。

這套Benchmark創新性地采用了場景化測評方法,可以更好體現模型在真實環境中的水平。

而且還引入了對話交互、狀態依賴等傳統標準中沒有關注到的重要場景。

圖片

這套測試基準名叫ToolSandbox,蘋果基礎模型團隊負責人龐若鳴也參與了研究工作。

ToolSandbox彌補了現有測試標準缺乏場景化評估的不足,縮小了測試條件與實際應用之間的差距。

圖片

而且在交互上,作者讓GPT-4o扮演用戶和被測模型進行對話,從而模擬真實世界中的場景。

比如告訴GPT-4o你不再是一個助理,而是要扮演正在和用戶B對話的用戶A,然后提出一系列具體要求。

圖片

另外,作者也利用ToolSandbox對一些主流模型進行了測試,結果整體上看閉源比開源模型分數更高,其中最強的是GPT-4o。

iOS應用開發者Nick Dobos表示,蘋果的這套標準簡潔明了。

同時他指出,現在ChatGPT面對三個工具就已經有些捉襟見肘,Siri要想管理好手機中幾十上百個應用,也需要提高工具調用能力。

言外之意,ToolSandbox的研究,或許是為了給Siri之后的研發探明方向。

圖片

在場景中測試模型

如前文所述,ToolSandbox采用了場景化、交互式的測試方法。

具體來說,ToolSandbox中一共包括了單/多工具調用、單/多輪對話、狀態依賴、標準化和信息不足等七種類型的近2000個場景。

前面的相對比較好理解,這里針對后面的三種場景類型這里做一下解釋:

  • 狀態依賴:工具的執行依賴于某些全局狀態,需要先通過其他工具對該狀態進行修改;
  • 規范化:將自然語言表達轉換為工具需要的標準形式,過程中可能需要借助其他工具;
  • 信息不足:故意缺失完成任務所需的關鍵工具,考察模型能否識別無法完成的情況。

圖片

在這些場景下,ToolSandbox會關注模型的三個指標:

  • 整體表現,即各類場景下的與預設答案的平均相似度
  • 魯棒性,用多種方式對工具進行魔改、干擾,觀察模型在這種環境下的表現
  • 效率,也就是平均任務完成輪次

工具方面,作者選用了34個可組合的Python函數作為工具,與真實場景的復雜性相當。

其中既有原生Python工具,也集成了部分RapidAPI工具,功能覆蓋搜索、對話、導航、天氣、圖像處理等多個常見領域。

流程上,首先是準備測試場景,研究人員會定義初始世界狀態并存儲,同時使用經過校準的GPT-4o模型生成初始用戶消息。

然后進入交互式執行階段,系統首先初始化Message Bus作為角色間的通信渠道,并配置好扮演用戶的模型以及被測模型。

對話循環開始后,模擬用戶的模型發送初始消息,被測模型接收這條消息并決定下一步行動——直接回復用戶,或調用工具與環境交互。

如果模型選擇調用工具,它會以JSON格式提供必要的參數,執行環境隨后解釋并執行這個調用,可能會更新世界狀態,并處理潛在的并行調用條件。

執行結果返回給被測模型后,被測模型再次決定下一步行動,這個過程持續進行,直到用戶模擬器認為任務完成(或無法完成),此時它會調用end_conversation工具結束對話。

圖片

在整個交互過程中,系統記錄所有的消息和狀態變化,形成一個完整的“對話軌跡”,這個“軌跡”隨后進入評估階段。

評估則使用預定義的“里程碑”和“雷區”來衡量代理模型的表現。

里程碑定義了完成任務的關鍵事件,形成一個有向無環圖來反映時間依賴關系。

系統會尋找軌跡中事件與里程碑之間的最佳匹配,同時保持里程碑的拓撲順序。

雷區則定義了禁止發生的事件,主要用于檢測模型是否在信息不足的情況下產生幻覺。

舉個例子,下圖展示了“不充分信息”場景下一個地雷場(Minefield)評估的例子。

在這個任務中,由于當前時間戳不可用,模型不應該調用timestamp_diff工具,但模型錯誤地猜測了當前時間戳并調用了工具,導致這一輪得分為0。

圖片

最終,系統計算出一個綜合得分,這個得分是平均里程碑匹配分數與雷區懲罰的乘積。

此外,系統還會統計完成任務所需的平均輪次,作為評估模型效率的補充指標。

復雜交互場景仍然是挑戰

從整體上看,閉源模型在工具調用上的表現要好于開源模型

平均分最高的是GPT-4o,成績是73.0,唯一一個超過了70,且在作者設置的七個場景中的四個里都取得了最高成績。

而且GPT-4o魯棒性也極強,作者用了8種方法對工具進行魔改,GPT-4o對其中的其中都有最高的魯棒性評分。

緊隨其后的是Claude 3-Opus,平均分為69.2,在信息不足 的場景當中表現還超過了GPT-4o,再然后就是GPT和Claude的一些其他版本。

谷歌的Gemini則相對落后,1.5 Pro的成績為60.4,剛剛及格,還不如GPT-3.5,不過在信息不足這個單項上表現不錯。

開源模型的最高平均分就只有31.4了,其中比較有名的Mistral-7B得分是29.8,但在信息不足這個單項上取得了76.8的最好成績。

甚至其中的Gorilla、Command-R等部分開源模型根本無法處理工具響應,或者只能勉強完成單輪工具調用。

圖片

進一步分析表明,開源模型在識別何時該調用工具方面表現不佳,更傾向于將問題當作純文本生成任務。

從任務維度上看,大模型在單/多工具調用和單輪用戶請求上表現優異,但在多輪對話和狀態依賴任務上優勢減弱

在GPT、Claude、Gemini等家族中,更大的模型在多工具調用和多輪對話任務上的優勢更明顯;但在狀態依賴任務上,中小模型(如GPT-3.5、Claude-3-Sonnet)反而比大模型(GPT-4、Claude-3-Opus)表現更好

另外,規范化是所有模型的一大挑戰,尤其是需要借助工具進行規范化的場景,以及時間相關參數的規范化也十分困難。

針對魯棒性的研究表明,模型對工具描述、參數信息等變化的敏感程度差異較大,沒有發現明顯的規律。

效率上,更強的模型通常更高效,但也有例外,比如Claude系列模型的效率普遍優于GPT。

總之,大模型在工具使用方面,應對現實世界的復雜交互場景時仍面臨諸多挑戰。

作者簡介

ToolSandbox團隊成員來自蘋果公司的機器學習、數據科學、基礎大模型等多個團隊。

第一作者是華人機器學習工程師Jiarui Lu,本科畢業于清華大學,就讀期間還在朱軍教授實驗室中擔任研究助理。

隨后,Lu在卡內基梅隆大學取得了機器學習碩士學位,畢業后于2020年加入蘋果公司。

圖片

包括Lu在內,署名的12位作者當中有10位都是華人,而且都有名校背景。

其中也包括基礎大模型團隊負責人龐若鳴(Ruoming Pang)。

圖片

另外,在蘋果工作了8年的工程主管Bernhard Aumayer也參與了這一項目。

圖片

論文地址:https://arxiv.org/abs/2408.04682

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-09-06 13:00:29

2024-08-09 12:50:02

2025-05-26 08:33:00

2024-06-05 13:09:26

2024-10-17 14:05:34

2024-05-14 11:29:15

2025-01-15 10:28:21

2024-09-06 13:31:31

2024-11-12 14:00:00

AI編程

2025-02-17 09:35:00

ChatGPT模型AI

2024-06-12 11:50:23

2024-11-04 08:40:00

2024-07-24 12:40:44

2025-01-22 16:57:32

字節跳動豆包大模型

2025-04-30 16:48:07

2025-05-15 09:10:00

2025-03-10 09:36:00

2025-05-12 08:50:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美激情欧美激情在线五月 | 久久一区二区三区四区 | 久久久久成人精品免费播放动漫 | 亚洲九九色 | 久久免费视频在线 | 亚洲国产第一页 | 国产视频一区二区 | 久久精品亚洲 | 久久免费精品 | 69福利影院 | 成人一区二区视频 | 超碰av人人| 国产999精品久久久久久 | 亚洲视频免费播放 | 一区二区三区精品 | 亚洲天天干 | 日韩欧美精品在线 | 国产中文原创 | 91精品国产91久久久久久最新 | 美国黄色一级片 | 亚洲一区日韩 | 久久国产精品网 | 国产成人av电影 | 91久久久久久久久久久 | 蜜桃五月天| 亚洲精品久久久久久国产精华液 | 亚洲精品99 | 4h影视 | 日本a在线 | wwwxxx国产 | 91精品国产91久久久久久不卞 | 中文字幕 在线观看 | 国产精品美女久久久久aⅴ国产馆 | 欧美在线天堂 | 欧美视频 | 可以在线看的黄色网址 | 午夜丰满寂寞少妇精品 | 日韩在线视频一区 | 美女国内精品自产拍在线播放 | av免费网站在线观看 | 国产成人免费视频网站高清观看视频 |