成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型掌握16000+真實世界API了,清華等機構ToolLLM的工具使用能力不輸ChatGPT

人工智能 新聞
本文提出了一個新的框架 ToolLLM,其增強了大型語言模型對 API 的使用。在指令調優數據集 ToolBench 上對 LLaMA 進行微調,得到的 ToolLLaMA 與 ChatGPT 性能相當。

相信大家都已經見識到了,開源大型語言模型(LLMs)及其變體(例如 LLaMA 和 Vicuna)在各種任務上取得了顯著的進展。

然而,盡管 LLM 很強大,但它們在執行更高級任務方面局限性仍然很大,比如讓 LLM 按照人類給出的指令使用外部工具(APIs),很多開源 LLM 就很難辦到。

原因在于當前 LLM 的指令調優技術主要集中在基本語言任務上,缺乏對工具使用方面的探索。這與最先進的閉源模型如 ChatGPT 形成了鮮明的對比,后者已經展示出出色的工具使用能力。

為了讓開源 LLM 更好的使用外部工具,來自清華、人大、耶魯、騰訊、知乎等多家機構的研究者聯合撰寫了論文,他們引入了一個通用工具使用框架 ToolLLM,該框架包括數據構建、模型訓練和評估多項功能。

值得一提的是,該研究從 RapidAPI Hub 收集了 16464 個真實世界的 RESTful API,涵蓋 49 個類別。

該研究在 ToolBench(指令調優數據集)上對 LLaMA 進行微調,得到了 ToolLLaMA。ToolEval(自動評估器)評估顯示,ToolLLaMA 展現出了出色的執行復雜指令和泛化到未知 API 的能力,并且在工具使用方面性能與 ChatGPT 相媲美。

圖片

  • 論文地址:https://arxiv.org/pdf/2307.16789.pdf
  • 項目地址:https://github.com/OpenBMB/ToolBench

方法介紹

論文首先介紹了 ToolBench,這是一個用于工具使用的指令調優數據集,由 ChatGPT 自動創建。具體而言,研究團隊從 RapidAPI Hub 收集了 16464 個涵蓋 49 個類別的真實世界 RESTful API,然后提示 ChatGPT 生成涉及這些 API 的多樣化人類指令,涵蓋單工具和多工具場景。最后,他們使用 ChatGPT 為每個指令搜索有效的解路徑(一系列 API 調用)。為了使搜索過程更加高效,他們開發了一種新穎的基于深度優先搜索的決策樹(DFSDT),使 LLMs 能夠評估多個推理軌跡并擴展搜索空間。

在數據集方面。如圖 1 所示,研究者首先收集了一些高質量的指令調優數據集 ToolBench。該數據集是通過使用最新的 ChatGPT(gpt-3.5-turbo-16k)自動構建的。

圖片

具體而言,ToolBench 的構建包含三個階段:API 收集(API collection)、指令生成、解路徑注釋(solution path annotation)。

API 收集

研究團隊從 RapidAPI 收集了 16464 個 REST(representational state transfer)API。這些 API 涵蓋 49 個不同類別,如社交媒體、電子商務和天氣。對于每個 API,研究團隊都會從 RapidAPI 抓取詳細的 API 文檔,包括功能描述、所需參數、API 調用的代碼片段等。他們希望 LLM 能夠通過理解這些文檔來學習使用 API,從而使模型能夠泛化到訓練過程中未見過的 API。

注:RapidAPI 是一個領先的 API 市場,它將開發者與成千上萬的真實世界 API 連接起來。在這個平臺上,開發者只需注冊一個 RapidAPI 密鑰,就可以發現、測試和連接各種 API。

RapidAPI 的層級結構 (左) 和指令生成過程 (右) 如下圖所示。對于每個工具,研究者會爬取以下信息:工具的名稱和描述,主機的 URL,以及屬于該工具的所有可用 API;對于每個 API,研究者會記錄其名稱、描述、HTTP 方法、必要參數、可選參數、可執行的 API 調用代碼片段等。

圖片

在這一過程中,還需要 API 過濾:最初,該研究從 RapidAPI 收集了 10853 個工具(53190 個 API)。然而,這些 API 的質量和可靠性可能會有很大的差異。為此,他們進行了嚴格的篩選過程,以確保 ToolBench 的最終工具集是可靠且功能正常的。最后只保留了 3451 個高質量的工具 (16464 個 API)。

指令生成

研究團隊首先從整套程序中抽取 API 樣本,然后使 ChatGPT 為這些 API 生成各種指令。為了涵蓋實際場景,他們策劃了涉及單工具和多工具場景的指令,這確保了模型不僅能學會如何與單個工具交互,還能學會如何將它們組合起來完成復雜的任務。

生成高質量的指令需要兩個重要特性:多樣性和多工具使用,以確保 LLM 能夠處理廣泛的 API 使用場景,并反映現實世界中經常需要多種工具相互作用的情況,從而提高 LLM 的實際應用性和靈活性。為此,研究團隊采用了一種自下而上的指令生成方法,即從收集 API 入手,然后精心制作涉及這些 API 的各種指令。

為所有 API 及其組合的指令生成過程如下,具體過程請參閱原文。

圖片

解路徑注釋

研究團隊對這些指令的高質量響應進行注釋。每個響應可能包含多輪模型推理和實時 API 調用,以得出最終答案。由于工具學習本身的難度,即使是最復雜的 LLM(即 GPT-4),對復雜指令的通過率也很低,從而導致數據收集效率低下。為此,研究團隊開發了一種新穎的基于深度優先搜索的決策樹(DFSDT),以增強 LLM 的規劃和推理能力。與傳統的思維鏈(CoT)和 ReACT 相比,DFSDT 使 LLM 能夠評估多種推理路徑,并慎重做出決定,以撤回步驟或沿著有希望的路徑前進。在實驗中,DFSDT 顯著提高了注釋效率,并成功完成了那些用 CoT 或 ReACT 無法回答的復雜指令。

下圖為在模型推理過程中,DFSDT 與傳統的 CoT 或 ReACT 的比較 (左)。

圖片

下表為 ToolBench 與其他研究的比較:

圖片

實驗及結果

本文通過實驗來研究了 ToolLLaMa 的性能,報告了 ToolLLaMa 的評估指標、API retriever 和 DFSDT 的有效性以及實驗和分析結果。

考慮到 API 的時間可變性,為每條測試指令標注固定的真實解路徑是不可行的。此外,確保不同模型在評估過程中使用相同版本的 API 也至關重要。考慮到人工評估可能會耗費大量時間,該研究仿效 AlpacaEval 開發了高效的機器評估工具 ToolEval,其依賴于 ChatGPT 的支持,并包含兩個關鍵評估指標:(1)通過率,用于衡量在有限預算內成功執行指令的能力,以及(2)勝率,用于比較兩條解路徑的質量和有用性。本文證明 ToolEval 與人類評估有很高的相關性,并為工具學習提供了一個強大、可擴展且可靠的評估方式。

圖片

如表 2 所示,在不同類型的指令中,研究團隊的 API 檢索器始終優于 BM25 和 Ada Embedding。較高的 NDCG 得分表明其在 API 檢索方面的有效性。此外,I1 的 NDCG 分數遠高于 I2 和 I3,這意味著單工具指令在 API 檢索方面比多工具指令相對簡單。

圖片

從表 3 可以看出,DFSDT 在所有情況下的性能都明顯優于其余兩種基線方法,這表明 DFSDT 是一種更有效的方法,可以節省解路徑標注的成本。并且與較簡單的指令(I1)相比,DFSDT 對較難指令(即 I2 和 I3)的性能提升更為明顯。這說明,除了效率之外,DFSDT 還能解決那些困難、復雜的指令,而這些指令是普通 ReACT 無論執行多少次都無法回答的。將此類 「困難示例 」納入數據集,可以充分激發工具在這些復雜情況下的使用能力。

圖片

圖片

從表 4 中可以發現:

  • ToolLLaMA 在通過率和獲勝率方面都明顯優于傳統的工具使用方法 ChatGPT-ReACT,并表現出卓越的泛化能力。此外,當 ToolLLaMA 與 DFSDT 結合使用時,其表現也優于 Text-Dainci-003。
  • 雖然研究團隊對 prompt 工程進行了廣泛研究,但 Vicuna 和 Alpaca 都未能通過任何指令,這意味著它們的指令遵循能力并未擴展到工具使用場景。這凸顯了當前主要側重于提高語言技能的指令調優方法的不足。

總體而言,ToolLLaMA 在所有場景中都表現出了競爭力,其通過率略低于 ChatGPT+DFSDT。在獲勝率方面,ToolLLaMA 與 ChatGPT+DFSDT 的能力基本相當,在 I2-Cat 設置中甚至超過了后者。

總之,這些結果表明,ToolBench 可以充分激發 LLM 的工具使用能力,使他們能夠熟練掌握各種指令的未知 API。

在實驗研究團隊對 LLaMA 的所有參數進行了微調,得到了 ToolLLaMA。為了提高參數效率,他們進一步應用了具有代表性的參數效率調整方法 LoRA,并研究了其對性能的影響。下表 5 中的結果表明,參數效率的提高是在性能權衡的基礎上實現的。他們期待未來的嘗試能設計出不犧牲性能的前提下實現參數效率的方法。

圖片

更多詳細內容,請參閱原文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-08 14:36:11

模型AI

2024-11-04 12:48:12

2023-06-06 07:03:02

2023-06-20 13:44:49

清華推理

2023-04-27 13:46:08

語言模型ChatGPT人工智能

2023-04-12 16:04:14

模型AI

2023-06-05 12:32:48

模型論文

2025-05-08 09:10:30

2023-08-10 08:46:52

2022-12-29 16:58:31

ChatGPT模型

2025-02-26 14:22:18

2025-04-02 01:25:00

2023-12-23 23:14:27

模型開源

2025-02-17 10:09:54

2025-02-17 13:00:00

ChatGPT大模型AI

2023-05-08 12:12:56

2023-03-29 09:11:55

2024-05-29 09:34:02

GPTs原生API

2025-01-27 12:41:00

2024-01-03 17:40:49

模型AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产亚洲精品久久yy50 | 在线免费观看黄色网址 | 国产一区2区 | 91精品国产91久久久久久吃药 | 国产一区二区电影 | 国产清纯白嫩初高生在线播放视频 | 成人网在线 | 亚洲一区二区在线 | 网络毛片| 亚洲一二三区在线观看 | 一级黄色片在线免费观看 | 精品亚洲一区二区三区 | 欧美日韩国产高清视频 | 美人の美乳で授乳プレイ | 91精品国产高清久久久久久久久 | 亚洲天天干| 一级毛片中国 | 仙人掌旅馆在线观看 | 中文字幕日韩av | 男人电影天堂 | 亚洲精品久久久久久国产精华液 | 国产成人午夜精品影院游乐网 | 欧美三区在线观看 | 中文字幕亚洲一区二区va在线 | 中文成人在线 | 一区二区三区国产视频 | 国产一区不卡 | 亚洲一区二区精品视频在线观看 | 精品国产欧美一区二区 | 国产精品成人69xxx免费视频 | 国产视频二区 | 午夜精品一区二区三区在线视 | 欧美寡妇偷汉性猛交 | 特一级毛片| 少妇av片 | 91爱啪啪 | 最新黄色在线观看 | 精品免费视频 | 91久久精品一区 | 色综合天天天天做夜夜夜夜做 | 一级免费看 |