成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

清華等開源「工具學(xué)習(xí)基準(zhǔn)」ToolBench,微調(diào)模型ToolLLaMA性能超越ChatGPT

人工智能
人工智能基礎(chǔ)模型也類似,如果僅靠訓(xùn)練階段得到的權(quán)重,使用場(chǎng)景就會(huì)非常受限,而最近提出的工具學(xué)習(xí)(tool learning),將特定領(lǐng)域的專用工具與大規(guī)模基礎(chǔ)模型相結(jié)合,可以實(shí)現(xiàn)更高的效率、性能。

人類具有創(chuàng)造和利用工具的能力,使得我們可以突破身體的限制,探索更廣闊的世界。 

人工智能基礎(chǔ)模型也類似,如果僅靠訓(xùn)練階段得到的權(quán)重,使用場(chǎng)景就會(huì)非常受限,而最近提出的工具學(xué)習(xí)(tool learning),將特定領(lǐng)域的專用工具與大規(guī)?;A(chǔ)模型相結(jié)合,可以實(shí)現(xiàn)更高的效率、性能。

不過目前工具學(xué)習(xí)的相關(guān)研究還不夠深入,也缺乏相關(guān)的開源數(shù)據(jù)和代碼。

最近,清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室等支持的開源社區(qū)OpenBMB (Open Lab for Big Model Base)發(fā)布了ToolBench項(xiàng)目,可以幫助開發(fā)者構(gòu)建開源、大規(guī)模、高質(zhì)量的指令調(diào)優(yōu)數(shù)據(jù),促進(jìn)構(gòu)建具有通用工具使用能力的大型語(yǔ)言模型。

圖片

倉(cāng)庫(kù)鏈接:https://github.com/OpenBMB/ToolBench

ToolBench倉(cāng)庫(kù)中提供了相關(guān)數(shù)據(jù)集、訓(xùn)練和評(píng)估腳本,以及在ToolBench上微調(diào)的功能模型ToolLLaMA,具體特點(diǎn)為:

1. 支持單工具和多工具方案

其中單工具設(shè)置遵循LangChain提示風(fēng)格,多工具設(shè)置遵循AutoGPT的提示風(fēng)格。

2. 模型回復(fù)不僅包括最終答案,還包含模型的思維鏈過程、工具執(zhí)行和工具執(zhí)行結(jié)果

3. 支持真實(shí)世界級(jí)別的復(fù)雜性,支持多步工具調(diào)用

4. 豐富的API,可用于現(xiàn)實(shí)世界中的場(chǎng)景,如天氣信息、搜索、股票更新和PowerPoint自動(dòng)化

5. 所有的數(shù)據(jù)都是由OpenAI API自動(dòng)生成并由開發(fā)團(tuán)隊(duì)進(jìn)行過濾,數(shù)據(jù)的創(chuàng)建過程很容易擴(kuò)展

不過需要注意的是,目前發(fā)布的數(shù)據(jù)還不是最終版本,研究人員仍然在對(duì)數(shù)據(jù)進(jìn)行后處理來提高數(shù)據(jù)質(zhì)量,并增加真實(shí)世界工具的覆蓋范圍。

ToolBench

ToolBench的總體思路是基于BMTools,在有監(jiān)督數(shù)據(jù)中訓(xùn)練大型語(yǔ)言模型。

圖片

倉(cāng)庫(kù)中包含31.2萬(wàn)次真實(shí)API調(diào)用得到的9800條數(shù)據(jù),涵蓋單工具場(chǎng)景和多工具場(chǎng)景,下面是單工具的統(tǒng)計(jì)信息。

圖片

其中每行數(shù)據(jù)都是一個(gè)json dict,包含數(shù)據(jù)創(chuàng)建的提示模板、工具使用的人工指令(查詢)、中間思維/工具執(zhí)行循環(huán)和最終答案。

Tool Descrition:
BMTools Tool_name: translation
Tool action: get_translation
action_input: {"text": target texts, "tgt_lang": target language}


Generated Data:
{
    "prompt": "Answer the following questions as best you can. Specifically, you have access to the following APIs:\n\nget_translation: . Your input should be a json (args json schema): {{\"text\" : string, \"tgt_lang\" : string, }} The Action to trigger this API should be get_translation and the input parameters should be a json dict string. Pay attention to the type of parameters.\n\nUse the following format:\n\nQuestion: the input question you must answer\nThought: you should always think about what to do\nAction: the action to take, should be one of [get_translation]\nAction Input: the input to the action\nObservation: the result of the action\n... (this Thought/Action/Action Input/Observation can repeat N times, max 7 times)\nThought: I now know the final answer\nFinal Answer: the final answer to the original input question\n\nBegin! Remember: (1) Follow the format, i.e,\nThought:\nAction:\nAction Input:\nObservation:\nFinal Answer:\n (2) Provide as much as useful information in your Final Answer. (3) Do not make up anything, and if your Observation has no link, DO NOT hallucihate one. (4) If you have enough information and want to stop the process, please use \nThought: I have got enough information\nFinal Answer: **your response. \n The Action: MUST be one of the following:get_translation\nQuestion: {input}\n Agent scratchpad (history actions):\n {agent_scratchpad}",
    "query": "My intention is to convert the data provided in ?? ?? ??????? ??????? ?????? ???????? into Arabic(ara).\n",
    "chains": [
        {
            "thought": "I need to use the get_translation API to convert the text into Arabic.",
            "action": "get_translation",
            "action_input": "{\"text\": \"What are the three branches of the military?\", \"tgt_lang\": \"ara\"}",
            "observation": "\"?? ?? ?????? ??????? ????? ?\""
        }
    ],
    "answer": "The translation of \"What are the three branches of the military?\" into Arabic is \"?? ?? ?????? ??????? ????? ?\"."
}

模型實(shí)驗(yàn)

機(jī)器評(píng)估:研究人員對(duì)每個(gè)工具隨機(jī)抽取100個(gè)鏈步(chain steps)來構(gòu)建機(jī)器評(píng)估測(cè)試平臺(tái),平均27個(gè)最終步驟和73個(gè)中間工具調(diào)用步驟,其中最終步驟的評(píng)估使用Rouge-L指標(biāo),中間步驟的評(píng)估使用ExactMatch指標(biāo)進(jìn)行評(píng)估。


圖片

人工評(píng)估:在天氣、地圖、股票、翻譯、化學(xué)和WolframAlpha工具中隨機(jī)抽取10個(gè)query,然后評(píng)估工具調(diào)用過程的通過率、最終答案以及和ChatGPT最終答案的比較。

ChatGPT評(píng)估:通過ChatGPT對(duì)LLaMA和ChatGPT的答案和工具使用鏈進(jìn)行自動(dòng)評(píng)估。

評(píng)估結(jié)果如下(分?jǐn)?shù)越高越好),可以看到ToolLLaMA在不同場(chǎng)景下與ChatGPT的性能相同或更好。

圖片

工具學(xué)習(xí)

在清華大學(xué)、人民大學(xué)、北京郵電大學(xué)等個(gè)國(guó)內(nèi)外知名高校和大學(xué)聯(lián)合發(fā)布的一篇論文中,對(duì)工具學(xué)習(xí)進(jìn)行了系統(tǒng)的研究,介紹了工具學(xué)習(xí)的背景,包括認(rèn)知起源、基礎(chǔ)模型的范式轉(zhuǎn)變,以及工具和模型的互補(bǔ)作用。

圖片

論文鏈接:https://arxiv.org/pdf/2304.08354.pdf

文中還回顧了現(xiàn)有的工具學(xué)習(xí)研究,包括工具增強(qiáng)型和工具導(dǎo)向型學(xué)習(xí),并制定了一個(gè)通用的工具學(xué)習(xí)框架:從理解用戶指令開始,模型應(yīng)該學(xué)會(huì)把一個(gè)復(fù)雜的任務(wù)分解成幾個(gè)子任務(wù),通過推理動(dòng)態(tài)地調(diào)整計(jì)劃,并通過選擇合適的工具有效地征服每個(gè)子任務(wù)。

文中還討論了如何訓(xùn)練模型以提高工具使用能力并促進(jìn)工具學(xué)習(xí)的普及。

考慮到之前的工作中缺乏系統(tǒng)的工具學(xué)習(xí)評(píng)估,研究人員用17種有代表性的工具進(jìn)行了實(shí)驗(yàn),并展示了當(dāng)前基礎(chǔ)模型在熟練利用工具方面的潛力。

論文最后討論了幾個(gè)需要進(jìn)一步研究的工具學(xué)習(xí)的開放性問題,例如確保安全和可信賴的工具使用、用基礎(chǔ)模型實(shí)現(xiàn)工具創(chuàng)建,以及解決個(gè)性化的難題。

參考資料:

https://github.com/OpenBMB/ToolBench

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-08-02 13:50:06

2024-04-18 10:39:57

2025-05-28 11:46:18

開源模型數(shù)據(jù)

2025-02-05 12:53:21

2023-10-17 12:33:27

AI模型

2023-07-04 10:18:25

開源模型

2023-06-05 12:32:48

模型論文

2024-01-03 12:56:39

2021-11-23 09:30:34

架構(gòu)AI技術(shù)

2025-02-06 14:28:16

2025-03-19 09:15:00

AI算法模型

2023-08-08 14:36:11

模型AI

2024-10-15 13:07:38

2023-09-11 15:57:16

人工智能模型GPT-4

2024-03-06 18:09:06

Linux性能工具

2023-09-26 11:58:32

2023-10-16 13:28:00

數(shù)據(jù)AI

2024-07-22 07:10:00

小模型機(jī)器學(xué)習(xí)蘋果

2023-09-25 09:58:25

AI框架

2025-06-06 09:10:00

模型開源AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美 中文字幕 | 欧美精品中文字幕久久二区 | 一区二区三区在线观看视频 | 在线精品一区二区 | 九九热国产精品视频 | 中文一区二区视频 | 欧美日韩在线一区 | 欧美精品一区在线观看 | 日韩在线播放网址 | 亚洲成av人片在线观看无码 | 久久精品黄色 | 日韩欧美福利视频 | 欧美日韩高清 | 色黄网站 | 亚洲欧美成人影院 | 久久久久久久久中文字幕 | 成人a视频在线观看 | 亚洲九色 | 色网站入口 | 国产高清精品一区二区三区 | 91精品综合久久久久久五月天 | 亚洲国产一区视频 | 欧美啊v在线观看 | 欧美午夜激情在线 | 午夜影院黄 | 日韩欧美亚洲综合 | 一区二区高清 | 岛国av免费观看 | 国产一伦一伦一伦 | 欧美一区二区三区 | 求毛片 | 一区二区三区高清 | 欧美日高清 | 久久久久久久久久久久亚洲 | 日韩av成人| 亚洲精品专区 | 一区二区三区四区视频 | 91在线精品秘密一区二区 | www.亚洲精品 | 91亚洲国产 | 精品欧美一区二区三区精品久久 |