成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!

發布于 2024-5-17 14:12
瀏覽
0收藏

大型語言模型(LLMs)在多種任務中展現了強大的能力,研究者嘗試將其作為代理,通過使用外部工具或插件幫助用戶完成任務。為了提高LLMs的工具理解和使用能力,需要準備高質量的工具學習數據集。現有的工具學習數據集存在一些限制:例如工具數量有限、評估方法不精確或成本高昂。

提出了一種自指導(self-instruct)方法,通過LLMs生成工具和實例。該方法首先生成不同領域的工具,然后生成調用這些工具的實例,包括單工具實例和多工具實例。

數據集構建方法的流程圖

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!-AI.x社區

  • 工具模板:設計了工具模板,用于生成具有輸入參數和輸出響應的API樣式工具。

Seal-Tools工具模板以及以“getTemperature”工具為例:

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!-AI.x社區

  • 實例生成:生成實例包括用戶查詢和工具調用,通過多步驟生成并設置檢查點以減少錯誤。

一些生成的字段/子字段和工具的示例:

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!-AI.x社區

單工具調用的實例模板

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!-AI.x社區

多工具嵌套調用的實例模板

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!-AI.x社區

設計了三個評估維度:輸出格式、工具選擇和工具參數填充,以進行詳細評估。

Seal-Tools與幾個工具學習數據集的比較。? 格式混亂。? 多步驟。

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!-AI.x社區

對幾種流行的LLMs和微調模型在Seal-Tools上進行了評估,結果顯示基于Seal-Tools微調的模型顯示出很大的競爭力,但是當前的Agent系統在工具選擇和參數填充方面仍有改進空間,Seal-Tools可以作為推動LLMs工具學習研究的新基準。。

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!-AI.x社區

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!-AI.x社區

https://arxiv.org/abs/2405.08355
Seal-Tools: Self-Instruct Tool Learning Dataset for Agent Tuning and Detailed Benchmark
https://github.com/fairyshine/Seal-Tools

本文轉載自?? PaperAgent??,作者: PaperAgent

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 91日韩 | 日韩av福利在线观看 | 91精品国产日韩91久久久久久 | 国产欧美一区二区三区在线看 | 综合色站导航 | www97影院| av在线一区二区三区 | 伊人精品一区二区三区 | 神马久久久久久久久久 | 日韩日韩日韩日韩日韩日韩日韩 | 亚洲经典一区 | 婷婷久久精品一区二区 | 久久夜视频 | m豆传媒在线链接观看 | 毛色毛片免费看 | 欧美国产日韩一区二区三区 | 午夜精品一区二区三区免费视频 | 91免费在线看 | 91精品久久久久久久久 | 伊人免费视频二 | 国产精品成人一区二区三区 | 在线观看视频中文字幕 | 99久久99| 国产91在线播放精品91 | 精品国产18久久久久久二百 | 亚洲人成一区二区三区性色 | 亚洲人成人一区二区在线观看 | 91免费在线 | 91高清在线观看 | 久久亚洲精品国产精品紫薇 | 视频一区二区三区中文字幕 | 久久高清 | 久久lu| 亚洲国产一区在线 | 国产精品123区 | 日韩专区中文字幕 | 亚洲欧洲在线看 | 欧美日韩中文在线 | 亚洲国产成人精品女人久久久 | 亚洲综合大片69999 | 欧美日韩精选 |