成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

T-Eval:大模型智能體能力評(píng)測(cè)基準(zhǔn)解讀 | ACL 2024

發(fā)布于 2024-7-16 09:21
瀏覽
0收藏

AI Agent(智能體)作為大模型的重要應(yīng)用模式,能夠通過使用外部工具來執(zhí)行復(fù)雜任務(wù),完成多步驟的工作流程。為了能全面評(píng)估模型的工具使用能力,司南及合作伙伴團(tuán)隊(duì)推出了 T-Eval 評(píng)測(cè)基準(zhǔn),相關(guān)成果論文已被ACL 2024主會(huì)錄用。

查看原文:https://arxiv.org/abs/2312.14033?

PART1為什么需要 T-Eval?

使用了工具的大語(yǔ)言模型有著驚艷的問題解決能力,但是如何評(píng)估模型的工具使用能力還有很大的探索空間。現(xiàn)有評(píng)估方法通常只關(guān)注模型處理單步驟任務(wù)時(shí)的工具調(diào)用表現(xiàn),缺少在多步驟復(fù)雜任務(wù)場(chǎng)景下模型使用工具能力的評(píng)估。

因此,為了更全面地評(píng)估大語(yǔ)言模型的工具使用能力,司南及合作伙伴團(tuán)隊(duì)推出了 T-Eval (a step-by-step Tool Evaluation benchmark for LLMs) 評(píng)測(cè)基準(zhǔn),相較于之前整體評(píng)估模型的方式,論文中將大模型的工具使用分解為多個(gè)子過程,包括:規(guī)劃、推理、檢索、理解、指令跟隨和審查。

T-Eval:大模型智能體能力評(píng)測(cè)基準(zhǔn)解讀 | ACL 2024-AI.x社區(qū)

  • 規(guī)劃(PLAN):將用戶問題分解為多個(gè)子問題,制定行動(dòng)計(jì)劃。
  • 推理(REASON):對(duì)上個(gè)狀態(tài)的完成情況的判斷,下一步行動(dòng)的思考。
  • 檢索(RETRIEVE):從給定的工具列表中選擇合適的工具。
  • 理解(UNDERSTAND):正確理解工具使用的參考文檔和所需參數(shù)。
  • 指令跟隨(INSTRUCT):生成指定格式的工具調(diào)用請(qǐng)求。
  • 審查(REVIEW):評(píng)估每個(gè)工具調(diào)用執(zhí)行的結(jié)果,確保回答滿足預(yù)期目標(biāo)。

PART2T-Eval 構(gòu)建過程

T-Eval 的構(gòu)建主要包括 3 個(gè)階段:工具收集、指令生成和參考答案標(biāo)注。

首先,我們根據(jù)可用性和使用率,挑選了15種基本工具,涵蓋了研究、旅行、娛樂、網(wǎng)絡(luò)、生活和金融等多個(gè)領(lǐng)域。此外,還為每個(gè)工具生成了詳細(xì)的API文檔,以減少因工具描述不充分而導(dǎo)致的工具調(diào)用失敗案例。

然后,我們利用 GPT-3.5 生成了初始問題,并通過 GPT-4 進(jìn)一步完善問題。之后,我們開發(fā)了一個(gè)多智能體框架,利用所提供的工具解決問題,同時(shí)收集解決方案路徑和工具響應(yīng)。最后,我們使用人類專家來挑選高質(zhì)量樣本。

T-Eval:大模型智能體能力評(píng)測(cè)基準(zhǔn)解讀 | ACL 2024-AI.x社區(qū)

PART3T-Eval 主要貢獻(xiàn)

細(xì)粒度評(píng)測(cè):T-Eval將評(píng)測(cè)過程分解為多個(gè)子任務(wù),分別評(píng)估模型在工具使用上的細(xì)粒度能力。

多智能體數(shù)據(jù)生成:使用了由人類專家驗(yàn)證的多智能體數(shù)據(jù)生成流程,顯著減少了外部因素的影響,使評(píng)測(cè)結(jié)果更加穩(wěn)定、公平。

廣泛實(shí)驗(yàn):通過在各種大模型上的廣泛實(shí)驗(yàn),驗(yàn)證了T-Eval的有效性和普適性,為當(dāng)前大語(yǔ)言模型的工具使用能力瓶頸提供了寶貴的見解,并為改進(jìn)工具使用能力提供了新的視角。

PART4T-Eval 評(píng)測(cè)結(jié)果

我們?cè)?T-Eval 上對(duì) 20 種大語(yǔ)言模型進(jìn)行了評(píng)測(cè),包括基于 API 的商業(yè)模型和開源模型。結(jié)果顯示,GPT-4 在整體評(píng)分上取得了最高分,顯示出其卓越的工具使用能力。對(duì)于開源模型,我們對(duì)三種不同規(guī)模的模型進(jìn)行了實(shí)驗(yàn),它們的尺寸大約是7B、13B和70B,可以發(fā)現(xiàn),隨著模型參數(shù)的增加,其表現(xiàn)也更加優(yōu)秀。特別是 Qwen-72B 模型,其總得分已接近 API 模型水平。

? T-Eval:大模型智能體能力評(píng)測(cè)基準(zhǔn)解讀 | ACL 2024-AI.x社區(qū) 圖片 ?

本文轉(zhuǎn)載自??司南評(píng)測(cè)體系??,作者: 司南OpenCompass ????

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 免费国产成人av | 日本三级电影在线免费观看 | 欧美一区二区三区视频 | 日韩在线不卡 | 91精品久久久久久久久久入口 | 国产精品一区二区久久 | 欧美一级欧美一级在线播放 | 天天弄| 99精品一区二区三区 | 这里有精品 | 午夜免费福利电影 | 国产精品1区 | 国产成人精品a视频一区www | 精品蜜桃一区二区三区 | 一区二区三区欧美在线 | 久久久久久国模大尺度人体 | 黄色精品视频网站 | 欧美午夜视频 | 精品福利视频一区二区三区 | 18gay男同69亚洲网站 | 视频一区二区中文字幕 | 日日操夜夜操天天操 | 日韩视频在线播放 | 国产欧美精品一区二区 | 韩国主播午夜大尺度福利 | 99免费在线观看视频 | 99re视频这里只有精品 | 久久综合av | 国产欧美精品区一区二区三区 | 日韩一区二区黄色片 | 欧美午夜一区 | 求毛片 | 91成人精品| 久久久免费精品 | 我想看一级黄色毛片 | 久久精品中文字幕 | 久久人人爽人人爽人人片av免费 | 欧美日韩亚洲一区 | 成人深夜福利网站 | 成人欧美一区二区三区黑人孕妇 | 亚洲一区二区在线视频 |