T-Eval：大模型智能體能力評(píng)測(cè)基準(zhǔn)解讀 | ACL 2024

發(fā)布于 2024-7-16 09:21

瀏覽

0收藏

AI Agent（智能體）作為大模型的重要應(yīng)用模式，能夠通過使用外部工具來執(zhí)行復(fù)雜任務(wù)，完成多步驟的工作流程。為了能全面評(píng)估模型的工具使用能力，司南及合作伙伴團(tuán)隊(duì)推出了 T-Eval 評(píng)測(cè)基準(zhǔn)，相關(guān)成果論文已被ACL 2024主會(huì)錄用。

查看原文：https://arxiv.org/abs/2312.14033?

PART1為什么需要 T-Eval？

使用了工具的大語(yǔ)言模型有著驚艷的問題解決能力，但是如何評(píng)估模型的工具使用能力還有很大的探索空間。現(xiàn)有評(píng)估方法通常只關(guān)注模型處理單步驟任務(wù)時(shí)的工具調(diào)用表現(xiàn)，缺少在多步驟復(fù)雜任務(wù)場(chǎng)景下模型使用工具能力的評(píng)估。

因此，為了更全面地評(píng)估大語(yǔ)言模型的工具使用能力，司南及合作伙伴團(tuán)隊(duì)推出了 T-Eval (a step-by-step Tool Evaluation benchmark for LLMs) 評(píng)測(cè)基準(zhǔn)，相較于之前整體評(píng)估模型的方式，論文中將大模型的工具使用分解為多個(gè)子過程，包括：規(guī)劃、推理、檢索、理解、指令跟隨和審查。

T-Eval：大模型智能體能力評(píng)測(cè)基準(zhǔn)解讀 | ACL 2024-AI.x社區(qū)

規(guī)劃（PLAN）：將用戶問題分解為多個(gè)子問題，制定行動(dòng)計(jì)劃。
推理（REASON）：對(duì)上個(gè)狀態(tài)的完成情況的判斷，下一步行動(dòng)的思考。
檢索（RETRIEVE）：從給定的工具列表中選擇合適的工具。
理解（UNDERSTAND）：正確理解工具使用的參考文檔和所需參數(shù)。
指令跟隨（INSTRUCT）：生成指定格式的工具調(diào)用請(qǐng)求。
審查（REVIEW）：評(píng)估每個(gè)工具調(diào)用執(zhí)行的結(jié)果，確保回答滿足預(yù)期目標(biāo)。

PART2T-Eval 構(gòu)建過程

T-Eval 的構(gòu)建主要包括 3 個(gè)階段：工具收集、指令生成和參考答案標(biāo)注。

首先，我們根據(jù)可用性和使用率，挑選了15種基本工具，涵蓋了研究、旅行、娛樂、網(wǎng)絡(luò)、生活和金融等多個(gè)領(lǐng)域。此外，還為每個(gè)工具生成了詳細(xì)的API文檔，以減少因工具描述不充分而導(dǎo)致的工具調(diào)用失敗案例。

然后，我們利用 GPT-3.5 生成了初始問題，并通過 GPT-4 進(jìn)一步完善問題。之后，我們開發(fā)了一個(gè)多智能體框架，利用所提供的工具解決問題，同時(shí)收集解決方案路徑和工具響應(yīng)。最后，我們使用人類專家來挑選高質(zhì)量樣本。

T-Eval：大模型智能體能力評(píng)測(cè)基準(zhǔn)解讀 | ACL 2024-AI.x社區(qū)

PART3T-Eval 主要貢獻(xiàn)

細(xì)粒度評(píng)測(cè)：T-Eval將評(píng)測(cè)過程分解為多個(gè)子任務(wù)，分別評(píng)估模型在工具使用上的細(xì)粒度能力。

多智能體數(shù)據(jù)生成：使用了由人類專家驗(yàn)證的多智能體數(shù)據(jù)生成流程，顯著減少了外部因素的影響，使評(píng)測(cè)結(jié)果更加穩(wěn)定、公平。

廣泛實(shí)驗(yàn)：通過在各種大模型上的廣泛實(shí)驗(yàn)，驗(yàn)證了T-Eval的有效性和普適性，為當(dāng)前大語(yǔ)言模型的工具使用能力瓶頸提供了寶貴的見解，并為改進(jìn)工具使用能力提供了新的視角。

PART4T-Eval 評(píng)測(cè)結(jié)果

我們?cè)?T-Eval 上對(duì) 20 種大語(yǔ)言模型進(jìn)行了評(píng)測(cè)，包括基于 API 的商業(yè)模型和開源模型。結(jié)果顯示，GPT-4 在整體評(píng)分上取得了最高分，顯示出其卓越的工具使用能力。對(duì)于開源模型，我們對(duì)三種不同規(guī)模的模型進(jìn)行了實(shí)驗(yàn)，它們的尺寸大約是7B、13B和70B，可以發(fā)現(xiàn)，隨著模型參數(shù)的增加，其表現(xiàn)也更加優(yōu)秀。特別是 Qwen-72B 模型，其總得分已接近 API 模型水平。

? T-Eval：大模型智能體能力評(píng)測(cè)基準(zhǔn)解讀 | ACL 2024-AI.x社區(qū) 圖片 ?