成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

三個(gè)Agent頂個(gè)GPT-4,基于開(kāi)源小模型的那種

人工智能 新聞
本文為基于開(kāi)源小模型的多智能體協(xié)作打開(kāi)了新思路,并在多個(gè)工具調(diào)用benchmark上取得了超過(guò)單模型Agent baseline,比肩GPT-4的工具調(diào)用結(jié)果。

真·“三個(gè)臭皮匠,頂個(gè)諸葛亮”——

基于開(kāi)源小模型的三個(gè)Agent協(xié)作,比肩GPT-4的工具調(diào)用效果!

話不多說(shuō),直接來(lái)看兩個(gè)系統(tǒng)執(zhí)行記錄。

用戶表示自己是一個(gè)音樂(lè)愛(ài)好者,想探索不同的音樂(lè)流派以及音樂(lè)家。于是指定模型使用Deezer和Shazam的API來(lái)搜尋一些音樂(lè)曲目以及相應(yīng)藝術(shù)家信息。

之后“飾演”三個(gè)不同的角色的Agent分工協(xié)作,在兩步之內(nèi)完成了任務(wù)

圖片

更難一點(diǎn)的,不指定工具,讓模型找一個(gè)最受歡迎的風(fēng)景畫(huà)教程視頻以及上傳該視頻的頻道詳情。

在這種情況下,模型通常會(huì)遇到工具狀態(tài)變化,出現(xiàn)工具被下架或工具所需參數(shù)定義變化的問(wèn)題。

圖片

然而使用上述方法,模型在第0步試圖使用video_for_simple_youtube_search來(lái)獲取視頻詳細(xì)信息,但發(fā)現(xiàn)這個(gè)API已經(jīng)被破壞,無(wú)法調(diào)用。

因此飾演planner角色的Agent轉(zhuǎn)換思路,告訴飾演caller角色的Agent需要嘗試另外一個(gè)API,并最終通過(guò)嘗試新的API發(fā)現(xiàn)了詳細(xì)信息,解決了用戶的任務(wù)。

這就是中山大學(xué)、阿里通義實(shí)驗(yàn)室聯(lián)合提出的一種基于開(kāi)源小模型的多模型協(xié)作Agent框架——α-UMi。

圖片

α-UMi通過(guò)微調(diào)多個(gè)開(kāi)源小模型,實(shí)現(xiàn)協(xié)同作戰(zhàn),在工具調(diào)用等數(shù)據(jù)集效果比肩GPT-4。

總的來(lái)說(shuō),相比于其他的基于閉源API框架,α-UMi的優(yōu)勢(shì)有以下幾點(diǎn):

  • 基于α-UMi多模型協(xié)同框架,通過(guò)三個(gè)小模型:planner、caller和summarizer分別負(fù)責(zé)路徑規(guī)劃、工具調(diào)用和總結(jié)回復(fù),對(duì)小模型進(jìn)行工作負(fù)荷的卸載。
  • 相比單模型Agent支持更靈活的prompt設(shè)計(jì)。其在ToolBench,ToolAlpaca corpus等多個(gè)benchmark上超過(guò)單模型Agent框架,獲得比肩GPT-4的性能。
  • 提出了一種“全局-局部”的多階段微調(diào)范式(GLPFT),該范式成功在開(kāi)源小模型上訓(xùn)練了多模型協(xié)作框架,實(shí)驗(yàn)結(jié)果表明這種兩階段范式為目前探索出的最佳訓(xùn)練多模型協(xié)作Agent范式,可以被廣泛應(yīng)用。

多模型協(xié)作框架α-UMi長(zhǎng)啥樣?

目前,基于大模型調(diào)用API、function和代碼解釋器的工具學(xué)習(xí)Agent,例如OpenAI code interpretor、AutoGPT等項(xiàng)目,在工業(yè)界和學(xué)術(shù)界均引起了廣泛關(guān)注。

在外部工具的加持下,大模型能夠自主完成例如網(wǎng)頁(yè)瀏覽、數(shù)據(jù)分析、地址導(dǎo)航等更復(fù)雜的任務(wù),因此AI Agent也被譽(yù)為大模型落地的一個(gè)重要方向。

但上述一些主流項(xiàng)目主要基于閉源ChatGPT、GPT-4大模型,其本身在推理、步驟規(guī)劃、調(diào)用請(qǐng)求生成和總結(jié)回復(fù)等能力上已經(jīng)足夠強(qiáng)。

相比之下開(kāi)源小模型,由于模型容量和預(yù)訓(xùn)練能力獲取的限制,單個(gè)模型無(wú)法在推理和規(guī)劃、工具調(diào)用、回復(fù)生成等任務(wù)上同時(shí)獲得比肩大模型等性能。

為了解決這一問(wèn)題,本文研究人員提出了α-UMi。

α-UMi包含三個(gè)小模型planner、caller和summarizer。

圖片

其中planner模型為系統(tǒng)的核心大腦,負(fù)責(zé)在某一Agent執(zhí)行步驟內(nèi)激活caller或summarizer,并給予對(duì)應(yīng)的推理(rationale)指導(dǎo);

而caller和summarizer則分別負(fù)責(zé)接收planner的指導(dǎo)完成該步后續(xù)工作,caller負(fù)責(zé)生成于工具交互的指令,summarizer負(fù)責(zé)總結(jié)最終的回復(fù)反饋給用戶。

這三個(gè)模型都是基于開(kāi)源小模型進(jìn)行不同類型數(shù)據(jù)微調(diào)實(shí)現(xiàn)的。

此外,研究人員提出了全局-局部多階段微調(diào)范式——GLPFT

基于開(kāi)源小模型,實(shí)現(xiàn)多模型協(xié)作框架并非一件簡(jiǎn)單的事,有兩個(gè)作用截然相反的影響因素:

一是生成Rationale,Action和Final Answer三個(gè)任務(wù)在訓(xùn)練中可以相互促進(jìn)的,同時(shí)也能增強(qiáng)模型對(duì)于Agent任務(wù)的全局理解。因此目前大部分工作均訓(xùn)練單個(gè)模型同時(shí)生成rationale, action和final answer。

二是模型容量,不同任務(wù)的數(shù)據(jù)配比等也限制了我們很難訓(xùn)練單個(gè)模型同時(shí)在三個(gè)任務(wù)上獲得表現(xiàn)峰值。

下圖中,單模型Agent在各項(xiàng)指標(biāo)上達(dá)到峰值所需的數(shù)據(jù)量是不同的,很難找到一個(gè)在所有指標(biāo)上達(dá)到峰值的數(shù)據(jù)量和模型檢查點(diǎn)。

而通過(guò)多模型協(xié)作,可以解決這個(gè)問(wèn)題。

圖片

綜合考慮上述兩點(diǎn),研究人員提出了一種“全局-局部”的多階段訓(xùn)練方法,目標(biāo)在于利用充分利用Rationale,Action和Final Answer在訓(xùn)練中相互促進(jìn)的優(yōu)勢(shì),獲得一個(gè)較好的單模型初始化,再進(jìn)行多模型微調(diào),專攻子任務(wù)性能的提升。

圖片

上圖展示了這種多階段微調(diào)的流程,在第一階段中,使用預(yù)訓(xùn)練LLM在完成工具調(diào)用Agent任務(wù)上微調(diào),獲得一個(gè)單模型的Agent LLM初始化。

接著,在第二階段中,研究人員對(duì)工具調(diào)用Agent任務(wù)的訓(xùn)練數(shù)據(jù)進(jìn)行重構(gòu),分解成生成rationale,生成工具交互action和生成最終回復(fù)三個(gè)子任務(wù),并將第一階段訓(xùn)練好的Single-LLM Agent底座復(fù)制三份,分別在不同子任務(wù)上進(jìn)一步微調(diào)。

性能比肩GPT-4

靜態(tài)評(píng)估

圖片

在靜態(tài)評(píng)估中,本文將所有對(duì)比baseline的輸出結(jié)果與標(biāo)注輸出進(jìn)行對(duì)比,可以看到:

  • α-UMi系統(tǒng)表現(xiàn)顯著超過(guò)了ChatGPT和工具調(diào)用開(kāi)源模型ToolLLaMA,性能與GPT-4比肩。

值得一提的是,ToolLLaMA需要8192的輸出長(zhǎng)度以獲得令人滿意的結(jié)果,而α-UMi只需要4096的輸入長(zhǎng)度,得益于多模型框架帶來(lái)的更靈活的prompt設(shè)計(jì)。

  • 在多模型協(xié)作框架模型的微調(diào)方案對(duì)比上,直接微調(diào)三個(gè)模型、或單個(gè)模型多任務(wù)微調(diào)均無(wú)法使多模型協(xié)作框架發(fā)揮效果,只有使用多階段微調(diào)GLPFT才能達(dá)到最佳性能,為后續(xù)多模型協(xié)同訓(xùn)練打開(kāi)了思路。

真實(shí)API調(diào)用評(píng)估

作者也在ToolBench數(shù)據(jù)集上引入了一種真實(shí)API調(diào)用的評(píng)估方式,實(shí)驗(yàn)結(jié)果如下:

圖片

在真實(shí)API調(diào)用實(shí)驗(yàn)結(jié)果中,α-UMi 依然戰(zhàn)勝了ChatGPT和ToolLLaMA,并在成功率上取得了與GPT-4比肩的結(jié)果。

模型開(kāi)銷

看到這可能有人問(wèn)了,多模型協(xié)作會(huì)不會(huì)引入更多成本?作者也探究了多模型協(xié)作框架在訓(xùn)練、推理及儲(chǔ)存階段的開(kāi)銷對(duì)比:

圖片

總體來(lái)說(shuō),多模型協(xié)作框架確實(shí)會(huì)在訓(xùn)練和模型參數(shù)儲(chǔ)存上引入更高的開(kāi)銷,但其推理速度與單模型框架相當(dāng)。

當(dāng)然,考慮到多模型協(xié)作Agent框架使用7B底座的性能遠(yuǎn)超13B單模型Agent性能,總開(kāi)銷也更少。這意味著可以選擇小模型為底座的多模型協(xié)作Agent框架來(lái)降低開(kāi)銷,并超過(guò)大模型的單模型Agent框架。

最后研究人員總結(jié)道,多智能體協(xié)作是未來(lái)智能體發(fā)展的趨勢(shì),而如何訓(xùn)練提升開(kāi)源小模型的多智能體協(xié)作能力,是實(shí)際落地很關(guān)鍵的一環(huán),本文為基于開(kāi)源小模型的多智能體協(xié)作打開(kāi)了新思路,并在多個(gè)工具調(diào)用benchmark上取得了超過(guò)單模型Agent baseline,比肩GPT-4的工具調(diào)用結(jié)果。

后續(xù)將會(huì)增強(qiáng)planner的泛化性,使其使用于更廣泛的Agent任務(wù)場(chǎng)景,進(jìn)行caller模型的本地私有化,使其專注于本地工具調(diào)用任務(wù),以及云端大模型結(jié)合本地小模型的“大-小”模型協(xié)同框架。

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-04-25 16:56:14

GPT-4大模型人工智能

2023-03-28 08:23:38

2023-06-19 08:19:50

2023-04-09 16:17:05

ChatGPT人工智能

2024-01-12 19:07:26

GPT-4AI產(chǎn)品

2023-06-08 11:27:10

模型AI

2023-12-26 08:17:23

微軟GPT-4

2025-04-16 09:35:03

2024-01-18 11:45:35

視覺(jué)模型蘋(píng)果

2023-05-29 09:29:52

GPT-4語(yǔ)言模型

2023-04-04 09:09:10

GPT-4編程程序員

2025-05-30 07:40:56

2023-09-11 15:57:16

人工智能模型GPT-4

2024-03-27 09:12:52

自動(dòng)化智能體

2023-08-17 08:00:00

2023-05-22 08:30:35

GPT-4智能編程助手

2022-05-20 10:43:30

AI模型

2023-03-13 00:17:15

GPT-4模型API

2024-01-16 12:31:13

OpenAIGLM-4大模型

2024-02-01 14:56:13

GPT-4開(kāi)源模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 一区二区三区亚洲精品国 | 巨大黑人极品videos精品 | 国产精品一区二区免费 | 久久久亚洲综合 | 天天拍天天草 | 国产一区在线看 | 黄色一级毛片 | 国产91一区 | 美女人人操 | 欧美日韩国产欧美 | 91中文在线观看 | 国产美女精品 | 久久综合一区二区 | 亚洲精品九九 | 国产欧美日韩在线观看 | 在线a视频网站 | 亚洲欧美网站 | 国产精品一区二区av | 成人在线视频一区 | 人人性人人性碰国产 | 中文字幕 国产精品 | 羞羞的视频免费在线观看 | 久久久精品一区 | 日韩中文字幕在线 | 国产乱码精品一区二区三区忘忧草 | 亚洲国产成人久久综合一区,久久久国产99 | 欧美三级在线 | 日韩中文字幕在线视频 | 免费日韩网站 | 欧美一级片在线看 | 成人免费视频网站在线看 | 欧美性生交大片免费 | 久久99精品久久久久久国产越南 | 亚洲一区亚洲二区 | 亚洲欧美视频一区 | 伊人二区 | 男人的天堂久久 | 久久精品成人 | 国产1区 | 亚洲精久久久 | 精品国产欧美一区二区 |