成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

小模型的意見也有用!GPT-4+AutoGPT在線決策:買東西再也不用糾結了

人工智能 新聞
大語言模型和AutoGPT結合的新范式來了!

這篇論文通過對真實世界決策任務中的Auto-GPT代理進行了全面的基準研究,探索了大型語言模型(LLM)在決策任務中的應用。

圖片

論文鏈接:https://arxiv.org/pdf/2306.02224.pdf

作者比較了多種流行的LLM(包括GPT-4,GPT-3.5,Claude和Vicuna)在Auto-GPT決策任務中的表現,并引入了一種名為「額外意見」的新算法,該算法可以將小的專家模型融入到Auto-GPT方案中,從而提高了任務性能。

作者觀點

在這一研究中最有趣的發現是大語言模型,尤其是GPT4有了類似于人類的能力,可以從不同的意見中提取有用信息,進行思考和批判然后提高自己的結果。

那么問題來了,GPT是怎么受益于不同意見的呢?

人類的心理學研究過一些人類受益于不同意見的方式以及一些模式,比如人類會給有權威的意見更多的權重,會傾向于忽略極少數的個別意見,會給自己的意見過多的權重,通常三到六個意見就足夠了等等。

這個方向還值得很多后續的研究,比如現在我們是用一個小的專家模型來提供不同意見,如果讓大模型們互相爭論呢?

主要貢獻

1.首次展示Auto-GPT可以輕松適應與真實世界場景密切相似的在線決策任務。

2.提供了流行LLM(包括GPT-4, GPT-3.5,Claude和Vicuna)之間的全面基準比較。我們提出了關于這些模型適用于自主代理的發現。

3. 證明了從小的專家模型那里獲得的第二意見可以顯著提高任務性能。這可以成為為在不進行模型微調的情況下將監督信號引入Auto-GPT的一種新的方法。

實驗設置

提示設計

在沒有進行大規模調優的情況下,我們將任務需求或問題直接作為Auto-GPT的目標,適配了Auto-GPT進行各項任務。

比如輸入像「I want to purchase a folding storage box that is easy to install, made of faux leather, and has dimensions of 60x40x40cm」的句子。

為了幫助Auto-GPT理解可用的行動,我們將每個行動表現為一個工具。

值得注意的是,在沒有示例的情況下,僅使用工具指令的效果較差。然而,只要有少量的示例,性能就會顯著提高。因此,我們在工具演示中包括一到三個few-shot示例,以利用LLM的上下文學習能力。

考慮額外意見

圖片

我們進一步改進了Auto-GPT的工作流,以便考慮來自外部專家模型的額外意見。

具體來說,在Auto-GPT的決策階段,我們從專家模型中抽樣出前k個意見,并將這些意見放入提示的上下文部分,以供大語言模型參考。

在這項工作中,我們簡單地使用了對于每個任務都已經準備好的IL模型作為外部專家。

提供給LLM額外意見的提示遵循這樣的模板:‘Here’s one(a few) suggestion(s) for the command: Please use this suggestion as a reference and make your own judgement. ’

Webshop實驗設置:

Webshop是一個模擬網購環境,從http://Amazon.com上抓取超過118萬個產品。

該環境提供了如搜索、點擊、導航、購買等真實的行動空間。

評估過程主要看是否成功購買了描述的產品,需要產品、屬性、選項和價格全都匹配。

基線模型是采用模仿學習(IL)方法的模型,它的動作策略組件已經過微調。這個基線模型將與采用Auto-GPT方式運行的大語言模型進行比較。

ALFWorld實驗設置

ALFWorld是一個研究環境,結合了復雜的任務導向和語言理解。該環境包含超過25000個獨特的、程序生成的任務,涵蓋廚房、客廳、臥室等真實環境。

這些任務需要復雜的解決問題的能力和對語言及環境的深入理解。初始評估使用模仿學習(IL)的DAgger代理進行,然后與采用Auto-GPT風格的生成語言模型進行比較。

實驗結果

直接比較結果

圖片


圖片

本研究主要通過運行Webshop和ALFWorld兩種實驗,比較了不同的大型語言模型(Large Language Models,LLMs)和模仿學習(Imitation Learning,IL)模型在AutoGPT配置中的表現。

首先,Webshop試驗中,GPT4表現出色,其性能超過了其他IL模型。盡管無圖像輸入的原始IL模型僅取得了適度的成功率,但是加入了圖像輸入的IL模型表現更好。

然而,只使用GPT3.5或Claude的Auto-GPT代理表現不如原始IL模型,但是,GPT4本身的性能優于所有IL模型。

其次,在ALFWorld實驗中,IL模型與Beam Search的組合顯著優于無Beam Search的版本。而在AutoGPT設置中運行的Claude和GPT3.5的性能均未超越IL模型,但GPT4明顯超越了IL模型的性能,無論是否使用Beam Search。

此外,我們提出了一種新的研究模式,將大型語言模型(LLMs)與專家模型結合起來。

首先從專家模型中采樣出前k個附加觀點,然后將這些觀點呈現給LLMs,讓它們考慮這些觀點并做出最后的決定。這種方法在GPT4上表現得特別好,這表明GPT4在考慮來自多個弱學習模型的觀點時,可以提高其性能。

總的來說,GPT4在所有模型中表現出了最佳的性能,并且能夠有效地利用專家模型的建議來提高其決策能力。

我們推薦使用GPT4,因為它在考慮了其他模型的觀點后,其決策性能顯著提高。最后Abaltion Study證明了這些額外意見必須是有一點價值的,隨機的意見并沒有任何幫助,見AutoGPT(GPT3.5) + Random

采用額外意見比例

在我們的實驗中,我們發現GPT-4模型在處理額外意見時表現出極高的辨別能力。即使在信息噪聲中,GPT-4也能區分出有益和無關的建議。

而GPT-3.5模型在面對可能導致混淆的輸入時,表現出了明顯的劣勢。總的來說,LLM與額外意見的一致性或不一致性,很大程度上取決于LLM的理解能力和額外意見的質量。

圖片


圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2021-12-21 09:05:46

命令Linux敲錯

2024-04-15 00:08:00

MySQLInnoDB數據庫

2023-09-12 13:39:08

2015-05-29 09:01:48

2021-06-08 07:48:26

數據 Python開發

2020-06-15 08:03:17

大文件OOM內存

2024-01-26 07:00:11

Python工具無向圖

2019-01-14 00:43:08

可視化圖表數據分析數據可視化

2018-10-11 15:51:32

ChromeGoogle瀏覽器

2023-11-27 17:11:02

數據庫oracle

2020-10-29 15:17:49

代碼開發工具

2020-04-10 09:55:28

Git 工具黑魔法

2023-12-21 09:00:00

開發并發編程

2020-12-18 08:23:16

安卓手機系統谷歌

2021-08-13 22:38:36

大數據互聯網技術

2023-07-29 22:02:06

MyBatis數據庫配置

2025-04-25 10:00:00

2022-09-14 08:02:25

加密算法Bcryp

2015-10-22 10:38:43

Wi-Fi燃氣報警器
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 狠狠干影院| 国产一区二区在线视频 | 国产精品视频免费播放 | 中文字幕在线精品 | 亚洲视频在线看 | 国产一卡二卡三卡 | 欧美日韩1区 | 欧美精品一区二区在线观看 | 日日久| 精品成人在线 | 久久逼逼| 久久国产精品一区 | 中文字幕视频三区 | 日韩久久中文字幕 | 亚洲第一在线 | 色综合天天综合网国产成人网 | 婷婷中文在线 | 亚洲一区二区三区四区视频 | 精品国产一区二区三区性色av | 亚洲精品中文字幕av | 超碰日韩| 国产精品久久久久久久免费观看 | 欧美精品一区二区免费 | 中文字幕视频免费 | 国产精品毛片一区二区三区 | 久久精品a级毛片 | 久久久久久久久久性 | 操操日| 久久久久久看片 | 中文字幕中文字幕 | 国产成人精品高清久久 | 亚洲国产精品久久久 | 国产精品久久久久久久久图文区 | 国产精品国产a级 | 羞羞视频网站 | 久久91av| 日韩一及片 | 日韩一区二区在线观看 | 亚洲精品小视频在线观看 | 一本一道久久a久久精品综合 | 国产视频精品视频 |