成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

續(xù)命Scaling Law?世界模型GPT-4o讓智能體超級規(guī)劃,OSU華人一作

人工智能 新聞
Scaling Law撞墻,擴(kuò)展語言智能體的推理時(shí)計(jì)算實(shí)在太難了!破局之道,竟是使用LLM作為世界模型?OSU華人團(tuán)隊(duì)發(fā)現(xiàn),使用GPT-4o作為世界模型來支持復(fù)雜環(huán)境中的規(guī)劃,潛力巨大。

Scaling Law又能續(xù)命了?

如何通過語言智能體的高級規(guī)劃來Scaling推理時(shí)計(jì)算?

答案就是——使用LLM作為世界模型。

也就是說,使用GPT-4o來預(yù)測網(wǎng)站上操作的結(jié)果,可以提供強(qiáng)大的性能,同時(shí)還能提高安全性和效率。

近日,來自俄亥俄州立大學(xué)等機(jī)構(gòu)的研究人員提出了一種全新的WebDreamer框架,它可以利用LLM作為世界模型,來預(yù)測網(wǎng)站上的交互結(jié)果。

圖片

論文地址:https://arxiv.org/abs/2411.06559

幾天前,微軟Ignite大會上,納德拉曾表示,AI發(fā)展并沒觸及天花板,我們正見證推理時(shí)計(jì)算Scaling law的崛起。

圖片

沒錯(cuò),這項(xiàng)新研究便是朝著這個(gè)方向前進(jìn)的一步。

語言智能體和數(shù)學(xué)推理的關(guān)鍵區(qū)別,就是交互

一作Yu Gu表示,自從o1發(fā)布以來,這個(gè)問題就一直困擾著自己——

圖片

為什么擴(kuò)展語言智能體的推理時(shí)計(jì)算,會如此困難呢?語言智能體,到底有何特別之處?

為此,他將這個(gè)問題進(jìn)行了分解。

與數(shù)學(xué)推理等任務(wù)不同,語言智能體的一個(gè)關(guān)鍵區(qū)別在于交互:它們采取的每個(gè)動作,都會觸發(fā)對環(huán)境的新觀察,從而為自己的下一個(gè)決策提供信息。

而交互使得搜索空間探索變得復(fù)雜,原因在于——

1. 與環(huán)境的交換是昂貴的

2. 許多操作是狀態(tài)改變且不可逆轉(zhuǎn)的(比如在購物網(wǎng)站上確認(rèn)購買),這就使得樹搜索中的回溯,在現(xiàn)實(shí)世界的網(wǎng)站中不可行。

圖片

那么,是否可以使用LLM作為世界模型,來預(yù)測網(wǎng)站上交互的結(jié)果呢?(比如「如果單擊此按鈕,會發(fā)生什么」)

這樣,就可以實(shí)現(xiàn)有效的搜索空間探索,減少實(shí)際交互的開銷。

答案是肯定的!

Yu Gu等人發(fā)現(xiàn),GPT-4o有效地編碼了關(guān)于網(wǎng)站的廣泛知識,并且充當(dāng)了基于模型的規(guī)劃框架WebDreamer的基礎(chǔ)。

圖片

因?yàn)榕鋫淞薒LMs模擬的世界模型,WebDreamer展示了良好的有效性和效率。

首先,它有著強(qiáng)大的性能:在VisualWebArena和Mind2Web-live上遠(yuǎn)遠(yuǎn)優(yōu)于反應(yīng)性基線。

圖片

在效率上,跟樹搜索相比,它只需要一半的交互次數(shù)。

圖片

此外,由于基于LLM的世界模型模擬,它還具有兩個(gè)額外的優(yōu)勢。

一個(gè)是更好的安全性,因?yàn)槟芡ㄟ^最大限度地減少現(xiàn)實(shí)世界的互動,來降低安全風(fēng)險(xiǎn)。

另一個(gè)就是多功能集成:它可以作為各種智能體的插件無縫工作,并且對樹搜索智能體有所補(bǔ)充。

WebDreamer的核心,就是「做夢」

智能體也需要做夢嗎?

與數(shù)學(xué)推理等任務(wù)不同,語言智能體(language agents)的一個(gè)關(guān)鍵區(qū)別在于交互:他們采取的每一個(gè)行動都會觸發(fā)環(huán)境的新變動,而這又為它進(jìn)行進(jìn)一步的決策帶來了挑戰(zhàn)。

不斷地交互使得解空間搜索變得異常艱難,因?yàn)榕c環(huán)境交互的計(jì)算成本很高;許多改變狀態(tài)的操作是不可逆的;而且利用智能體來為自己與網(wǎng)站進(jìn)行實(shí)際交互有一定的安全風(fēng)險(xiǎn),例如信息泄露與個(gè)人財(cái)產(chǎn)在意外交易中損失。

如何有效的進(jìn)行解空間搜索,同時(shí)減少實(shí)際交互的開銷并保證智能體的安全可靠性成了一個(gè)亟待解決的問題。

簡要來講,WebDreamer的核心是「做夢」的概念:在承諾采取任何行動之前,智能體使用LLM去想象預(yù)測每個(gè)可能步驟的結(jié)果,并以自然語言描述狀態(tài)將如何變化。

然后,依據(jù)和實(shí)現(xiàn)目標(biāo)任務(wù)的距離來對這些模擬結(jié)果進(jìn)行評估。最后執(zhí)行最有可能實(shí)現(xiàn)目標(biāo)任務(wù)的模擬行動。這個(gè)過程會反復(fù)進(jìn)行,直到LLM確定目標(biāo)已經(jīng)實(shí)現(xiàn)為止。

圖1為網(wǎng)頁智能體以搜索問題形式表現(xiàn)的不同策略示意圖,其中每個(gè)節(jié)點(diǎn)代表一個(gè)網(wǎng)頁。

為清晰起見,僅描述了一步模擬結(jié)果。褪色節(jié)點(diǎn)表示未瀏覽的網(wǎng)頁,綠色對號和紅色叉號分別表示成功和不成功的結(jié)果。

圖片

圖1(a)反應(yīng)式:由于智能體總是選擇局部最優(yōu),沒有前瞻性規(guī)劃,往往導(dǎo)致次優(yōu)結(jié)果。

圖1(b)結(jié)合真實(shí)交互的樹搜索:智能體通過主動網(wǎng)站導(dǎo)航探索多條路徑,并允許回溯(用虛線箭頭表示)。然而,在現(xiàn)實(shí)世界的網(wǎng)站中,由于不可逆操作的普遍存在,回溯往往不可行。

圖1(c)基于模型的規(guī)劃:在實(shí)際執(zhí)行之前,智能體會模擬潛在的結(jié)果(如云狀節(jié)點(diǎn)所示),以確定最佳行動,從而在保持有效性的同時(shí)盡量減少實(shí)際的網(wǎng)站交互。

總結(jié)來說,在LLM模擬的世界模型加持下,WebDreamer展現(xiàn)出了卓越的性能與效率,以及強(qiáng)大的擴(kuò)展能力:

  • 性能:在 VisualWebArena 和 Mind2Web-live 上表現(xiàn)遠(yuǎn)超反應(yīng)式基線模型。
  • 效率:與樹搜索相比,僅需一半的交互次數(shù)。
  • 安全:通過減少現(xiàn)實(shí)世界的交互,有效降低安全風(fēng)險(xiǎn)。
  • 集成:可無縫作為多種智能體的插件運(yùn)行,并補(bǔ)充樹搜索智能體的功能。

圖片

準(zhǔn)備

任務(wù)制定

對于在網(wǎng)站上進(jìn)行實(shí)時(shí)自動化交互這一目標(biāo)任務(wù)來講,網(wǎng)頁智能體面臨著龐大且復(fù)雜的搜索解空間。

形式上,每個(gè)帶有任務(wù)指令I(lǐng)的任務(wù)可以被視為一個(gè)部分可觀測的馬爾可夫決策過程(POMDP):(S, A, O, T, R, Ω)。

其中,S代表環(huán)境中所有可能狀態(tài)的集合,A代表智能體可以采取的所有可能動作,O代表環(huán)境中所有可能的觀測值組成的集合,T : S × A → S代表狀態(tài)轉(zhuǎn)移函數(shù),R是一個(gè)二值reward,表示任務(wù)I是否已完成,Ω : S → O是一個(gè)可將狀態(tài)投射到觀測值的確定性函數(shù)。

任務(wù)的目標(biāo)是執(zhí)行一系列動作以獲得1的獎勵。

在實(shí)際場景中,由于網(wǎng)絡(luò)環(huán)境的復(fù)雜性,其包括服務(wù)器端變量、動態(tài)加載的內(nèi)容、隱藏的UI元素,并受網(wǎng)絡(luò)條件和瀏覽器限制的影響,智能體只能通過有限的視角(即o ∈ O)來感知網(wǎng)絡(luò)環(huán)境。

這種受限的觀測視角也形成了相應(yīng)的動作空間A,其包括可在o中可執(zhí)行的交互操作,如點(diǎn)擊、文本輸入和URL跳轉(zhuǎn)。

圖片

表1 在VisualWebArena中定義的網(wǎng)絡(luò)導(dǎo)航動作空間

通過模擬進(jìn)行規(guī)劃

通過使用由狀態(tài)轉(zhuǎn)移函數(shù)「T」控制的真實(shí)交互進(jìn)行樹搜索來規(guī)劃最優(yōu)動作序列代價(jià)高昂,并且存在不可逆風(fēng)險(xiǎn)。基于模型的規(guī)劃通過使用環(huán)境的計(jì)算表征來模擬交互結(jié)果,從而解決這些挑戰(zhàn)。

一種顯著的方法是模型預(yù)測控制(Model Predictive Control,MPC),它通過迭代模擬未來軌跡來選擇動作。

對于每個(gè)狀態(tài)s,MPC使用模擬器函數(shù)sim(s, a)在有限的預(yù)測范圍H內(nèi)模擬每個(gè)可能動作a ∈ A的軌跡,并使用評分函數(shù)score(τ)進(jìn)行評估。然后執(zhí)行最有前景的軌跡相應(yīng)的動作:

圖片

此過程在觀察到新狀態(tài)后重復(fù)進(jìn)行,從而使智能體能夠根據(jù)實(shí)際結(jié)果調(diào)整其計(jì)劃,同時(shí)避免代價(jià)高昂的真實(shí)世界探索。實(shí)際上,由于部分可觀察性,我們無法訪問真實(shí)狀態(tài),因此我們使用o = Ω(s)進(jìn)行sim(o, a)的計(jì)算。

基于模型規(guī)劃的網(wǎng)絡(luò)智能體

作者利用LLM作為世界模型,提出了一種開創(chuàng)性方法:WebDreamer,以實(shí)現(xiàn)復(fù)雜網(wǎng)絡(luò)環(huán)境中的高效規(guī)劃。

該方法受到這樣一個(gè)現(xiàn)象的啟發(fā):盡管網(wǎng)絡(luò)界面復(fù)雜,但其設(shè)計(jì)對于人類用戶來說是可預(yù)測的。

當(dāng)瀏覽網(wǎng)站時(shí),人類可以根據(jù)視覺提示和常見設(shè)計(jì)模式有效地預(yù)測動作結(jié)果——點(diǎn)擊「提交」按鈕即可提交表單,選擇產(chǎn)品圖片會導(dǎo)航到其詳情頁面。

鑒于LLMs是在大量Web相關(guān)數(shù)據(jù)上訓(xùn)練的,作者假設(shè)它們已經(jīng)獲得了足夠的知識來模擬用戶行為的后果,足以作為世界模型勝任有效規(guī)劃。

核心設(shè)計(jì)

WebDreamer的核心,是利用LLM來實(shí)現(xiàn)模擬函數(shù)sim和評分函數(shù)score。

下圖為WebDreamer使用LLM模擬三個(gè)候選動作的結(jié)果圖示,其中WebDreamer模擬每個(gè)動作的兩步軌跡,選擇得分最高的軌跡,并執(zhí)行相應(yīng)的初始動作。

圖片

圖中說明了LLM模擬自然語言描述中三個(gè)候選操作的軌跡:

(1)單擊「Office Products」

(2)單擊「Electronics」

(3)在文本框中鍵入「Disk」

通過這些模擬,對每個(gè)結(jié)果軌跡進(jìn)行評分,以確定最有可能成功的動作。

在這種情況下,LLM選擇單擊「Electronics」作為最佳步驟并執(zhí)行它。每個(gè)虛線框表示每個(gè)模擬操作后LLM生成的狀態(tài)描述。

sim的實(shí)現(xiàn)

模擬函數(shù)sim的實(shí)現(xiàn)由兩個(gè)模塊組成:一個(gè)模塊預(yù)測動作執(zhí)行后的狀態(tài)變化,近似狀態(tài)轉(zhuǎn)移函數(shù)「T」;而另一個(gè)根據(jù)預(yù)測的狀態(tài)想象可能的動作。

這兩個(gè)模塊共同生成長度為H的軌跡,其中H是一個(gè)可配置的模擬深度參數(shù)。

具體來說,為了表示狀態(tài)變化,研究者會提示LLM生成一個(gè)簡明的自然語言描述,僅關(guān)注動作的效果。

例如,在圖2中,當(dāng)提示預(yù)測執(zhí)行動作單擊「Electronics」的效果時(shí),LLM將輸出如下簡短描述:

圖片

基于這個(gè)預(yù)測的狀態(tài),LLM會隨后想象下一個(gè)動作(例如,點(diǎn)擊「電腦及配件」),這將導(dǎo)致另一個(gè)狀態(tài)改變進(jìn)一步的預(yù)測。

這個(gè)過程生成了一個(gè)模擬深度為H=2的軌跡。

score的實(shí)現(xiàn)

在使用sim從每個(gè)候選動作ai模擬出一個(gè)軌跡τi后,研究者進(jìn)一步使用LLM作為每個(gè)模擬軌跡的評分函數(shù)。

他們提示LLM以三種評分標(biāo)準(zhǔn),來評估每個(gè)模擬軌跡——完成(1.0)、進(jìn)行中(0.5)或不正確(0),以指示其任務(wù)完成的進(jìn)度。

最終得分通過對這些評估的多次采樣進(jìn)行平均計(jì)算。除了sim和score,規(guī)劃的一個(gè)前提是候選動作生成。

研究者采用了兩階段方法:首先采樣出前k個(gè)動作,然后使用LLM自我優(yōu)化,去除不必要的動作以進(jìn)行模擬。

這個(gè)自我優(yōu)化步驟的動機(jī),是研究者觀察到在不同步驟中,相同的k可以引入不同程度的不相關(guān)動作——某些步驟本身就比其他步驟可以用更少的有效動作進(jìn)行實(shí)現(xiàn)。

在算法1中,他們展示了WebDreamer整體設(shè)計(jì)的偽代碼。termination check用于驗(yàn)證模型是否輸出停止動作,其規(guī)則為當(dāng)算法達(dá)到最大步驟或連續(xù)3次重復(fù)一個(gè)動作時(shí),則停止繼續(xù)執(zhí)行算法。

圖片

完整system prompts如下:

圖片

圖片

圖片

圖片

實(shí)驗(yàn)結(jié)果

有效性

如表2所示,WebDreamer在VWA和Mind2Web-live數(shù)據(jù)集上相較于反應(yīng)式智能體表現(xiàn)出顯著的改進(jìn):

  • 在VWA數(shù)據(jù)集上,實(shí)現(xiàn)了33.3%的相對性能提升
  • 在Mind2Web-live數(shù)據(jù)集上,相較于Reactive范式提升了2.9%(相對增益為13.1%)

雖然在總體成功率方面,還是基于樹搜索的方案更高,但它實(shí)際上并不適用于真實(shí)的網(wǎng)絡(luò)場景。而WebDreamer則可以提供一種更靈活且適應(yīng)性更強(qiáng)的替代方案。

圖片

表2:VisualWebArena和Mind2Web-live的結(jié)果

更進(jìn)一步,研究人員將WebDreamer與Reactive范式在VWA數(shù)據(jù)集上的多維度表現(xiàn)進(jìn)行了比較。

表3顯示,基于模型的規(guī)劃方法在所有網(wǎng)站和任務(wù)難度級別上都始終優(yōu)于基于Reactive范式的方法 。

在根據(jù)VWA官方標(biāo)注的中等難度任務(wù)中,基于模型的規(guī)劃甚至超過了樹搜索方案的表現(xiàn)(24.1% VS 22.2%)。

指標(biāo)圖片用于衡量基于模型的規(guī)劃與樹搜索方案的相對性能表現(xiàn)。

圖片

表3:不同維度對應(yīng)的成功率

效率

基于模型的規(guī)劃的另一個(gè)關(guān)鍵優(yōu)勢是其相對于樹搜索,執(zhí)行任務(wù)時(shí)效率很高。

如表4所示,樹搜索在所有環(huán)境中所需的步驟大約是baseline的三倍,而WebDreamer的相應(yīng)動作步驟數(shù)與baseline則相仿。

值得注意的是,由于額外的動作和回溯,樹搜索會引入大約十倍的實(shí)際時(shí)間延遲,而WebDreamer的模擬開銷很小,并且可以通過增強(qiáng)并行化進(jìn)一步減少。

圖片

表4:VWA上的動作步驟和總耗時(shí)

案例研究

為了闡明模擬在規(guī)劃中的作用,研究者提出了包含正面和反面例子的案例研究,說明了模擬如何幫助智能體探索環(huán)境,以及模擬的不準(zhǔn)確性會如何導(dǎo)致錯(cuò)誤的預(yù)測。

由建構(gòu)不充分的世界模型進(jìn)行模擬引起的錯(cuò)誤如下:

研究者給智能體的指令是:給我找一臺與圖片中產(chǎn)品相同品牌的打印機(jī)。它必須是白色的,并且至少有11條評論,平均評分大于4分。

圖片

受益于世界模型模擬的正面案例如下:

在這個(gè)案例中,智能體正確找到了兩種前面有鳥的襯衫。

圖片

作者介紹

Yu Gu(谷雨)

圖片

Yu Gu是俄亥俄州立大學(xué)的博士生,此前在南京大學(xué)獲得了計(jì)算機(jī)科學(xué)學(xué)士和碩士學(xué)位。

圖片

Boyuan Zheng

圖片

Boyuan Zheng目前是俄亥俄州立大學(xué)的一年級博士生,由Yu Su教授指導(dǎo)。

在此之前,他獲得了東北大學(xué)的軟件工程學(xué)士學(xué)位,以及約翰霍普金斯大學(xué)的計(jì)算機(jī)科學(xué)碩士學(xué)位,在那里他與Benjamin Van Durme教授合作。

圖片

他的主要研究方向是開發(fā)能夠解放人類從繁瑣任務(wù)中并輔助決策的語言智能體,尤其是在網(wǎng)絡(luò)環(huán)境中。其他還有多模態(tài),基礎(chǔ)、規(guī)劃與推理,合成數(shù)據(jù)和智能體安全。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-10-06 09:00:00

AI訓(xùn)練數(shù)據(jù)

2024-09-29 13:07:16

2025-06-06 14:17:11

模型訓(xùn)練AI

2024-08-15 15:45:00

AI訓(xùn)練

2024-05-21 12:23:17

2025-04-28 09:10:00

2024-11-14 18:40:57

2024-05-17 09:35:55

GPT-4o模型OpenAI

2024-11-11 09:47:00

AI開源

2024-07-04 15:30:07

2024-06-05 08:29:35

2025-06-23 07:05:00

AI智能體虛擬社區(qū)

2025-06-04 09:05:18

2024-09-03 14:30:00

機(jī)器人模型

2024-05-14 11:29:15

2024-04-07 00:45:00

開源模型

2024-05-15 17:34:15

2024-06-05 13:09:26

2025-05-26 08:33:00

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 新超碰97| 一区二区三区高清 | 伊人久久免费视频 | 成人精品国产免费网站 | 91久久精品国产 | 亚洲精品久久久久久久久久吃药 | 午夜男人免费视频 | 日韩天堂av | 欧美成人免费在线视频 | 国产精品日产欧美久久久久 | 91av视频 | 国产综合精品一区二区三区 | 亚洲三级av| 香蕉视频91 | 国产精品一区二区在线 | 国产精品一区二区三区在线 | 一区二区三区在线 | www.9191.com| 久久久www | 国产午夜精品一区二区三区嫩草 | 亚洲欧美久久 | 91精品久久久久久久久 | 无码日韩精品一区二区免费 | 精品欧美一区二区三区久久久 | 天啪 | 天天操综合网 | 国产亚洲精品综合一区 | 看片国产 | 日韩在线观看中文字幕 | 欧美精品一区二区三区在线 | 精品福利在线 | www.99热| 国产精品一区二区三级 | 亚洲精品亚洲人成人网 | 亚洲一区二区三区免费在线观看 | 欧美一二三 | 欧美成年网站 | 国产精品久久久久久吹潮 | 国产成人av在线播放 | 99久久精品一区二区毛片吞精 | 国产精品二区三区在线观看 |