續(xù)命Scaling Law？世界模型GPT-4o讓智能體超級規(guī)劃，OSU華人一作

作者：新智元 2024-11-22 14:10:00

Scaling Law撞墻，擴(kuò)展語言智能體的推理時(shí)計(jì)算實(shí)在太難了！破局之道，竟是使用LLM作為世界模型？OSU華人團(tuán)隊(duì)發(fā)現(xiàn)，使用GPT-4o作為世界模型來支持復(fù)雜環(huán)境中的規(guī)劃，潛力巨大。

Scaling Law又能續(xù)命了？

如何通過語言智能體的高級規(guī)劃來Scaling推理時(shí)計(jì)算？

答案就是——使用LLM作為世界模型。

也就是說，使用GPT-4o來預(yù)測網(wǎng)站上操作的結(jié)果，可以提供強(qiáng)大的性能，同時(shí)還能提高安全性和效率。

近日，來自俄亥俄州立大學(xué)等機(jī)構(gòu)的研究人員提出了一種全新的WebDreamer框架，它可以利用LLM作為世界模型，來預(yù)測網(wǎng)站上的交互結(jié)果。

論文地址：https://arxiv.org/abs/2411.06559

幾天前，微軟Ignite大會上，納德拉曾表示，AI發(fā)展并沒觸及天花板，我們正見證推理時(shí)計(jì)算Scaling law的崛起。

沒錯(cuò)，這項(xiàng)新研究便是朝著這個(gè)方向前進(jìn)的一步。

語言智能體和數(shù)學(xué)推理的關(guān)鍵區(qū)別，就是交互

一作Yu Gu表示，自從o1發(fā)布以來，這個(gè)問題就一直困擾著自己——

為什么擴(kuò)展語言智能體的推理時(shí)計(jì)算，會如此困難呢？語言智能體，到底有何特別之處？

為此，他將這個(gè)問題進(jìn)行了分解。

與數(shù)學(xué)推理等任務(wù)不同，語言智能體的一個(gè)關(guān)鍵區(qū)別在于交互：它們采取的每個(gè)動作，都會觸發(fā)對環(huán)境的新觀察，從而為自己的下一個(gè)決策提供信息。

而交互使得搜索空間探索變得復(fù)雜，原因在于——

1. 與環(huán)境的交換是昂貴的

2. 許多操作是狀態(tài)改變且不可逆轉(zhuǎn)的（比如在購物網(wǎng)站上確認(rèn)購買），這就使得樹搜索中的回溯，在現(xiàn)實(shí)世界的網(wǎng)站中不可行。

那么，是否可以使用LLM作為世界模型，來預(yù)測網(wǎng)站上交互的結(jié)果呢？（比如「如果單擊此按鈕，會發(fā)生什么」）

這樣，就可以實(shí)現(xiàn)有效的搜索空間探索，減少實(shí)際交互的開銷。

答案是肯定的！

Yu Gu等人發(fā)現(xiàn)，GPT-4o有效地編碼了關(guān)于網(wǎng)站的廣泛知識，并且充當(dāng)了基于模型的規(guī)劃框架WebDreamer的基礎(chǔ)。

因?yàn)榕鋫淞薒LMs模擬的世界模型，WebDreamer展示了良好的有效性和效率。

首先，它有著強(qiáng)大的性能：在VisualWebArena和Mind2Web-live上遠(yuǎn)遠(yuǎn)優(yōu)于反應(yīng)性基線。

在效率上，跟樹搜索相比，它只需要一半的交互次數(shù)。

此外，由于基于LLM的世界模型模擬，它還具有兩個(gè)額外的優(yōu)勢。

一個(gè)是更好的安全性，因?yàn)槟芡ㄟ^最大限度地減少現(xiàn)實(shí)世界的互動，來降低安全風(fēng)險(xiǎn)。

另一個(gè)就是多功能集成：它可以作為各種智能體的插件無縫工作，并且對樹搜索智能體有所補(bǔ)充。

WebDreamer的核心，就是「做夢」

智能體也需要做夢嗎？

與數(shù)學(xué)推理等任務(wù)不同，語言智能體（language agents）的一個(gè)關(guān)鍵區(qū)別在于交互：他們采取的每一個(gè)行動都會觸發(fā)環(huán)境的新變動，而這又為它進(jìn)行進(jìn)一步的決策帶來了挑戰(zhàn)。

不斷地交互使得解空間搜索變得異常艱難，因?yàn)榕c環(huán)境交互的計(jì)算成本很高；許多改變狀態(tài)的操作是不可逆的；而且利用智能體來為自己與網(wǎng)站進(jìn)行實(shí)際交互有一定的安全風(fēng)險(xiǎn),例如信息泄露與個(gè)人財(cái)產(chǎn)在意外交易中損失。

如何有效的進(jìn)行解空間搜索，同時(shí)減少實(shí)際交互的開銷并保證智能體的安全可靠性成了一個(gè)亟待解決的問題。

簡要來講，WebDreamer的核心是「做夢」的概念：在承諾采取任何行動之前，智能體使用LLM去想象預(yù)測每個(gè)可能步驟的結(jié)果，并以自然語言描述狀態(tài)將如何變化。

然后，依據(jù)和實(shí)現(xiàn)目標(biāo)任務(wù)的距離來對這些模擬結(jié)果進(jìn)行評估。最后執(zhí)行最有可能實(shí)現(xiàn)目標(biāo)任務(wù)的模擬行動。這個(gè)過程會反復(fù)進(jìn)行，直到LLM確定目標(biāo)已經(jīng)實(shí)現(xiàn)為止。

圖1為網(wǎng)頁智能體以搜索問題形式表現(xiàn)的不同策略示意圖，其中每個(gè)節(jié)點(diǎn)代表一個(gè)網(wǎng)頁。

為清晰起見，僅描述了一步模擬結(jié)果。褪色節(jié)點(diǎn)表示未瀏覽的網(wǎng)頁，綠色對號和紅色叉號分別表示成功和不成功的結(jié)果。

圖1（a）反應(yīng)式：由于智能體總是選擇局部最優(yōu)，沒有前瞻性規(guī)劃，往往導(dǎo)致次優(yōu)結(jié)果。

圖1（b）結(jié)合真實(shí)交互的樹搜索：智能體通過主動網(wǎng)站導(dǎo)航探索多條路徑，并允許回溯（用虛線箭頭表示）。然而，在現(xiàn)實(shí)世界的網(wǎng)站中，由于不可逆操作的普遍存在，回溯往往不可行。

圖1（c）基于模型的規(guī)劃：在實(shí)際執(zhí)行之前，智能體會模擬潛在的結(jié)果（如云狀節(jié)點(diǎn)所示），以確定最佳行動，從而在保持有效性的同時(shí)盡量減少實(shí)際的網(wǎng)站交互。

總結(jié)來說，在LLM模擬的世界模型加持下，WebDreamer展現(xiàn)出了卓越的性能與效率，以及強(qiáng)大的擴(kuò)展能力：

性能：在 VisualWebArena 和 Mind2Web-live 上表現(xiàn)遠(yuǎn)超反應(yīng)式基線模型。
效率：與樹搜索相比，僅需一半的交互次數(shù)。
安全：通過減少現(xiàn)實(shí)世界的交互，有效降低安全風(fēng)險(xiǎn)。
集成：可無縫作為多種智能體的插件運(yùn)行，并補(bǔ)充樹搜索智能體的功能。

準(zhǔn)備

任務(wù)制定

對于在網(wǎng)站上進(jìn)行實(shí)時(shí)自動化交互這一目標(biāo)任務(wù)來講，網(wǎng)頁智能體面臨著龐大且復(fù)雜的搜索解空間。

形式上，每個(gè)帶有任務(wù)指令I(lǐng)的任務(wù)可以被視為一個(gè)部分可觀測的馬爾可夫決策過程（POMDP）：(S, A, O, T, R, Ω)。

其中，S代表環(huán)境中所有可能狀態(tài)的集合，A代表智能體可以采取的所有可能動作，O代表環(huán)境中所有可能的觀測值組成的集合，T : S × A → S代表狀態(tài)轉(zhuǎn)移函數(shù)，R是一個(gè)二值reward，表示任務(wù)I是否已完成，Ω : S → O是一個(gè)可將狀態(tài)投射到觀測值的確定性函數(shù)。

任務(wù)的目標(biāo)是執(zhí)行一系列動作以獲得1的獎勵。

在實(shí)際場景中，由于網(wǎng)絡(luò)環(huán)境的復(fù)雜性，其包括服務(wù)器端變量、動態(tài)加載的內(nèi)容、隱藏的UI元素，并受網(wǎng)絡(luò)條件和瀏覽器限制的影響，智能體只能通過有限的視角（即o ∈ O）來感知網(wǎng)絡(luò)環(huán)境。

這種受限的觀測視角也形成了相應(yīng)的動作空間A，其包括可在o中可執(zhí)行的交互操作，如點(diǎn)擊、文本輸入和URL跳轉(zhuǎn)。

表1 在VisualWebArena中定義的網(wǎng)絡(luò)導(dǎo)航動作空間

通過模擬進(jìn)行規(guī)劃

通過使用由狀態(tài)轉(zhuǎn)移函數(shù)「T」控制的真實(shí)交互進(jìn)行樹搜索來規(guī)劃最優(yōu)動作序列代價(jià)高昂，并且存在不可逆風(fēng)險(xiǎn)。基于模型的規(guī)劃通過使用環(huán)境的計(jì)算表征來模擬交互結(jié)果，從而解決這些挑戰(zhàn)。

一種顯著的方法是模型預(yù)測控制（Model Predictive Control，MPC），它通過迭代模擬未來軌跡來選擇動作。

對于每個(gè)狀態(tài)s，MPC使用模擬器函數(shù)sim(s, a)在有限的預(yù)測范圍H內(nèi)模擬每個(gè)可能動作a ∈ A的軌跡，并使用評分函數(shù)score(τ)進(jìn)行評估。然后執(zhí)行最有前景的軌跡相應(yīng)的動作：

此過程在觀察到新狀態(tài)后重復(fù)進(jìn)行，從而使智能體能夠根據(jù)實(shí)際結(jié)果調(diào)整其計(jì)劃，同時(shí)避免代價(jià)高昂的真實(shí)世界探索。實(shí)際上，由于部分可觀察性，我們無法訪問真實(shí)狀態(tài)，因此我們使用o = Ω(s)進(jìn)行sim(o, a)的計(jì)算。

基于模型規(guī)劃的網(wǎng)絡(luò)智能體

作者利用LLM作為世界模型，提出了一種開創(chuàng)性方法：WebDreamer，以實(shí)現(xiàn)復(fù)雜網(wǎng)絡(luò)環(huán)境中的高效規(guī)劃。

該方法受到這樣一個(gè)現(xiàn)象的啟發(fā)：盡管網(wǎng)絡(luò)界面復(fù)雜，但其設(shè)計(jì)對于人類用戶來說是可預(yù)測的。

當(dāng)瀏覽網(wǎng)站時(shí)，人類可以根據(jù)視覺提示和常見設(shè)計(jì)模式有效地預(yù)測動作結(jié)果——點(diǎn)擊「提交」按鈕即可提交表單，選擇產(chǎn)品圖片會導(dǎo)航到其詳情頁面。

鑒于LLMs是在大量Web相關(guān)數(shù)據(jù)上訓(xùn)練的，作者假設(shè)它們已經(jīng)獲得了足夠的知識來模擬用戶行為的后果，足以作為世界模型勝任有效規(guī)劃。

核心設(shè)計(jì)

WebDreamer的核心，是利用LLM來實(shí)現(xiàn)模擬函數(shù)sim和評分函數(shù)score。

下圖為WebDreamer使用LLM模擬三個(gè)候選動作的結(jié)果圖示，其中WebDreamer模擬每個(gè)動作的兩步軌跡，選擇得分最高的軌跡，并執(zhí)行相應(yīng)的初始動作。

圖中說明了LLM模擬自然語言描述中三個(gè)候選操作的軌跡：

（1）單擊「Office Products」

（2）單擊「Electronics」

（3）在文本框中鍵入「Disk」

通過這些模擬，對每個(gè)結(jié)果軌跡進(jìn)行評分，以確定最有可能成功的動作。

在這種情況下，LLM選擇單擊「Electronics」作為最佳步驟并執(zhí)行它。每個(gè)虛線框表示每個(gè)模擬操作后LLM生成的狀態(tài)描述。

sim的實(shí)現(xiàn)

模擬函數(shù)sim的實(shí)現(xiàn)由兩個(gè)模塊組成：一個(gè)模塊預(yù)測動作執(zhí)行后的狀態(tài)變化，近似狀態(tài)轉(zhuǎn)移函數(shù)「T」；而另一個(gè)根據(jù)預(yù)測的狀態(tài)想象可能的動作。

這兩個(gè)模塊共同生成長度為H的軌跡，其中H是一個(gè)可配置的模擬深度參數(shù)。

具體來說，為了表示狀態(tài)變化，研究者會提示LLM生成一個(gè)簡明的自然語言描述，僅關(guān)注動作的效果。

例如，在圖2中，當(dāng)提示預(yù)測執(zhí)行動作單擊「Electronics」的效果時(shí)，LLM將輸出如下簡短描述：

基于這個(gè)預(yù)測的狀態(tài)，LLM會隨后想象下一個(gè)動作（例如，點(diǎn)擊「電腦及配件」），這將導(dǎo)致另一個(gè)狀態(tài)改變進(jìn)一步的預(yù)測。

這個(gè)過程生成了一個(gè)模擬深度為H=2的軌跡。

score的實(shí)現(xiàn)

在使用sim從每個(gè)候選動作ai模擬出一個(gè)軌跡τi后，研究者進(jìn)一步使用LLM作為每個(gè)模擬軌跡的評分函數(shù)。

他們提示LLM以三種評分標(biāo)準(zhǔn)，來評估每個(gè)模擬軌跡——完成（1.0）、進(jìn)行中（0.5）或不正確（0），以指示其任務(wù)完成的進(jìn)度。

最終得分通過對這些評估的多次采樣進(jìn)行平均計(jì)算。除了sim和score，規(guī)劃的一個(gè)前提是候選動作生成。

研究者采用了兩階段方法：首先采樣出前k個(gè)動作，然后使用LLM自我優(yōu)化，去除不必要的動作以進(jìn)行模擬。

這個(gè)自我優(yōu)化步驟的動機(jī)，是研究者觀察到在不同步驟中，相同的k可以引入不同程度的不相關(guān)動作——某些步驟本身就比其他步驟可以用更少的有效動作進(jìn)行實(shí)現(xiàn)。

在算法1中，他們展示了WebDreamer整體設(shè)計(jì)的偽代碼。termination check用于驗(yàn)證模型是否輸出停止動作，其規(guī)則為當(dāng)算法達(dá)到最大步驟或連續(xù)3次重復(fù)一個(gè)動作時(shí)，則停止繼續(xù)執(zhí)行算法。