AGI真方向?谷歌證明:智能體在自研世界模型,世界模型is all You Need
我們知道,大模型技術(shù)爆發(fā)的原點(diǎn)可能在谷歌一篇名為《Attention is All You Need》的論文上。
如今,在通用人工智能(AGI)初現(xiàn)曙光,Scaling Laws 卻疑似接近極限的當(dāng)口,又是谷歌對(duì)未來(lái)方向進(jìn)行了一番思考,想來(lái)想去還是只有五個(gè)詞:
- 論文標(biāo)題:General agents need world models
- 論文鏈接:https://arxiv.org/abs/2506.01622
該論文已被機(jī)器學(xué)習(xí)頂會(huì) ICML 收錄。他們發(fā)現(xiàn):如果一個(gè) AI 智能體能夠處理復(fù)雜的、長(zhǎng)期的任務(wù),那么它一定學(xué)習(xí)過一個(gè)內(nèi)部世界模型——我們甚至可以通過觀察智能體的行為來(lái)提取它。
世界模型是實(shí)現(xiàn)靈活、目標(biāo)導(dǎo)向行為的必要要素,還是無(wú)需模型的學(xué)習(xí)就已足夠?Google DeepMind 研究人員為這個(gè)問題提供了一個(gè)正式的答案——任何能夠泛化到多步驟目標(biāo)導(dǎo)向任務(wù)的智能體都必須學(xué)習(xí)其環(huán)境的預(yù)測(cè)模型。
更進(jìn)一步,實(shí)驗(yàn)證明,這樣的模型可以從智能體的策略中提取出來(lái),而提升智能體的性能或其可實(shí)現(xiàn)目標(biāo)的復(fù)雜性需要學(xué)習(xí)越來(lái)越精確的世界模型。這將帶來(lái)一系列影響:從開發(fā)安全通用的智能體,到在復(fù)雜環(huán)境中限制智能體的能力,以及提供從智能體中獲取世界模型的新算法。
香港中文大學(xué)博士 Richard C. Suwandi 撰寫了一篇博客文章,詳細(xì)解讀了這篇開創(chuàng)性的論文及其對(duì) AGI 未來(lái)的意義。
想象一下,如果我們能夠構(gòu)建一個(gè)像人類一樣思考和計(jì)劃的人工智能,未來(lái)會(huì)是什么樣子。大語(yǔ)言模型(LLM)領(lǐng)域的最新突破使我們更接近這一目標(biāo)。隨著這些模型規(guī)模不斷擴(kuò)大,并接受更多數(shù)據(jù)的訓(xùn)練,它們會(huì)發(fā)展出所謂的涌現(xiàn)。
這顯著提升了它們?cè)诟黝愊掠稳蝿?wù)上的表現(xiàn)。大模型的涌現(xiàn)引發(fā)了新一輪的研究,旨在創(chuàng)建能夠在現(xiàn)實(shí)世界環(huán)境中處理復(fù)雜、長(zhǎng)期任務(wù)的通用 AI 智能體。但令人著迷的是:人類不僅對(duì)他們所見的事物做出反應(yīng),我們還建立了豐富的心智模型來(lái)建模世界的運(yùn)作方式。這些世界模型可幫助我們?cè)O(shè)定雄心勃勃的目標(biāo),并制定周到的計(jì)劃。因此,基于這一觀察,我們很自然地會(huì)問:
世界模型對(duì)于實(shí)現(xiàn)人類水平的人工智能有用嗎?
最近,Google DeepMind 的研究人員表明,學(xué)習(xí)世界模型不僅有益,而且對(duì)于一般智能體來(lái)說也是必要的。在這篇文章中,我們將討論該論文的主要發(fā)現(xiàn)及其對(duì) AI 智能體未來(lái)的影響。
我們需要世界模型嗎?
1991 年,Rodney Brooks 提出了一個(gè)著名觀點(diǎn):「世界是其自身的最佳模型」。
他認(rèn)為,智能行為可以自然地從無(wú)模型智能體中產(chǎn)生,只需通過一系列動(dòng)作和感知與環(huán)境互動(dòng),無(wú)需構(gòu)建世界運(yùn)作方式的明確表征。無(wú)模型智能體的顯著成功有力地支持了 Brooks 的論點(diǎn),這些智能體在不同任務(wù)和環(huán)境中展現(xiàn)出了出色的泛化能力。這種無(wú)模型方法為創(chuàng)建通用 AI 智能體提供了一種頗具吸引力的途徑,同時(shí)避免了學(xué)習(xí)顯式世界模型的復(fù)雜性。
然而,最近的研究提出了一個(gè)有趣的可能性:即使是這些所謂的無(wú)模型智能體也可能正在表面之下學(xué)習(xí)隱式的世界模型和規(guī)劃算法。
Ilya Sutskever 一直是對(duì)的?
這讓人們回想起 2023 年 3 月,OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever 提出了一個(gè)深刻的論斷:大型神經(jīng)網(wǎng)絡(luò)的功能遠(yuǎn)不止預(yù)測(cè)下一個(gè)單詞,它實(shí)際上是在學(xué)習(xí)「世界模型」。他是這樣說的:
他認(rèn)為,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的不僅僅是文本信息,而是我們這個(gè)世界的一種壓縮表征。因此,我們預(yù)測(cè)下一個(gè)詞的準(zhǔn)確度越高,世界模型的保真度就越高。
智能體與世界模型
雖然 Ilya 的說法引人入勝,但當(dāng)時(shí)尚不清楚如何將其形式化。但現(xiàn)在,谷歌 DeepMind 的研究人員已經(jīng)證明,Ilya 的說法并非僅僅是一個(gè)假設(shè),而是一條支配所有通用智能體的基本定律。
在論文中作者指出,「任何能夠推廣到廣泛的簡(jiǎn)單目標(biāo)導(dǎo)向任務(wù)的智能體都必須學(xué)習(xí)能夠模擬其環(huán)境的預(yù)測(cè)模型,并且該模型始終可以從智能體中還原出來(lái)?!?/span>
任何滿足界限的智能體都必須學(xué)習(xí)環(huán)境轉(zhuǎn)換函數(shù),該函數(shù)可以從其目標(biāo)條件策略中提取出來(lái)。對(duì)于能夠處理諸如到達(dá)特定狀態(tài)等基本任務(wù)的智能體來(lái)說也是如此。
注意,上述內(nèi)容僅適用于在多步驟范圍內(nèi)進(jìn)行規(guī)劃的智能體,因?yàn)樗鼈冃枰私庑袆?dòng)如何影響未來(lái)狀態(tài)。然而,只考慮即時(shí)獎(jiǎng)勵(lì)的「短視」智能體可能會(huì)避免學(xué)習(xí)世界模型,因?yàn)樗鼈儾恍枰A(yù)測(cè)長(zhǎng)期后果。
為了使上述主張更加精確,作者開發(fā)了一個(gè)基于四個(gè)關(guān)鍵組成部分的嚴(yán)格數(shù)學(xué)框架:環(huán)境、目標(biāo)、智能體和世界模型。
環(huán)境
假設(shè)環(huán)境是一個(gè)受控馬爾可夫過程(cMP)本質(zhì)上是一個(gè)沒有指定獎(jiǎng)勵(lì)函數(shù)的馬爾可夫決策過程。cMP 的構(gòu)成包括狀態(tài)空間 S、動(dòng)作空間 A 以及過渡函數(shù)
作者假設(shè)環(huán)境是不可簡(jiǎn)化的和固定的。
目標(biāo)
本文沒有定義復(fù)雜的目標(biāo)結(jié)構(gòu),而是專注于用線性時(shí)間邏輯 (LTL) 表達(dá)的簡(jiǎn)單、直觀的目標(biāo)。一個(gè)目標(biāo) φ 形式為,其中 g 是一組目標(biāo)狀態(tài),
指定時(shí)間范圍(?= 下一步,?= 最終,?= 現(xiàn)在)。更復(fù)雜的復(fù)合目標(biāo) ψ 可以通過按順序組合連續(xù)目標(biāo)來(lái)形成:ψ=?φ_1,φ_2,…,φ_n?其中,智能體必須按順序?qū)崿F(xiàn)每個(gè)子目標(biāo)。目標(biāo)的深度等于子目標(biāo)的數(shù)量:depth (ψ)=n。
智能體
作者重點(diǎn)研究了目標(biāo)條件智能體,定義為策略,其可基于目標(biāo) ψ 將歷史 h_t 映射到一個(gè)動(dòng)作 a_t。這就引出了針對(duì)給定環(huán)境和目標(biāo)集 Ψ 的最優(yōu)目標(biāo)條件智能體的一個(gè)自然定義,即一種策略,該策略能使對(duì)于所有 ψ∈Ψ,ψ 得以實(shí)現(xiàn)的概率最大化。
然而,真實(shí)的智能體很少是最優(yōu)的,尤其是在復(fù)雜環(huán)境中運(yùn)行,以及執(zhí)行需要在長(zhǎng)期內(nèi)協(xié)調(diào)多個(gè)子目標(biāo)的任務(wù)時(shí)。作者并不要求完美最優(yōu),而是定義了一個(gè)有界智能體,它能夠?qū)崿F(xiàn)某個(gè)最大目標(biāo)深度的目標(biāo),并且相對(duì)于最優(yōu)智能體的失敗率是有界的。有界目標(biāo)條件智能體滿足:
對(duì)于所有目標(biāo) ψ∈Ψ_n, 其中 Ψ_n 是所有復(fù)合目標(biāo)的集合,其深度最多為 n 和 δ∈[0,1] 是錯(cuò)誤率參數(shù)。
世界模型
作者考慮了預(yù)測(cè)世界模型,它可以被智能體用來(lái)進(jìn)行規(guī)劃。他們將世界模型定義為任何近似環(huán)境的過渡函數(shù)
有界誤差。作者表明,對(duì)于任何此類有界目標(biāo)條件的智能體,可以僅從其的策略中恢復(fù)環(huán)境轉(zhuǎn)換函數(shù)(世界模型)的近似值:
讓 π 成為具有最大失敗率的目標(biāo)條件智能體,δ 對(duì)于所有目標(biāo) ψ∈Ψ_n,其中 n>1。 然后 π 完全確定模型對(duì)于有界誤差的環(huán)境轉(zhuǎn)移概率:
對(duì)于 δ?1 以及 n?1,誤差尺度為
上述結(jié)果揭示了兩個(gè)重要的見解:
1. 隨著智能體能力越來(lái)越強(qiáng)(δ→0),可恢復(fù)世界模型變得更加準(zhǔn)確。
2. 當(dāng)智能體處理更長(zhǎng)遠(yuǎn)的目標(biāo)(更大的 n),它們必須學(xué)習(xí)越來(lái)越精確的世界模型。
這也意味著學(xué)習(xí)足夠通用的目標(biāo)條件策略在信息上等同于學(xué)習(xí)準(zhǔn)確的世界模型。
如何還原世界模型
作者還推導(dǎo)出了一種從有界智能體恢復(fù)世界模型的算法。該算法通過向智能體查詢精心設(shè)計(jì)的復(fù)合目標(biāo)來(lái)工作,這些目標(biāo)對(duì)應(yīng)于「非此即彼」的決策。例如,它提出諸如「實(shí)現(xiàn)過渡最多 r 次超出 n 嘗試」與「實(shí)現(xiàn)它超過 r 次」之類的目標(biāo)。智能體的行動(dòng)選擇揭示了哪個(gè)結(jié)果具有更高的概率,這使我們能夠估計(jì)
。
從有界智能體恢復(fù)世界模型的派生算法。
實(shí)驗(yàn)
為了測(cè)試算法的有效性,作者對(duì)一個(gè)隨機(jī)生成的受控馬爾可夫過程進(jìn)行了實(shí)驗(yàn),該過程包含 20 個(gè)狀態(tài)和 5 個(gè)動(dòng)作,并采用稀疏轉(zhuǎn)移函數(shù)來(lái)增加學(xué)習(xí)難度。他們使用從環(huán)境中采樣的軌跡,在隨機(jī)策略下訓(xùn)練智能體,通過延長(zhǎng)訓(xùn)練軌跡長(zhǎng)度來(lái)提高其能力。結(jié)果表明:
- 即使智能體嚴(yán)重違反理論假設(shè)(對(duì)于某些目標(biāo)實(shí)現(xiàn)最壞情況的 regret δ=1,他們的算法仍然恢復(fù)了準(zhǔn)確的世界模型。
- 恢復(fù)的世界模型中的平均誤差隨著
,匹配誤差界限和目標(biāo)深度之間的理論縮放關(guān)系。
- 隨著智能體學(xué)會(huì)處理更長(zhǎng)遠(yuǎn)的目標(biāo)(更大的最大深度 n),提取出的世界模型變得越來(lái)越準(zhǔn)確。這證實(shí)了智能體能力與世界模型質(zhì)量之間的根本聯(lián)系。
隨著智能體處理更深層次的目標(biāo),恢復(fù)的世界模型中的平均誤差會(huì)減小。b) 平均誤差與智能體在深度 50 時(shí)的 regret 成比例。誤差線顯示 10 次實(shí)驗(yàn)的 95% 置信區(qū)間。
與其他研究的關(guān)聯(lián)
這項(xiàng)工作的成果補(bǔ)充了人工智能研究的其他幾個(gè)領(lǐng)域:
所提出的算法完善了環(huán)境、目標(biāo)和策略之間的「三角」。規(guī)劃在給定世界模型和目標(biāo)(世界模型 + 目標(biāo) → 策略)的情況下確定最優(yōu)策略,而逆向強(qiáng)化學(xué)習(xí)(IRL)給定世界模型和策略(世界模型 + 策略 → 目標(biāo)),恢復(fù)目標(biāo)。提出的算法通過給定智能體的策略和目標(biāo)(策略 + 目標(biāo) → 世界模型),恢復(fù)世界模型來(lái)填補(bǔ)剩余的方向。正如 IRL 需要跨多個(gè)環(huán)境觀察策略才能完全確定目標(biāo)一樣,算法需要觀察智能體在多個(gè)目標(biāo)上的行為,才能完全恢復(fù)世界模型。
雖然規(guī)劃使用世界模型和目標(biāo)來(lái)確定策略,而 IRL 和逆向規(guī)劃使用智能體的策略和世界模型來(lái)識(shí)別其目標(biāo),但所提出的算法使用智能體的策略及其目標(biāo)來(lái)識(shí)別世界模型。
傳統(tǒng)的機(jī)械可解釋性(MI)通常依賴于分析神經(jīng)網(wǎng)絡(luò)激活或使用監(jiān)督探測(cè)另一方面,所提出的算法提供了一種新穎的方法,可以直接從智能體的策略行為中提取世界模型,即使在模型內(nèi)部無(wú)法訪問的情況下也能適用。這種無(wú)監(jiān)督且與架構(gòu)無(wú)關(guān)的方法適用于任何滿足有限 regret 條件的智能體,無(wú)論其具體實(shí)現(xiàn)如何。對(duì)于 LLM,這意味著我們可以通過分析其目標(biāo)導(dǎo)向行為來(lái)揭示其隱含的世界模型,而無(wú)需訪問其內(nèi)部表征。
最近的研究《Robust agents learn causal world models》表明,適應(yīng)分布變化的智能體必須學(xué)習(xí)因果世界模型。該研究通過關(guān)注任務(wù)泛化而非領(lǐng)域泛化來(lái)補(bǔ)充這一理論。有趣的是,領(lǐng)域泛化需要比任務(wù)泛化更深的因果理解。
例如,在一個(gè)狀態(tài)變量為 X 和 Y 是存在因果關(guān)系(X→Y),智能體只需學(xué)習(xí)轉(zhuǎn)移概率即可實(shí)現(xiàn)最佳任務(wù)績(jī)效,而無(wú)需了解潛在的因果關(guān)系。這暗示了 Pearl 因果層級(jí)的智能體版本其中不同的智能體能力(如領(lǐng)域或任務(wù)泛化)需要不同級(jí)別的因果知識(shí)。
這些發(fā)現(xiàn)對(duì)人工智能的發(fā)展和安全也具有著重要意義。大語(yǔ)言模型和其他人工智能系統(tǒng)中新功能的出現(xiàn),可以用在針對(duì)各種訓(xùn)練任務(wù)進(jìn)行優(yōu)化時(shí)學(xué)習(xí)到的隱式世界模型來(lái)解釋。從能力強(qiáng)大的智能體中提取世界模型的能力,為驗(yàn)證和校準(zhǔn)提供了一種新的工具,因?yàn)槟P捅U娑葧?huì)隨著智能體能力的提升而擴(kuò)展。然而,學(xué)習(xí)復(fù)雜現(xiàn)實(shí)世界系統(tǒng)的精確世界模型本身就存在困難,這也從根本上限制了智能體的通用能力。
結(jié)論
或許,Ilya 在 2023 年的預(yù)測(cè)比我們意識(shí)到的更有前瞻性。如果上述結(jié)果屬實(shí),那么當(dāng)前通過擴(kuò)展語(yǔ)言模型來(lái)推進(jìn)超級(jí)人工智能(ASI)的競(jìng)賽,或許暗地里就是一場(chǎng)構(gòu)建更復(fù)雜世界模型的競(jìng)賽。我們也有可能正在見證一些更為深刻的變革:從 David Silver 和 Richard Sutton 所說的「人類數(shù)據(jù)時(shí)代」向「經(jīng)驗(yàn)時(shí)代」的轉(zhuǎn)變。雖然當(dāng)前的人工智能系統(tǒng)通過模仿人類生成的數(shù)據(jù)實(shí)現(xiàn)了非凡的能力,但 Silver 和 Sutton 認(rèn)為,超人類智能將主要通過智能體從自身經(jīng)驗(yàn)中學(xué)習(xí)而誕生。
例如,隨著 Genie 2 等基礎(chǔ)世界模型的最新發(fā)展,我們可以從單個(gè)圖像生成無(wú)限的 3D 環(huán)境并允許智能體在豐富的環(huán)境中產(chǎn)生「經(jīng)驗(yàn)流」,并根據(jù)其能力進(jìn)行適應(yīng)和發(fā)展。
Genie 2,谷歌提出的一個(gè)基礎(chǔ)世界模型,能夠生成無(wú)限多樣、可操作、可游玩的 3D 環(huán)境,用于訓(xùn)練和評(píng)估具身智能體。只需一張?zhí)崾緢D像,人類或 AI 智能體即可使用鍵盤和鼠標(biāo)輸入來(lái)游玩。
如果說一般智能體必須學(xué)習(xí)世界模型,而超人類智能需要從經(jīng)驗(yàn)而非人類數(shù)據(jù)中學(xué)習(xí),那么像 Genie 2 這樣的基礎(chǔ)世界模型或許就是體驗(yàn)時(shí)代的終極尺度法則。我們并不是在觸及人類知識(shí)的上限,而是正在進(jìn)入一個(gè)新階段:AI 智能體的質(zhì)量從根本上受限于它們能夠模擬和探索的世界的保真度。
能夠做最精準(zhǔn)的夢(mèng),并從夢(mèng)中學(xué)習(xí)最多的智能體,或許才是最聰明的。