DeepMind揭驚人答案:智能體就是世界模型!跟Ilya 2年前預(yù)言竟不謀而合
就在剛剛,DeepMind科學(xué)家Jon Richens在ICML 2025上發(fā)表的論文,一石激起千層浪。
實現(xiàn)人類水平的智能體(即AGI),是否需要世界模型,還是存在無模型的捷徑?
他們從第一性原理出發(fā),揭示了一個令人驚訝的答案——
智能體就是世界模型!
具體來說,對這個問題的形式化回答如下。
任何能夠泛化到多步目標(biāo)導(dǎo)向任務(wù)的智能體,必然已經(jīng)學(xué)習(xí)了其環(huán)境的預(yù)測模型。
這個模型可以從智能體的策略中提取出來;而要提升智能體的性能,或讓其完成更復(fù)雜的目標(biāo)任務(wù),就必須學(xué)習(xí)更精確的世界模型。
論文地址:https://arxiv.org/pdf/2506.01622
業(yè)界:意義重大
愛丁堡大學(xué)博士生Shangmin Guo表示,完全同意谷歌DeepMind的這個結(jié)論,而且他們也一直在有意讓訓(xùn)練策略來進(jìn)行世界建模。
巧的是,就在剛剛他們也發(fā)布了一篇文章,發(fā)現(xiàn)可以將策略和世界模型統(tǒng)一到一個LLM中,因此完全不需要外部動態(tài)模型!
而另一篇已經(jīng)給RLC 2025投稿的文章中提出的觀點,也和這項研究相互印證。
還有人發(fā)現(xiàn),這項研究跟2023年Ilya提出的一個說法,竟然不謀而合了——
存在一個更深層次的東西,一條支配所有智能體的基本法則。
還有人提出一個非常新奇的研究思路:圖——網(wǎng)絡(luò)圖——是世界模型非常好的抽象形式。因為沒有任何結(jié)構(gòu)是我們無法用圖來描述的。
或許,世界模型對于AGI的重要性,恰恰就體現(xiàn)在通過降維來實現(xiàn)復(fù)雜性的實際問題。
存在無模型的捷徑嗎?
世界模型是人類目標(biāo)導(dǎo)向的基礎(chǔ),但在混亂的開放世界中很難學(xué)習(xí)。
不過,現(xiàn)在我們已經(jīng)看到了通用的、無模型的很多智能體,比如Gato、PaLM-E、Pi-0……
所以,這些智能體究竟是學(xué)習(xí)了隱式的世界模型,還是找到了另一種泛化到新任務(wù)的方法?
經(jīng)過探究后,研究者們發(fā)現(xiàn):任何能泛化到廣泛簡單目標(biāo)導(dǎo)向任務(wù)的智能體,必然已經(jīng)學(xué)會了一個能夠模擬其環(huán)境的預(yù)測模型。并且,這個模型始終可以從智能體中恢復(fù)。
具體來說,他們展示出:在足夠廣泛的一組簡單目標(biāo)(例如將環(huán)境引導(dǎo)至某個期望狀態(tài))上,只要一個以目標(biāo)為條件的策略滿足一定的后悔值上界,就有可能從該策略中恢復(fù)出一個對環(huán)境轉(zhuǎn)移函數(shù)的有界誤差近似!
總之,為了實現(xiàn)更低的后悔值,或完成更復(fù)雜的目標(biāo),智能體必須學(xué)習(xí)越來越精確的世界模型。
而「以目標(biāo)為條件的策略」,在信息上實際就等價于世界模型!
不過,這種等價僅適用于具有多步時間跨度的目標(biāo),而那些目光短淺的智能體因為只考慮眼前的回報,就并不需要學(xué)習(xí)世界模型了。
總之,根本不存在這樣一條「無模型的捷徑」!
如果你想訓(xùn)練一個能夠完成廣泛目標(biāo)導(dǎo)向任務(wù)的智能體,就無法回避學(xué)習(xí)世界模型的挑戰(zhàn)。
而且,為了提升性能或通用性,智能體還需要學(xué)習(xí)越來越精確和詳細(xì)的世界模型。
所以,智能體中究竟蘊(yùn)含了什么世界知識呢?
為了探尋這個答案,研究者們推導(dǎo)出了一些算法,能夠在已知智能體策略和目標(biāo)的情況下恢復(fù)其世界模型。
這些算法補(bǔ)全了規(guī)劃和逆強(qiáng)化學(xué)習(xí)的三位一體關(guān)系。
規(guī)劃:世界模型+目標(biāo)→策略
逆強(qiáng)化學(xué)習(xí):世界模型+策略→目標(biāo)
研究者提出的這一環(huán):策略+目標(biāo)→世界模型
在這個過程中,智能體就體現(xiàn)出了驚人的涌現(xiàn)能力!
這是因為,為了在眾多目標(biāo)上最小化訓(xùn)練損失,智能體必須學(xué)習(xí)一個世界模型,這使得它能夠解決一些并未被明確訓(xùn)練過的任務(wù)。
哪怕只是簡單的目標(biāo)導(dǎo)向性,也能催生出多種能力,比如社會認(rèn)知、對不確定性的推理、意圖識別等。
另外,在此前的研究中,他們發(fā)現(xiàn)要實現(xiàn)魯棒性,需要一個因果世界模型。
但事實上,任務(wù)泛化并不需要對環(huán)境具備太多的因果知識。
在這里,就存在因果層級體系,不過它針對的是智能體性與智能體能力,而不是針對推理過程的。
下面,就讓我們仔細(xì)閱讀這篇精彩的論文,開啟一場思維盛宴!
人類智能的特征,就是世界模型
人類智能的一大特征,是能夠在幾乎沒有監(jiān)督的情況下完成新任務(wù),這種能力可以被形式化為「小樣本學(xué)習(xí)」和「零樣本學(xué)習(xí)」。
而現(xiàn)在,LLM開始展現(xiàn)出這些能力,這也就給了我們AGI的期待——能在復(fù)雜現(xiàn)實環(huán)境中完成長時序、以目標(biāo)為導(dǎo)向任務(wù)的系統(tǒng)。
在人類中,這種靈活的目標(biāo)導(dǎo)向行為,高度依賴于對世界的豐富心理表征,也就是所謂「世界模型」。
不過,如果要實現(xiàn)AGI,必須先擁有世界模型嗎?
這個問題,在業(yè)界一直存在爭論。
1991年,Brooks在《沒有表征的智能》中提出了著名觀點:世界本身就是最好的模型。所有智能行為都可以通過智能體在「感知-行動」回路中的交互產(chǎn)生,無需學(xué)習(xí)顯式的世界表征。
論文鏈接:https://people.csail.mit.edu/brooks/papers/representation.pdf
然而,越來越多的證據(jù)表明,實際上,無模型智能體可能在隱式地學(xué)習(xí)世界模型,甚至在學(xué)習(xí)隱式規(guī)劃算法。
這就引出了一個根本性問題:我們是否可以通過「無模型捷徑」實現(xiàn)人類級別的AI?還是說,學(xué)習(xí)一個世界模型是不可避免的?
如果必須要有世界模型,那它究竟需要多精確、多全面,才能支撐起某一水平的能力?
本篇論文的答案是——
在一組足夠多樣的簡單目標(biāo)任務(wù)中,任何能夠滿足「后悔值界限」的智能體,必然已經(jīng)學(xué)習(xí)了其環(huán)境的準(zhǔn)確預(yù)測模型。
換句話說:智能體策略中已經(jīng)包含了準(zhǔn)確模擬環(huán)境所需的全部信息。
更重要的是,研究者的這個結(jié)論對任何滿足「后悔值界限」的智能體都成立,無論它的訓(xùn)練方式、體系結(jié)構(gòu),甚至不假設(shè)理性前提。
不僅如此,在第3節(jié)中,研究者還提出了從通用智能體中提取世界模型的新算法。
結(jié)果表明,即便智能體顯著偏離我們設(shè)定的「能力假設(shè)」,這些算法依然能夠恢復(fù)出準(zhǔn)確的世界模型!
實驗設(shè)置
在這個實驗中,大寫字母表示隨機(jī)變量,小寫字母表示該變量的取值或狀態(tài),即X=x。
我們假設(shè)環(huán)境是一個可控馬爾可夫過程,即沒有指定獎勵函數(shù)或折扣因子的馬爾可夫決策過程(MDP)。
形式上,一個cMP包含以下元素:
- 狀態(tài)集合S
- 動作集合A
- 轉(zhuǎn)移函數(shù)
將狀態(tài)–動作對隨時間演化的序列稱為軌跡,記作
軌跡的一個有限前綴稱為歷史,記作
定義1,就是一個可控馬爾科夫過程。
在假設(shè)1中,研究者假設(shè)環(huán)境是由一個不可約、平穩(wěn)、有限維的可控馬爾可夫過程(定義1)描述的,且至少包含兩個動作。
而研究者的目標(biāo),就是定義一類簡單且直觀的目標(biāo),讓我們能合理地期望智能體能實現(xiàn)這些目標(biāo)。
由此,他們提出了定義2。
利用定義2,就可以通過將目標(biāo)以順序或并行方式組合起來,構(gòu)造出復(fù)雜度不斷提升的復(fù)合目標(biāo)。
- 順序組合:例如先完成目標(biāo)φA,再完成目標(biāo)φB;
- 并行組合:只要滿足φA或φB中任意一個即可。
然后,他們提出了定義3。
舉個例子來說,一個維修機(jī)器人被賦予以下任務(wù):要么修理一臺故障的機(jī)器,要么找到一位工程師,并通知他機(jī)器出了問題。
修理機(jī)器需要執(zhí)行一系列預(yù)定的動作a_1,a_2,…,a_N,并在每一步都達(dá)到對應(yīng)的期望狀態(tài)s_1,s_2,…,s_N。
找到并通知工程師的過程,要求機(jī)器人移動到工程師所在的位置S=s_seng,并執(zhí)行一個通知動作A=a′。
機(jī)器人的總體目標(biāo),可以表示為一個復(fù)合目標(biāo):ψ=ψ1∨ψ2。即:完成修理任務(wù)或完成通知任務(wù)中的任意一個即可。
智能體
這些研究的目標(biāo),就是提出一個最簡化定義,用于描述能夠在其環(huán)境中實現(xiàn)多種目標(biāo)的智能體。
為此,研究者聚焦于目標(biāo)條件智能體,這類智能體的策略,即是將歷史h_t和目標(biāo)ψ映射為動作a_t(如圖2)。
圖中介紹了一個智能體-環(huán)境系統(tǒng)。
智能體是從當(dāng)前狀態(tài)s_t(或歷史)和目標(biāo)ψ映射到動作a_t的函數(shù)。
圖中的虛線表示算法1,該算法可以根據(jù)這個智能體映射關(guān)系恢復(fù)出環(huán)境的狀態(tài)轉(zhuǎn)移概率。
需注意,該定義并不限制智能體必須依賴完整環(huán)境歷史來選擇動作——
任何策略(例如馬爾可夫策略)均可由此表示。
為簡化分析,研究者假設(shè):
- 完全可觀測性:環(huán)境狀態(tài)對智能體完全可見
- 確定性策略:智能體遵循確定性策略
基于此,自然可定義給定環(huán)境與目標(biāo)集Ψ的最優(yōu)目標(biāo)條件智能體,即對于所有ψ ∈ Ψ,該策略最大化目標(biāo)ψ的實現(xiàn)概率,見定義4。
現(xiàn)實中的智能體很少是最優(yōu)的,尤其是在復(fù)雜環(huán)境中執(zhí)行需要協(xié)調(diào)多個子目標(biāo)、跨越較長時間跨度的任務(wù)時。
因此,研究者放寬了定義4了,定義了一類有界智能體(bounded agent),它能夠在某個最大目標(biāo)深度Ψn內(nèi)實現(xiàn)目標(biāo),其失敗率相對于最優(yōu)智能體是有界的。
有界智能體由兩個參數(shù)定義(見下列定義5):
- 失敗率δ ∈ [0, 1],它為智能體完成目標(biāo)的概率相對于最優(yōu)智能體設(shè)定了一個下限(類似于「后悔」);
- 最大目標(biāo)深度n,該后悔界限只對深度小于等于n的目標(biāo)成立。
這種定義自然地涵蓋了我們關(guān)注的智能體類型——
它們在實現(xiàn)某種復(fù)雜度(由δ和Ψn參數(shù)化)目標(biāo)方面具有一定能力。
重要的是,定義5僅假設(shè)智能體具備一定的能力。
智能體就是世界模型
最終,研究人員證明了條件策略與世界模型的「等價性」:
環(huán)境的轉(zhuǎn)移函數(shù)的近似(世界模型)僅由智能體的策略決定,并且具有有限的誤差。
因此,學(xué)習(xí)這樣目標(biāo)條件策略在信息上等同于學(xué)習(xí)準(zhǔn)確的世界模型。
這需要?dú)w約證明,詳細(xì)證明見原文附錄。
具體而言,研究人員假設(shè)智能體是有目標(biāo)條件的有限智能體(定義5),即它在某些有限深度n的目標(biāo)導(dǎo)向任務(wù)中具有一定(下限的)能力(定義3)。
首先,研究者給出用于定理1證明中的過程——算法1(Algorithm 1)的偽代碼。
在給定后悔界限的目標(biāo)條件策略情況下,算法1用于推導(dǎo)轉(zhuǎn)移概率的有界誤差估計。
隨后,研究者給出算法2(Algorithm 2),這是一個用于估計P?ss′(a)的替代算法,其誤差界限比算法1更弱,但實現(xiàn)方式明顯更為簡單。
算法組合拳
算法1,能從從一個有目標(biāo)條件的有限智能體恢復(fù)有界誤差世界模型。
算法1是通用的,意味著該算法適用于所有滿足定義5的智能體和所有滿足假設(shè)1的環(huán)境。
它也是無監(jiān)督的;該算法的唯一輸入是智能體的策略π。
這個算法的存在,將π轉(zhuǎn)化為一個有界誤差世界模型,意味著世界模型編碼在智能體的策略中,學(xué)習(xí)這樣的策略在信息上等同于學(xué)習(xí)一個世界模型。
從定理1中恢復(fù)的世界模型的準(zhǔn)確性隨著智能體接近最優(yōu)(δ→0)和/或能夠?qū)崿F(xiàn)的順序目標(biāo)的深度n增加而提高。
推導(dǎo)出的誤差界限的一個關(guān)鍵結(jié)論是,對于任何δ<1,如果n足夠大,我們就可以恢復(fù)一個任意準(zhǔn)確的世界模型。
因此,為了實現(xiàn)長時間跨度的目標(biāo),即使失敗率較高(δ~1),智能體也必須學(xué)會一個高度準(zhǔn)確的世界模型。
誤差界限還依賴于轉(zhuǎn)移概率。
這意味著對于任何δ>0和/或有限的n,可能存在低概率的轉(zhuǎn)移,智能體不需要學(xué)習(xí)這些轉(zhuǎn)移。
這與直覺一致,即次優(yōu)或有限時間跨度的智能體,只需要學(xué)習(xí)覆蓋更常見轉(zhuǎn)移的稀疏世界模型。
但要實現(xiàn)更高成功率或更長時間跨度的目標(biāo),則需要更高分辨率的世界模型。
圖3:算法2恢復(fù)出的世界模型中的平均誤差???和平均誤差隨?δ(n=50)?變化的趨勢
圖3a顯示,隨著智能體泛化能力的提升,其恢復(fù)出的世界模型誤差(???)呈顯著下降趨勢。
這表明:為了在更復(fù)雜的目標(biāo)上保持穩(wěn)定表現(xiàn),智能體必須構(gòu)建更高精度的內(nèi)部世界模型。
這一實驗驗證了理論推導(dǎo)中關(guān)于誤差收斂性的預(yù)期。
Nmax(?δ?=0.04)表示在智能體達(dá)到平均后悔值≤0.04的條件下,可實現(xiàn)的最大目標(biāo)深度。誤差的縮放關(guān)系為O(n^?1/2),這與定理1中最壞情況下的誤差?與最壞情況下后悔值δ的縮放關(guān)系一致。
圖3b展示了平均誤差隨?δ(n=50)?變化的趨勢,即智能體在深度為n=50的目標(biāo)上所達(dá)到的平均后悔值。
在兩張圖中,誤差條表示10次實驗中平均值的95%置信區(qū)間。
短視智能體:不必學(xué)習(xí)世界模型
定理1給出了一個微不足道的誤差界限,但這些世界模型只能從最大目標(biāo)深度為1的智能體提取。
尚不清楚這是否意味著只優(yōu)化即時結(jié)果的智能體(myopic agent,短視智能體)不需要學(xué)習(xí)世界模型,還是定理1能捕捉到這一類智能體。
為了解決這個問題,研究者推導(dǎo)出了針對短視智能體的結(jié)果。
這些智能體對于n=1滿足后悔界限,對于任何n>1只有一個微不足道的后悔界限(δ=1)。
定理2意味著不存在任何過程可以即使是部分地從短視智能體的策略中確定轉(zhuǎn)移概率。
定理2顯式構(gòu)造最優(yōu)的短視智能體來說明了這一點,詳細(xì)證明見原文附錄B。
因此,這種智能體的策略只能對轉(zhuǎn)移概率提供微不足道的界限。
所以,對于短視智能體而言,學(xué)習(xí)世界模型并不是必要的——
只有當(dāng)智能體追求包含多個子目標(biāo)、需要多步完成的任務(wù)時,世界模型才是必需的。