南大俞揚(yáng)深度解讀：什么是「世界模型」？

作者：新智元 2024-02-27 14:55:00

人工智能新聞

當(dāng)AI領(lǐng)域中講到世界/world、環(huán)境/environment這個詞的時候，通常是為了與智能體/agent加以區(qū)分。

隨著媒體狂炒Sora，OpenAI的介紹材料中稱Sora是「world simulator」，世界模型這個詞又進(jìn)入視野，但很少有文章來介紹世界模型。

這里回顧一下什么是世界模型，以及討論Sora是不是world simulator。

什么是world models/世界模型

當(dāng)AI領(lǐng)域中講到世界/world、環(huán)境/environment這個詞的時候，通常是為了與智能體/agent加以區(qū)分。

研究智能體最多的領(lǐng)域，一個是強(qiáng)化學(xué)習(xí)，一個是機(jī)器人領(lǐng)域。

因此可以看到，world models、world modeling最早也最常出現(xiàn)在機(jī)器人領(lǐng)域的論文中。

而今天world models這個詞影響最大的，可能是Jurgen 2018年放到arxiv的這篇以「world models」命名的文章，該文章最終以「Recurrent World Models Facilitate Policy Evolution」的title發(fā)表在NeurIPS‘18。

該論文中并沒有定義什么是World models，而是類比了認(rèn)知科學(xué)中人腦的mental model，引用了1971年的文獻(xiàn)。

mental model是人腦對周邊世界的鏡像

Wikipedia中介紹的mental model，很明確的指出其可能參與認(rèn)知、推理、決策過程。并且說到mental model主要包含mental representations和mental simulation兩部分。

an internal representation of external reality, hypothesized to play a major role in cognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who suggested that the mind constructs "small-scale models" of reality that it uses to anticipate events.

到這里還是說得云霧繚繞，那么論文中的結(jié)構(gòu)圖一目了然的說明了什么是一個world model。

圖中縱向V->z是觀測的低維表征，用VAE實現(xiàn)，水平的M->h->M->h是序列的預(yù)測下一個時刻的表征，用RNN實現(xiàn)，這兩部分加起來就是World Model。

也就是說，World model的主要包含狀態(tài)表征和轉(zhuǎn)移模型，這也正好對應(yīng)mental representations和mental simulation。

看到上面這張圖可能會想，這不是所有的序列預(yù)測都是world model了？

其實熟悉強(qiáng)化學(xué)習(xí)的同學(xué)能一眼看出來，這張圖的結(jié)構(gòu)是錯誤（不完整）的，而真正的結(jié)構(gòu)是下面這張圖，RNN的輸入不僅是z，還有動作action，這就不是通常的序列預(yù)測了（加一個動作會很不一樣嗎？是的，加入動作可以讓數(shù)據(jù)分布自由變化，帶來巨大的挑戰(zhàn)）。

Jurgen的這篇論文屬于強(qiáng)化學(xué)習(xí)領(lǐng)域。

那么，強(qiáng)化學(xué)習(xí)里不是有很多model-based RL嗎，其中的model跟world model有什么區(qū)別？答案是沒有區(qū)別，就是同一個東西。Jurgen先說了一段

基本意思就是，不管有多少model-based RL工作，我是RNN先驅(qū)，RNN來做model是我發(fā)明的，我就是要搞。

在Jurgen文章的早期版本中，還說到很多model-based RL，雖然學(xué)了model，但并沒有完全在model中訓(xùn)練RL。

沒有完全在model中訓(xùn)練RL，實際上并不是model-based RL的model有什么區(qū)別，而是model-based RL這個方向長久以來的無奈：model不夠準(zhǔn)確，完全在model里訓(xùn)練的RL效果很差。這一問題直到近幾年才得到解決。

聰明的Sutton在很久以前就意識到model不夠準(zhǔn)確的問題。在1990年提出Dyna框架的論文Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming（發(fā)表在第一次從workshop變成conference的ICML上），管這個model叫action model，強(qiáng)調(diào)預(yù)測action執(zhí)行的結(jié)果。

RL一邊從真實數(shù)據(jù)中學(xué)習(xí)（第3行），一邊從model中學(xué)習(xí)（第5行），以防m(xù)odel不準(zhǔn)確造成策略學(xué)不好。

可以看到，world model對于決策十分重要。如果能獲得準(zhǔn)確的world model，那就可以通過在world model中就反復(fù)試錯，找到現(xiàn)實最優(yōu)決策。

這就是world model的核心作用：反事實推理/Counterfactual reasoning ，也就是說，即便對于數(shù)據(jù)中沒有見過的決策，在world model中都能推理出決策的結(jié)果。

了解因果推理的同學(xué)會很熟悉反事實推理這個詞，在圖靈獎得主Judea Pearl的科普讀物The book of why中繪制了一副因果階梯，最下層是「關(guān)聯(lián)」，也就是今天大部分預(yù)測模型主要在做的事；中間層是「干預(yù)」，強(qiáng)化學(xué)習(xí)中的探索就是典型的干預(yù)；最上層是反事實，通過想象回答what if問題。Judea為反事實推理繪制的示意圖，是科學(xué)家在大腦中想象，這與Jurgen在論文中用的示意圖異曲同工。

左：Jurgen論文中的世界模型示意圖。右：Judea書中的因果階梯。

到這里我們可以總結(jié)，AI研究人員對world model的追求，是試圖超越數(shù)據(jù)，進(jìn)行反事實推理，回答what if問題能力的追求。這是一種人類天然具備，而當(dāng)前的AI還做得很差的能力。一旦產(chǎn)生突破，AI決策能力會大幅提升，實現(xiàn)全自動駕駛等場景應(yīng)用。

Sora是不是world simulator

simulator這個詞更多出現(xiàn)在工程領(lǐng)域，起作用與world model一樣，嘗試那些難以在現(xiàn)實世界實施的高成本高風(fēng)險試錯。OpenAI似乎希望重新組成一個詞組，但意思不變。

Sora生成的視頻，僅能通過模糊的提示詞引導(dǎo)，而難以進(jìn)行準(zhǔn)確的操控。因此它更多的是視頻工具，而難以作為反事實推理的工具去準(zhǔn)確的回答what if問題。

甚至難以評價Sora的生成能力有多強(qiáng)，因為完全不清楚demo的視頻與訓(xùn)練數(shù)據(jù)的差異有多大。

更讓人失望的是，這些demo呈現(xiàn)出Sora并沒有準(zhǔn)確的學(xué)到物理規(guī)律。已經(jīng)看到有人指出了Sora生成視頻中不符合物理規(guī)律之處 [ OpenAI 發(fā)布文生視頻模型 Sora，AI 能理解運(yùn)動中的物理世界，這是世界模型嗎？意味著什么？ ]

我猜測OpenAI放出這些demo，應(yīng)該基于非常充足的訓(xùn)練數(shù)據(jù)，甚至包括CG生成的數(shù)據(jù)。然而即便如此那些用幾個變量的方程就能描述的物理規(guī)律還是沒有掌握。

OpenAI認(rèn)為Sora證明了一條通往simulators of the physical world的路線，但看起來簡單的堆砌數(shù)據(jù)并不是通向更高級智能技術(shù)的道路。

責(zé)任編輯：張燕妮來源：新智元

AI 數(shù)據(jù)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

南大俞揚(yáng)深度解讀：什么是「世界模型」？

什么是world models/世界模型

Sora是不是world simulator