成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI世界模型全面綜述:理解世界還是預測未來? 精華

發布于 2025-5-22 00:00
瀏覽
0收藏

當AI不僅能生成逼真視頻,還能“理解”物理規則、“預測”社會互動時,世界模型正在重塑人工智能的邊界。從自動駕駛中實時路況模擬,到機器人通過“認知地圖”規劃路徑,再到虛擬社會中智能體的策略博弈——這項技術如何讓機器像人類一樣“思考世界”?本文將揭開世界模型的核心原理與未來圖景,帶你看看AI如何從“數據驅動”走向“世界理解”。

隨著GPT-4、Sora等多模態模型的興起,人工智能正從單一任務向“理解和模擬真實世界”邁進。世界模型作為連接感知與決策的核心框架,既能通過大語言模型捕捉常識知識(如空間、社會規則),又能利用視頻生成技術預測物理動態(如自動駕駛中的路況變化)。本文通過系統梳理其技術脈絡和應用場景,為通用人工智能(AGI)的發展提供了關鍵理論支撐,對提升機器人適應性、自動駕駛安全性和社會系統模擬能力具有重要指導意義。

摘要&解讀

由于多模態大型語言模型(如GPT-4)和視頻生成模型(如Sora)的發展,世界模型的概念受到了廣泛關注,這些模型是實現通用人工智能的核心。本綜述對世界模型的相關文獻進行了全面回顧。一般來說,世界模型被視為理解世界當前狀態或預測其未來動態的工具。本文對世界模型進行了系統分類,重點介紹了兩個主要功能:(1)構建內部表示以理解世界機制,(2)預測未來狀態以模擬和指導決策。首先,我們考察了這兩類的當前進展。然后,我們探討了世界模型在關鍵領域的應用,包括自動駕駛、機器人技術和社會模擬,重點關注每個領域如何利用這些方面。最后,我們概述了關鍵挑戰,并對潛在的未來研究方向提供了見解。

研究背景:

  • 學科交叉需求:通用人工智能(AGI)需要機器具備類似人類的世界理解能力,融合心理學(心理模型)、計算機科學(生成模型)、物理學(動態模擬)等多領域知識。
  • 數據與計算驅動:多模態大模型(GPT-4、Sora)的爆發式發展,為世界模型提供了海量訓練數據和強大表征能力,但也暴露了因果推理不足、模擬與現實脫節等問題。
  • 應用場景倒逼:自動駕駛需處理長尾場景(如極端天氣)、機器人需適應未知環境、社會科學需模擬復雜人類行為,傳統模型難以滿足泛化需求。

研究貢獻:

  1. 雙維度分類框架:首次將世界模型明確分為“隱式表示”(如LLM常識建模)和“未來預測”(如視頻擴散模擬),理清技術脈絡。
  2. 多領域應用全景:系統性梳理自動駕駛(如BEVFormer感知+DriveDreamer模擬)、機器人(如GR-2視頻-動作關聯)、社會模擬(如AI Town智能體涌現行為)的差異化需求與技術適配。
  3. 挑戰與方向界定:提出物理規則建模、社會行為模擬、模擬效率優化、倫理安全等四大挑戰,并建議生成模型與物理模擬器融合、具身智能自我強化循環等解決方案。

實現設計:

隱式表示技術

  • 決策支持:基于Transformer的MDP建模,將強化學習任務轉化為“下一標記預測”問題,實現跨任務泛化。
  • 語言賦能:LLM通過“認知地圖”神經元編碼空間關系(如LLama2的“空間神經元”),結合多專家協作框架(如多LLM智能體討論決策)提升復雜場景推理。

未來預測技術

  • 視頻生成:擴散模型(如NUWA-XL)結合“粗到細”架構生成分鐘級長視頻,Sora通過3D場景一致性建模實現物理動態模擬。
  • 具身環境:從視覺模擬(如AI2-THOR)升級到多模態具身環境(如AVLEN融合視覺+語言+音頻),動態環境模型(如UniSim)支持動作條件生成。

跨領域應用

  • 自動駕駛:BEVFormer融合多攝像頭視覺生成鳥瞰圖,OccSora通過4D占據網格預測交通動態。
  • 社會模擬:EconAgent基于LLM智能體模擬勞動力市場與消費行為,復現宏觀經濟波動規律。

實驗結果:

模型能力驗證

  • Sora生成的視頻符合物理規則(如物體運動軌跡、光影變化),但在流體動力學等復雜物理模擬中仍有誤差。
  • LLM在心理理論任務(如識別諷刺、錯誤信念)中接近人類水平,但高階社會推理(如復雜協作)仍有限。

應用效果

  • 自動駕駛模擬模型(如GAIA-1)可生成逼真交通場景,減少90%以上的真實路測數據需求。
  • 機器人模型(如DayDreamer)在現實環境中僅需數小時互動即可學會行走,樣本效率提升千倍。

局限性

  • 現有世界模型對反事實場景(如“假設性物理干預”)的模擬能力不足,依賴數據驅動導致泛化受限。
  • 社會模擬中智能體的行為多樣性仍低于真實人類,缺乏動態社會規范演化機制。

1.引言

長期以來,科學界一直渴望開發一個統一的模型,能夠復制世界的基本動態,以追求通用人工智能(AGI)[98]。2024年,多模態大型語言模型(LLMs)和Sora[130]的出現加劇了關于此類世界模型的討論。盡管這些模型顯示出捕捉世界知識的新興能力——例如Sora生成的視頻似乎完全符合物理定律——但關于它們是否真正稱得上是全面的世界模型的問題仍然存在。因此,隨著我們期待人工智能時代的新突破,對世界模型研究的最新進展、應用和未來方向進行系統回顧既及時又必要。

AI世界模型全面綜述:理解世界還是預測未來?-AI.x社區

世界模型的定義仍然是一個持續爭論的話題,大致分為兩種主要觀點:理解世界和預測未來。如圖1所示,Ha和Schmidhuber[59]的早期工作側重于對外部世界進行抽象,以深入理解其潛在機制。相比之下,LeCun[98]認為,世界模型不僅應該感知和建模現實世界,還應該具備設想可能的未來狀態以指導決策的能力。像Sora這樣的視頻生成模型代表了一種專注于模擬未來世界演變的方法,因此更符合世界模型的預測方面。這就提出了一個問題:世界模型應該優先考慮理解現在還是預測未來狀態。在本文中,我們從這兩個角度對文獻進行了全面回顧,重點介紹了關鍵方法和挑戰。

世界模型的潛在應用跨越了廣泛的領域,每個領域對理解和預測能力都有不同的要求。例如,在自動駕駛中,世界模型需要實時感知路況[195,177]并準確預測其演變[127,167,241],特別關注即時的環境感知和復雜趨勢的預測。對于機器人技術,世界模型對于導航[160]、物體檢測[183]和任務規劃[62]等任務至關重要,需要對外部動態有精確的理解[47],并能夠生成交互式的具身環境[132]。在虛擬社會系統的模擬領域,世界模型必須捕捉和預測更抽象的行為動態,如社會互動和人類決策過程。因此,全面回顧這些能力的進展,同時探索未來的研究方向和趨勢,既及時又必要。

現有的關于世界模型的綜述通常可以分為兩類,如表1所示。第一類主要側重于描述世界模型在特定領域的應用,如視頻處理和生成[23,242]、自動駕駛[54,100,209]和基于智能體的應用[242]。第二類[116]側重于從能夠處理各種模態數據的多模態模型到世界模型的技術過渡。然而,這些論文往往缺乏對世界模型究竟是什么以及不同的實際應用需要這些模型什么的系統考察。在本文中,我們旨在正式定義和分類世界模型,回顧最新的技術進展,并探索它們的廣泛應用。

本綜述的主要貢獻可以總結如下:(1)我們提出了一個新的世界模型分類系統,圍繞兩個主要功能:構建隱式表示以理解外部世界的機制和預測外部世界的未來狀態。第一類側重于學習和內化世界知識以支持后續決策的模型的開發,而后者則側重于從視覺感知中增強物理世界的預測和模擬能力。(2)基于這種分類,我們對各種關鍵應用領域,包括自動駕駛、機器人和社會模擬,如何強調世界模型的不同方面進行了分類。(3)我們強調了世界模型的未來研究方向和趨勢,這些方向和趨勢可以適應更廣泛的實際應用。

本文的其余部分組織如下。在第2節中,我們介紹了世界模型的背景并提出了我們的分類系統。第3節和第4節分別詳細闡述了兩類世界模型的當前研究進展。第5節涵蓋了世界模型在三個關鍵研究領域的應用。第6節概述了世界模型的開放性問題和未來方向。

2.背景和分類

在本節中,我們探討了文獻中世界模型的演變概念,并將構建世界模型的工作分為兩個不同的分支:內部表示和未來預測。

世界模型的概念最早由Ha等人[58,59]于2018年系統地引入人工智能社區。本文將世界模型概念的起源追溯到1971年建立的“心理模型”的心理學原理[43],該原理提出人類將外部世界抽象為簡單的元素及其相互關系來感知它。這一原理表明,從深層次的內部視角來看,我們對世界的描述通常涉及構建一個抽象的表示,無需詳細描繪即可滿足需求。在這個概念框架的基礎上,作者引入了一個受人類認知系統啟發的智能體模型,如圖1所示。在這個開創性的模型中,智能體從現實世界環境中接收反饋,然后將其轉化為一系列輸入來訓練模型。該模型擅長模擬在外部環境中采取特定行動后的潛在結果。從本質上講,它創建了一個潛在未來世界演變的心理模擬,并根據這些狀態的預測結果做出決策。這種方法與基于模型的強化學習(MBRL)方法非常相似,這兩種策略都涉及模型生成外部世界的內部表示。這些表示有助于在現實世界中導航和解決各種決策任務。

在2022年關于自主機器智能發展的前瞻性文章[98]中,Yann LeCun介紹了聯合嵌入預測架構(JEPA),這是一個模仿人類大腦結構的框架。如圖1所示,JEPA包括一個處理感官數據的感知模塊,然后是一個評估這些信息的認知模塊,有效地體現了世界模型。該模型允許大腦評估行動并確定適合現實世界應用的最佳響應。LeCun的框架很有趣,因為它結合了雙系統概念,模仿了“快”和“慢”思維。系統1涉及直覺、本能的反應:無需世界模型的快速決策,如本能地躲避迎面而來的人。相比之下,系統2采用深思熟慮的、經過計算的推理,考慮到世界的未來狀態。它超越了即時的感官輸入,模擬潛在的未來場景,例如預測房間在接下來十分鐘內的事件并相應地調整行動。這種遠見水平需要構建一個世界模型,以根據環境的預期動態和演變有效地指導決策。在這個框架中,世界模型對于理解和表示外部世界至關重要。它使用潛在變量對世界狀態進行建模,這些潛在變量捕捉關鍵信息,同時過濾掉冗余信息。這種方法允許對世界進行高效、簡約的表示,便于進行最佳決策和未來場景規劃。

模型捕捉世界知識的能力對于它們在廣泛的現實世界任務中的有效性能至關重要。在2023年開始的大型語言模型的最新研究中,有幾項研究表明存在潛在的世界知識。換句話說,這些模型捕捉到了包括空間和時間理解在內的直覺知識,這使它們能夠對現實世界的場景做出預測[57,119]。此外,最近的研究表明,大型語言模型通過認知地圖對外部世界進行建模[104],揭示了它們內部嵌入的類似大腦的結構。這些模型甚至可以學習根據先前的經驗預測未來事件,從而提高了它們在現實世界中的實用性和適用性。

上述世界模型主要代表了對外部世界的隱性理解。然而,在2024年2月,OpenAI推出了Sora模型[130],這是一個被廣泛認為是世界模擬器的視頻生成模型。Sora輸入真實世界的視覺數據,并輸出預測未來世界演變的視頻幀。值得注意的是,它展示了卓越的建模能力,例如在相機移動和旋轉過程中保持3D視頻模擬的一致性。它還可以產生符合物理規律的結果,比如在漢堡上留下咬痕,并模擬數字環境,例如在《我的世界》游戲中渲染第一人稱視角。這些能力表明,Sora不僅模仿了外觀,還在模擬場景中對現實世界的動態進行了建模,專注于對動態的世界變化進行真實建模,而不僅僅是表示靜態的世界狀態。

無論是側重于學習外部世界的內部表示,還是模擬其運作原理,這些概念都達成了一個共同的共識:世界模型的本質目的是理解世界的動態并預測未來場景。從這個角度出發,我們對世界模型的最新進展進行了全面考察,通過以下視角進行分析,如圖1所示。

外部世界的隱式表示(第3節):這一研究類別構建環境變化模型,以實現更明智的決策,最終目標是預測未來狀態的演變。它通過將外部現實轉化為將這些元素表示為潛在變量的模型來促進隱性理解。此外,隨著大型語言模型(LLMs)的出現,以前集中在傳統決策任務上的努力通過這些模型對世界知識的詳細描述能力得到了顯著增強。我們進一步關注將世界知識整合到現有模型中。

外部世界的未來預測(第4節):我們首先探索模擬外部世界的生成模型,主要使用視覺視頻數據。這些工作強調生成反映物理世界未來狀態的真實視頻。隨著最近的進展轉向開發真正的交互式物理世界,我們進一步研究從視覺表示到空間表示以及從視頻到具身的過渡。這包括對與生成反映外部世界的具身環境相關的研究的全面覆蓋。

世界模型的應用(第5節):世界模型在各個領域都有廣泛的應用,包括自動駕駛、機器人技術和社會模擬。我們探索了這些領域中世界模型的集成如何推進理論研究和實際應用,重點關注它們在現實世界應用中的變革潛力。

3.外部世界的隱式表示

3.1 決策中的世界模型

在決策任務中,了解環境是制定優化策略的主要任務。因此,決策中的世界模型應該包括對環境的全面理解。它使我們能夠采取假設的行動而不影響現實環境,從而降低試錯成本。在文獻中,關于如何學習和利用世界模型的研究最初是在基于模型的強化學習領域提出的。

AI世界模型全面綜述:理解世界還是預測未來?-AI.x社區


此外,LLM和MLLM的最新進展也為世界模型的構建提供了全面的基礎。隨著語言作為一種更通用的表示方式,基于語言的世界模型可以適應更通用的任務。圖2展示了在決策任務中利用世界模型的兩種方案。

3.1.1 基于模型的強化學習中的世界模型

AI世界模型全面綜述:理解世界還是預測未來?-AI.x社區

3.1.2 具有語言主干的世界模型

語言模型的快速發展,尤其是LLM和MLLM,使許多相關應用受益。隨著語言作為通用表示主干,基于語言的世界模型在許多決策任務中顯示出了潛力。

通過LLM世界模型直接生成動作:LLM已經顯示出其顯著的推理能力,能夠根據相應構建的世界模型在決策任務中直接生成動作。例如,在導航場景中,Yang等人[212]將預訓練的文本到視頻模型轉移到特定領域的機器人控制任務中,成功地用作為LLM輸出的文本指令對機器人操作進行注釋。Zhou等人[240]進一步通過分解視頻生成過程來學習組合世界模型。這種方法實現了對未見過的任務的強大的小樣本轉移能力。

除了訓練或微調專門的基于語言的世界模型外,LLM和MLLM還可以直接部署用于理解決策任務中的世界環境。例如,Long等人[112]提出了一種多專家方案來處理視覺語言導航任務。他們構建了一個標準化的討論過程,由八位基于LLM的專家參與,以生成最終的移動決策。從專家的討論和對未來狀態的想象中構建一個抽象的世界模型,以支持動作生成。Zhao等人[232]進一步將LLM和開放詞匯檢測相結合,構建多模態信號與導航關鍵信息之間的關系。他們提出了一個全圖來捕捉局部空間的結構,作為導航任務的世界模型。同時,Yang等人[217]利用基于LLM的想象助手,根據環境感知推斷出作為世界模型的全局語義圖,以及另一個反思規劃器來直接生成動作。

LLM世界模型的模塊化使用:盡管將LLM輸出直接作為動作在應用和部署中很直接,但這種方案中的決策質量在很大程度上依賴于LLM本身的推理能力。通過將基于LLM的世界模型作為模塊與其他有效的規劃算法集成,可以進一步提高決策質量。

Xiang等人[203]在世界模型(VirtualHome[139]的模擬器)中部署了一個具身智能體,其中相應的具身知識被注入到LLM中。為了更好地規劃和完成特定目標,他們提出了一種目標條件規劃方案,其中利用蒙特卡羅樹搜索(MCTS)來搜索真正的具身任務目標。Lin等人[106]介紹了一個智能體Dynalang,它學習多模態世界模型來預測未來的文本和圖像表示,并學習從想象的模型展開中采取行動。策略學習階段利用了純粹基于先前生成的多模態表示的演員-評論家算法。Liu等人[111]進一步將LLM中的推理轉化為貝葉斯自適應馬爾可夫決策過程(MDP)中的學習和規劃。LLM像世界模型一樣,在MDP的演員-評論家更新中以內在的方式執行。所提出的RAFA框架在多個復雜的推理任務和環境中表現出顯著的性能提升,例如ALFWorld[168]。

3.2 模型學習的世界知識

經過大規模網絡文本和書籍的預訓練[180,129],大型語言模型掌握了關于現實世界和日常生活常識的廣泛知識。這種嵌入的知識被認為是其在現實世界任務中出色泛化能力和表現的關鍵。例如,研究人員利用大型語言模型的常識進行任務規劃[234]、機器人控制[73]和圖像理解[110]。此外,Li等人[104]發現,大型語言模型中表示概念的高維向量嵌入了類似大腦結構的世界知識。

AI世界模型全面綜述:理解世界還是預測未來?-AI.x社區


與常識和一般知識不同,我們從世界模型的角度關注大型語言模型中的世界知識。如圖3所示,根據對象和空間范圍,大型語言模型中的世界知識可分為三部分:1)全球物理世界的知識;2)局部物理世界的知識;3)人類社會的知識。

AI世界模型全面綜述:理解世界還是預測未來?-AI.x社區


3.2.1 全球物理世界的知識

我們首先介紹專注于分析和理解全球物理世界知識的研究。Gurnee等人[57]首次證明,大型語言模型確實掌握了世界的空間和時間知識,而不僅僅是收集表面統計數據。他們在LLama2[180]中發現了不同的“空間神經元”和“時間神經元”,表明該模型學習了跨多個尺度的空間和時間的線性表示。與以往專注于嵌入空間的觀察不同,Manvi等人[119,118]開發了關于文本地址的有效提示,以提取關于真實世界地理空間的直覺知識,并成功提高了模型在各種下游地理空間預測任務中的性能。

盡管大型語言模型確實獲取了一些現實世界的隱性知識[57,104],但這些知識的質量仍存在疑問[150,38]。例如,Feng等人[38]發現,大型語言模型中嵌入的城市知識通常是粗略和不準確的。為解決這一問題,他們提出了一個有效的框架來改善大型語言模型中特定城市的城市知識獲取。從這些工作中可以看出,盡管大型語言模型已經展示了捕捉現實世界知識某些方面的能力[57,104,150],但顯然需要進一步努力來增強這些知識,以實現更廣泛和更可靠的現實世界應用。

3.2.2 局部物理世界的知識

與全球物理世界的知識不同,局部物理世界是人類日常生活和大多數現實世界任務的主要環境。因此,理解和建模局部物理世界是構建全面世界模型的一個更關鍵的課題。我們首先介紹認知地圖[179]的概念,它說明了人類大腦如何對外部世界進行建模。盡管最初是為了解釋人類的學習過程而開發的,但研究人員已經在大型語言模型中發現了類似的結構[104],并利用這些見解來提高人工模型在學習和理解物理世界方面的效率和性能。

最近的研究探索了通過跨各種環境的類認知地圖過程積極鼓勵模型學習抽象知識。例如,Cornet等人[52]展示了在簡化的《我的世界》環境中使用視覺預測編碼通過空間認知地圖構建進行學習的有效性。學習后,該模型可以通過知道距離成功預測未來。Lin等人[106]研究了通過世界模型學習過程教模型理解游戲環境,特別是通過預測環境的后續幀。通過這種方式,模型可以在動態環境中生成更好的動作。此外,Jin等人[84]發現,語言模型可以通過預測下一個標記來學習程序語義的緊急表示。

3.2.3 人類社會的知識

除了物理世界,理解人類社會是世界模型的另一個重要方面。一個相關的理論是心理理論[138],它解釋了個體如何推斷周圍他人的心理狀態。最近的研究廣泛探索了大型語言模型如何發展和展示這種社會世界模型。一條研究路線[174,175]側重于評估大型語言模型在各種心理理論任務上的表現,以確定它們類似人類的行為是否反映了對社會規則和隱性知識的真正理解。例如,Strachan等人[174]對人類和LLM在各種心理理論能力(如理解錯誤信念和識別諷刺)上的表現進行了比較分析。盡管他們的發現展示了GPT-4在這些任務中的潛力,但也指出了其局限性,尤其是在檢測失禮行為方面。

為解決這些局限性,研究人員提出了創新方法來增強大型語言模型在心理理論方面的能力,以適用于復雜的現實世界應用。Wu等人[198]引入了COKE,它構建了一個知識圖,幫助大型語言模型通過認知鏈明確使用心理理論。此外,Alex等人[194]開發了SimToM,這是一個兩階段提示框架,以提高大型語言模型在心理理論任務中的表現。

4.物理世界的未來預測

4.1 作為視頻生成的世界模型

將視頻生成集成到世界模型中標志著環境建模領域的重大飛躍[130]。傳統的世界模型主要專注于預測離散或靜態的未來狀態[59,98]。然而,通過生成捕捉連續空間和時間動態的類視頻模擬,世界模型[130,211]已經發展到能夠處理更復雜、動態的環境。視頻生成的這一突破將世界模型的能力推向了一個新的水平。

4.1.1 邁向視頻世界模型

視頻世界模型是一種計算框架,旨在通過處理視覺上下文中的過去觀察和潛在動作來模擬和預測世界的未來狀態[130]。這一概念建立在更廣泛的世界模型理念之上,力求捕捉環境的動態,并使機器能夠預測世界隨時間的演變。就視頻世界模型而言,重點在于生成表示這些演變狀態的視覺幀序列。

作為世界模型的Sora:Sora[130]是一個大規模視頻生成模型,是視頻世界模型的一個突出例子。它旨在基于各種輸入模態(如文本、圖像和視頻)生成高質量、時間一致的視頻序列,長達一分鐘。Sora利用強大的神經網絡架構(包括編碼器-解碼器框架和Transformer)的組合來處理多模態輸入并生成視覺連貫的模擬。Sora的核心能力在于其生成符合現實世界物理原理的視頻的能力,例如表面上的光反射或蠟燭的融化。這些特性表明,Sora有可能作為世界模擬器,根據其對初始條件和模擬參數的理解來預測世界的未來狀態。

Sora的局限性:然而,盡管Sora具有令人印象深刻的視頻生成能力,但它有幾個局限性,使其無法被視為一個功能齊全的世界模型。一個關鍵限制涉及因果推理[242,23],其中模型在模擬環境中的動態交互方面受到限制。因此,Sora只能基于觀察到的初始狀態被動生成視頻序列,而不能主動干預或預測動作的變化如何改變事件的進程。另一個局限性是,它仍然無法始終如一地再現正確的物理定律[86]。雖然Sora可以生成視覺上逼真的場景,但它在準確模擬現實世界的物理現象(如不同力作用下的物體行為、流體動力學或光和陰影相互作用的準確描繪)方面存在困難。

AI世界模型全面綜述:理解世界還是預測未來?-AI.x社區


其他視頻世界模型:Sora無疑推動了視頻世界模型的大量研究,激發了該領域的大量進展。繼Sora在生成高質量視頻序列方面取得成功后,許多后續模型被開發出來,每個模型都旨在突破視頻世界模型的極限。例如,一些方法已經擴展了視頻長度,以實現長視頻模擬[220,108,68]。除了傳統的語言引導視頻生成外,更多的模態正在被集成,如圖像和動作[235,202]。研究人員也在將重點從缺乏用戶控制的基本視頻生成轉向旨在復制現實世界決策空間并促進決策的交互式模擬[213,215,197,227,78,202]。幾項研究致力于提高動作過渡的平滑度、物理定律的準確性和時間一致性[211,16,148,207]。同時,世界模型的概念已經超越了想象,并被應用于各種特定場景的模擬,包括自然環境、游戲和自動駕駛[108,190,15,120,68,188,11,238,121]。表3總結了視頻世界模型在不同方面的改進分類。

4.1.2 視頻世界模型的能力

盡管關于像Sora這樣的模型是否可以被視為成熟的世界模型的爭論仍在繼續,但毫無疑問,視頻世界模型在推進環境模擬和預測方面具有巨大潛力[242,23,86]。這些模型可以通過生成逼真的動態視頻序列,提供一種理解和與復雜環境互動的強大方法。為了達到這種復雜程度,本節概述了視頻世界模型必須具備的關鍵能力,以區別于傳統的視頻生成模型。

長期預測能力:一個強大的視頻世界模型應該能夠進行長期預測,在很長一段時間內遵循環境的動態規則。這種能力使模型能夠模擬場景的演變,確保生成的視頻序列與現實世界的時間進程一致。盡管Sora已經實現了生成具有高質量時間連貫性的一分鐘長的視頻序列,但它仍遠不能模擬現實世界環境中發現的復雜長期動態。最近的努力已經探索了擴展視頻長度以捕捉長期依賴關系并提高時間一致性[220,108,68]。

多模態集成:除了語言引導的視頻生成外,視頻世界模型越來越多地集成其他模態,如圖像和動作,以增強真實感和交互性[235,202]。多種模態的集成允許更豐富的模擬,更好地捕捉現實世界環境的復雜性,提高生成場景的準確性和多樣性。

交互性:視頻世界模型的另一個關鍵能力是它們的可控性和交互性潛力。理想的模型不僅應該生成逼真的模擬,還應該允許與環境互動。這種交互性涉及模擬不同動作的后果并提供反饋,使模型能夠用于需要動態決策的應用。最近的工作側重于增強對模擬的控制,允許更用戶引導的場景探索[215,197]。

多樣化環境:最后,視頻世界模型正在適應各種特定場景的模擬,包括自然環境、自動駕駛和游戲。這些模型已經超越了基本的視頻生成,以復制現實世界的動態并支持廣泛的應用[108,190,15]。

4.2 作為具身環境的世界模型

具身環境的世界模型的開發對于模擬和預測智能體如何與外部世界互動和適應至關重要。最初,生成模型專注于模擬世界的視覺方面,使用視頻數據捕捉環境的動態變化。最近,重點已經轉向創建完全交互式的具身模擬。這些模型不僅表示世界的視覺元素,還納入了更準確反映現實世界動態的空間和物理交互。通過整合空間表示并從基于視頻的模擬過渡到沉浸式具身環境,世界模型現在可以為開發能夠與復雜現實世界環境互動的智能體提供更全面的平臺。

AI世界模型全面綜述:理解世界還是預測未來?-AI.x社區

作為具身環境的世界模型可以分為三類:室內、室外和動態環境,如圖4所示,相關工作總結在表4中。可以總結出,目前大多數工作集中在開發靜態的現有室內和室外具身環境。一個新興的趨勢是通過生成基于第一人稱動態視頻的模擬環境的生成模型來預測動態的未來世界。這樣的環境可以為訓練具身智能體提供靈活和真實的反饋,使它們能夠與不斷變化的環境互動并提高其泛化能力。

AI世界模型全面綜述:理解世界還是預測未來?-AI.x社區

4.2.1 室內環境

室內環境提供了受控的結構化場景,智能體可以在其中執行詳細的特定任務,如物體操作、導航和與用戶的實時交互[48,134,91,164,17,139,155,201]。建立室內環境的早期工作,如AI2-THOR[91]和Matterport 3D[17],只關注提供視覺信息。這些工作通過提供逼真的設置來構建室內環境,智能體可以在其中練習視覺導航并從事模仿現實生活家庭活動的交互式任務。這些環境強調使用基于視覺的強化學習技術的重要性,使智能體能夠根據環境線索優化其決策。通過模擬烹飪或清潔等現實世界任務,這些平臺評估智能體在不同類型的空間和物體之間泛化所學行為的能力。

進一步的工作致力于擴展所提供環境的數據模態。其中,iGibson[164]引入激光雷達觀測作為額外的信號反饋,有助于智能體更準確地感知環境。AVLEN[134]進一步補充了音頻信號,允許智能體在類似家庭的環境中執行物體操作和導航等任務。這里的挑戰在于使智能體能夠在受限的空間內理解和對包括視覺、語言和聲音的多模態輸入采取行動。

添加社會維度,像GRUtopia[184]這樣的環境將智能體引入必須與物體和NPC互動的空間。在這里,智能體需要了解社會動態,如定位和任務共享,這需要更高級的交互建模形式。這些設置中社會交互模塊的納入表明,智能體可以被訓練成在類似人類的社會行為和任務表現之間取得平衡。最近,隨著LLM的發展,一些工作[20,216,44]試圖提供一個靈活的環境生成管道,支持用語言指令生成任意室內環境。

4.2.2 室外環境

與室內環境相比,創建室外環境[184,45,200,161,37]由于其規模更大和可變性更高而面臨更大的挑戰。一些現有工作專注于城市環境,如MetaUrban[200],其中智能體被部署在大規模城市環境中導航,在那里它們遇到動態變化的交通、不同的建筑結構和與其他實體的社會互動等挑戰。這些任務通常需要使用上下文感知導航算法,使智能體能夠根據環境的布局和條件調整其軌跡和行為。然而,MetaUrban中的環境是通過從現有庫中檢索和組織3D資產創建的。

最近,利用先進的生成技術,UrbanWorld[161]使用3D生成模型顯著擴展了室外環境的范圍,創建了復雜的、可定制的城市空間,允許更多樣化的城市場景。從基于靜態資產的環境到生成環境的轉變確保了智能體面臨更廣泛的任務,從在不熟悉的街道布局中導航到與新類型的物體或結構互動。除了上述真實開放世界生成工作外,還有一些虛擬開放世界平臺,如MineDOJO[37],通過模擬程序生成的沙盒式環境,進一步擴展了這些挑戰。這些平臺受到《我的世界》開放世界的啟發,推動智能體從事資源收集、建造和生存等任務,需要持續的探索和適應性學習。在這樣的環境中訓練可以幫助智能體學習廣泛的任務和地形知識,使它們能夠在各種室外環境中有效運作。

4.2.3 動態環境

動態環境通過利用生成模型創建靈活的實時模擬,標志著從傳統靜態模擬器的重大演進。與需要手動調整的預定義環境不同,這些模型允許動態創建各種各樣的場景,使智能體能夠體驗多樣化的第一人稱視角。這種轉變為智能體提供了更豐富、更多樣化的訓練體驗,提高了它們在復雜、不可預測的現實世界情況下的適應性和泛化能力。

一個代表性的工作是UniSim[214],它根據空間運動、文本命令和相機參數等輸入條件動態生成機器人操作視頻序列。利用來自3D模擬、現實世界機器人動作和互聯網媒體的多模態數據,該系統生成多樣化的、現實的環境,智能體可以在其中練習物體操作和導航等任務。這種方法的關鍵優勢在于其靈活性,允許智能體適應各種場景,而不受靜態物理環境的限制。Pandora[202]將UniSim中的機器人動作動態環境生成擴展到更廣泛的領域,包括室內和室外場景中的人類和機器人動作。另一個后續工作AVID[149]建立在UniSim的基礎上,通過對動作進行條件設定和修改預訓練擴散模型的噪聲預測,生成動作驅動的視覺序列用于動態環境生成。

除了UniSim的基于視頻擴散的框架外,EVA[22]引入了額外的視覺語言模型用于具身視頻預測,產生更一致的具身視頻預測。至于開放世界動態環境的生成,Streetscapes[29]采用自回歸視頻擴散模型來模擬城市環境,其中智能體必須應對天氣和交通變化等動態挑戰。這些環境提供了一致連貫但靈活的城市設置,使智能體面臨類似現實世界的可變性。

動態環境的核心趨勢是使用生成世界模型,提供可擴展的適應性模擬。這種方法顯著減少了環境設置所需的手動工作,允許智能體快速在各種場景中訓練。此外,對第一人稱訓練的關注密切模仿了現實世界的決策,增強了智能體適應不斷變化的情況的能力。這些進展是開發支持復雜動態場景中智能體學習的具身環境的關鍵。

5.應用

5.1 自動駕駛

近年來,隨著基于視覺的生成模型[66,173,13]和多模態大型語言模型[109,1]的快速發展,作為理解世界狀態和預測其未來趨勢的模塊的世界模型在自動駕駛領域受到了越來越多的關注。在這種情況下,世界模型被定義為將語言、圖像和軌跡等多模態數據作為輸入,并以車輛感知數據的形式連續輸出未來世界狀態的模型[55]。然而,自動駕駛中的世界模型概念早在基于生成的世界模擬器出現之前就已經存在。現代自動駕駛流程可以分為四個主要部分:感知、預測、規劃和控制。整個過程可以看作是一個決策流程。正如我們在第3節中討論的,感知和預測階段也代表了車輛學習世界的隱式表示的過程。這也可以被視為一種世界模型。因此,在本節中,我們將從學習世界的隱式表示的模塊和輸出車輛感知數據的世界模擬器兩個角度,闡述世界模型在自動駕駛中的應用和發展。

5.1.1 學習隱式表示

自動駕駛車輛通常利用相機、雷達和激光雷達感知真實世界,通過圖像、視頻數據和點云數據收集信息。在早期決策范式[19,156]中,模型通常將感知數據作為輸入,直接輸出自動駕駛車輛的運動規劃結果。然而,人類駕駛時通常會觀察并預測其他交通參與者的當前和未來狀態,以確定自身駕駛策略[74]。因此,通過感知數據學習世界的隱式表示并預測周圍環境的未來狀態,是提升自動駕駛車輛決策可靠性的關鍵步驟。我們將此過程視為自動駕駛車輛在潛在空間中學習世界模型的體現。

AI世界模型全面綜述:理解世界還是預測未來?-AI.x社區


如圖5左側所示,在多模態大模型和端到端自動駕駛技術[71]出現之前,自動駕駛的感知和預測任務通常由不同模塊承擔,每個模塊針對各自任務和數據集進行訓練。感知模塊處理圖像、點云等數據,完成目標檢測和地圖分割等任務,將感知到的世界投射到抽象幾何空間。此外,預測模塊通常在這些幾何空間內運行,預測周圍環境的未來狀態,包括交通參與者的軌跡和運動。

AI世界模型全面綜述:理解世界還是預測未來?-AI.x社區


感知數據的處理與深度學習技術的發展密切相關,如表5所示。2017年提出的Pointnet[141]首次采用深度學習方法處理點云數據。隨著卷積神經網絡的進步,以YOLOP[195]和MultiNet[177]為代表的基于圖像數據的感知技術應運而生,并在駕駛場景理解任務中表現出色[65,182,96,239]。近年來,Transformer架構在自然語言處理領域嶄露頭角,該技術也被應用于圖像數據理解。BEVFormer[105]利用注意力機制融合多攝像頭視角的圖像,從鳥瞰視角構建抽象幾何空間,并在包括目標檢測在內的各種任務中取得了最先進的結果。此外,Transfusion[7]通過交叉注意力方法融合激光雷達和攝像頭數據,提高了感知精度。基于感知結果,一系列技術(如RNN[6,243,88]、CNN[136,26,24]和Transformer[75,127,167,241])已被用于編碼歷史場景信息并預測交通參與者的未來行為。

隨著近年來多模態大型語言模型的出現和快速發展,許多研究致力于將這些模型的通用場景理解能力應用于自動駕駛領域。TOKEN[178]將整個交通場景標記為對象級知識,利用語言模型的推理能力處理長尾預測和規劃問題;OmniDrive[96]建立了基于LLM的智能體,通過視覺問答涵蓋場景描述、反事實推理和決策等多項任務。

5.1.2 世界模擬器

如表5所示,在多模態大模型和基于視覺的生成模型出現之前,交通場景模擬通常在幾何空間中進行。這些模擬所依賴的場景數據通常由自動駕駛車輛的感知模塊收集或手動構建。這些模擬以幾何軌跡的形式表示場景的未來狀態[113,103,56,230],需要進一步建模和渲染以生成適合車輛感知的輸出。多個模塊的級聯往往導致信息丟失,并增加了模擬的復雜性,使場景控制更具挑戰性。此外,逼真的場景渲染通常需要大量計算資源,這限制了虛擬交通場景生成的效率。

使用基于擴散的視頻生成模型作為世界模型部分解決了上述問題。通過在大規模交通場景數據集上訓練,擴散模型可以直接生成與現實高度相似的相機感知數據。此外,擴散模型固有的可控性與CLIP[143]等文本-圖像對齊方法相結合,使用戶能夠以簡單的方式控制場景生成。GAIA-1[69]和DriveDreamer系列[189,233]是首批采用這種方法構建世界模型的研究。在此基礎上,Drive-WM[192]引入了規劃任務的閉環控制,而Vista[49]則專注于提高生成結果的分辨率并延長預測持續時間。

除了在視頻空間中預測未來狀態的方法外,許多其他研究探索了不同形式的車輛感知數據。OccWorld[237]和OccSora[185]通過預測3D占據網格來預測世界的未來狀態,而Copilot4D[226]則通過預測雷達點云數據的變化來構建世界模型。與視頻數據相比,這些類型的特征更好地反映了交通場景的空間特征。

5.2 機器人技術

世界模型已成為機器人技術中的變革性范式,使機器人能夠在復雜環境中有效感知、預測和執行任務。機器人技術的這一革命部分歸功于神經網絡[181,66]和機器學習算法[159,144]的進步,使機器人能夠構建捕捉世界關鍵組成部分的隱式表示。另一方面,預測模型[41,42]能夠直接預測世界的未來狀態,超越抽象表示,使機器人能夠預見可能的環境變化并主動做出反應。借助上述強大技術,機器人直接與現實世界環境互動并從中學習變得切實可行。如圖6所示,LLM[87,218]和世界模型[18,199,64]被視為通往通用人工智能(AGI)的可能路徑之一,因為它們可以成為機器理解世界基本規律的起點。我們在表6中總結了機器人領域世界模型的發展。

AI世界模型全面綜述:理解世界還是預測未來?-AI.x社區

AI世界模型全面綜述:理解世界還是預測未來?-AI.x社區

5.2.1 學習隱式表示

傳統的機器人任務(如物體抓取)通常在高度結構化的環境中執行,其中關鍵組件已被顯式建模[90,34],無需機器人獨立學習或調整其對世界的理解。然而,當機器人部署在不熟悉的環境中,尤其是在關鍵特征或動態未被顯式建模的環境中時,先前成功的任務可能會失敗,因為機器人難以泛化到這些未知特征[122,85]。因此,使機器人能夠學習其環境的隱式表示是實現智能的關鍵第一步。

為了幫助機器人理解世界中的物體,卷積神經網絡(CNN)[99,93,51]和視覺Transformer(ViT)[31,183]等視覺模型將實體的視覺特征集成到表示中,使機器人能夠識別任務的關鍵物體。RoboCraft[165]將視覺觀察轉換為粒子,并通過圖神經網絡捕捉底層系統的結構。此外,還有一些嘗試用于物理空間的感知。PointNet[140,142]首先使用非對稱函數對非結構化3D點云進行編碼,捕捉環境的空間特征。最近的一項工作[52]將沿局部探索路徑獲取的觀測結果組裝成潛在空間中物理空間的全局表示,使機器人能夠跟蹤并接近特定目標。隨著LLM[180,14,32]中語言理解能力的提升,一種使機器人捕捉任務意圖的新范式涉及以文本形式描述任務,然后通過LLM獲得文本表示[124,50,72,186]。BC-Z[79]利用語言表示作為任務表示,提高了機器人的多任務性能。Text2Motion[107]通過LLM將自然語言指令分解為任務級和運動級計劃,以處理復雜的順序操作任務。

5.2.2 預測環境的未來狀態

機器人任務始終是順序性和長期性的,當前時刻做出的決策可能對未來任務的執行產生深遠影響[171]。因此,通過預測其動作將如何影響未來的環境狀態,機器人可以避免潛在錯誤并隨著時間的推移提高任務性能。經典的機器人技術使用閉環算法[9,89],利用當前觀測來指導動作選擇,這導致機器人目光短淺,即使最終意識到采取了錯誤動作,也可能導致不可逆轉的錯誤。盡管有些方法聲稱在機器人技術中取得了突破性性能,但它們依賴于基于專家知識的顯式動態函數,限制了預測的范圍和魯棒性。MORL[205]引入單調雙曲模型來預測更新策略的改進。同時,Trajectron++[152]通過條件變分自動編碼器計算未來軌跡的概率分布來預測環境。

最近,使用擴散[36,21,10,64]和Transformer[222,208]作為主干的視頻生成模型已成為未來狀態預測的流行選擇。例如,UniPi[33]將動作預測表述為視頻預測問題,并使用初始狀態作為顯式條件上下文訓練受限擴散模型,以實現對未來的準確想象。類似地,VIPER[35]利用對專家視頻進行預訓練的自回歸Transformer,引導機器人正確執行任務,而Genie[15]包括一個動力學模型,該模型使用先前的視頻幀和動作預測環境的下一狀態。受益于互聯網上數百萬未標記的視頻,GR-2[196,18]在機器人任務上進行了微調,實現了對未來圖像的準確預測和機器人動作軌跡的生成。

5.2.3 從模擬到現實世界

深度強化學習在機器人策略學習中表現出色,使機器人能夠穩定行走[172,95]、抓取物體[223,30],甚至系鞋帶[5](這是一項特別復雜的自主任務)。然而,深度強化學習在樣本效率方面并不盡如人意。例如,機器人在現實世界中學習解決魔方需要數萬年時間[3],這極大地限制了其現實世界應用。因此,大多數機器人工作基于模擬進行,各種分布式訓練技術[151,60]提高了樣本收集的效率。盡管模擬效率顯著,但在模擬環境中訓練有素的機器人在現實世界中往往會失敗。這是因為模擬無法完全還原現實世界,訓練有素的策略可能在那些分布外的場景中失敗。另一方面,對現實世界環境進行準確建模具有挑戰性,因為模擬環境通常與現實世界不同,這種差異在長距離決策中會累積,導致策略無法適應世界的變化。

世界模型在幫助機器人處理現實世界中的通用任務方面顯示出巨大潛力。NeBula[2]構建了一個信念空間,機器人在其中進行推理和決策,并能適應不同的機器人結構和未知環境;而DayDreamer[199]從離線數據中泛化出世界模型,使機器人能夠在數小時內直接在現實世界環境中學習行走。此外,SWIM[120]從人類視頻中學習,并在沒有任何任務監督的情況下從機器人設置中進行微調,只需不到30分鐘的現實世界交互數據。OpenEQA[117]進一步提出了一個關于機器人對環境和任務理解的基準,為現實世界中的具身智能體提供了全面評估。

5.3 社會模擬

“社會模擬”的概念最初在[133]中作為一種原型設計技術引入,旨在幫助設計師創建包含許多不同智能體的虛擬社會計算系統。基于專家定義規則[157,12]或強化學習[236]構建智能體的傳統方法面臨行為過于簡單或缺乏可解釋性等問題。然而,LLM的出現為構建更真實的社會模擬提供了變革性工具,實現了更具說服力的典型事實[101]或準確預測。社會模擬可以被視為反映現實世界社會計算系統的一種世界模型。從另一個角度來看,社會模擬中的智能體也會發展出對外部系統的隱式表示,即它們構建了支持其社會行為生成的隱式世界模型。世界模型與社會模擬之間的關系如圖7所示,代表性工作的總結見表7。

AI世界模型全面綜述:理解世界還是預測未來?-AI.x社區

AI世界模型全面綜述:理解世界還是預測未來?-AI.x社區

5.3.1 構建反映現實社會的社會模擬

在LLM智能體迅速崛起的時代,構建逼真的社會模擬系統變得更加可行。社會模擬最著名的例子之一是AI Town[132],這是一個由25個生成式智能體組成的世界模型,本質上形成了一個沙盒社會環境。在這個虛擬社區中,智能體表現出可信的個體行為,在群體層面則出現了類似于現實世界的新興社會行為。沿著這條路線,越來越多的嘗試正在用LLM智能體取代各種社會場景中的人類,實際上形成了各自特定場景的社會模擬。這些工作已在社交網絡和合作或競爭游戲等場景中使用了模擬范式[46]。

S3[47]是一項開創性工作,它利用LLM智能體模擬社交網絡上的消息傳播動態。通過模擬人類情緒、態度和消息轉發等社會行為,S3成功地在構建的虛擬社交網絡中重現了幾個現實世界公共事件的傳播動態,結果在質量上與現實無異。類似的研究[131]進一步探索了由LLM智能體主導的社交網絡的形成機制,并將其與真實的人類社交網絡進行了比較。同樣,Xu等人[206]使用LLM智能體玩經典的社交互動游戲“狼人殺”。在模擬過程中,他們觀察到了欺騙和對抗等策略行為的出現,揭示了LLM在不完全信息游戲中的潛力。

社會模擬的另一個熱門研究領域是經濟系統的模擬。EconAgent[101]構建了一個宏觀經濟系統,其中個體經濟行為基于LLM智能體進行模擬,納入了勞動力市場、消費市場和金融市場等經濟關鍵組成部分。模擬結果重現了典型事實,包括波動的宏觀經濟指標和與現實世界證據一致的宏觀經濟規律。EconAgent展示了使用LLM智能體模擬經濟決策和構建經濟系統的巨大潛力。經濟領域社會模擬的其他模擬包括稀缺資源分配[82]和稅收系統形成[4]等。

5.3.2 社會模擬中智能體對外部世界的理解

LLM智能體通過存儲與外部環境互動獲得的觀測來建立記憶[229],從而形成對外部世界的隱式表示和基本認知,尤其是在模擬社會場景的背景下。這種認知以文本形式存儲在記憶庫中,供LLM智能體檢索和使用,使其在做出決策時能夠訪問有用信息并充分利用過去與環境互動的經驗知識。

Agent-Pro[228]將其與外部環境(特別是互動任務中的其他智能體)互動的記憶轉化為所謂的“信念”。基于這些信念,它做出下一個決策并更新其行為策略。這些信念代表了智能體對環境和其中其他智能體的社會理解,與第3.2節中提到的心理理論相關。其他關于LLM智能體的研究也采用了類似設計。例如,Zhang等人[225]從社會心理學的角度引入反思和辯論機制,用于建模多智能體協作任務。一項更先進的研究GovSim[137]探討了在由LLM智能體組成的社會中,旨在可持續資源開發的合作行為是否會出現。在這種設置中,每個智能體通過多智能體對話收集關于外部世界和其他智能體行為策略的信息,隨后形成自己的高級見解,本質上創建了世界模型的隱式表示。另一個類似的應用場景是交互式群聊[53],其中在遺產糾紛、法庭辯論等四個敘事場景中出現了類似人類的行為和策略。

6.開放性問題和未來方向

超現實生成式AI的最新進展引起了人們對世界模型開發的極大關注,特別是像Sora[130]這樣的多模態大模型。盡管創新迅速,但仍有許多重要的開放性問題有待解決。

6.1 物理規則和反事實模擬

世界模型的一個關鍵目標是學習模擬世界的潛在因果關系,例如環境的物理規則。它們為推斷反事實場景的未觀察結果提供了重要能力[135],超越了假設數據分布相同的數據驅動預測方法。這些能力對于解決數據稀缺問題至關重要,這在關鍵任務應用中模擬罕見事件時尤為重要。例如,模擬極端情況對提高自動駕駛AI的魯棒性至關重要[40]。此外,擁有準確的物理規則模型還可以提高模擬環境的一致性,這對于解決許多應用中的模擬到現實的差距至關重要。人們認為,具有現實物理規則的世界模型是AI智能體發展對物理世界全面理解的必要訓練環境。

大型生成模型的最新突破主要由Transformer和擴散模型等深度學習模型驅動,這些模型本質上是數據驅動的。模擬物理規則的能力是否可以通過訓練數據的擴展而涌現,這是一個有爭議的問題。Sora展示了生成物理世界高度逼真視頻的驚人能力[130],包括運動中的物體和形狀可變的物體,如行人、狗和帶有咬痕的漢堡。然而,它仍然難以準確模擬重力和流體動力學等物理規則。此外,研究人員還發現,LLM無法充分預測物理世界的狀態轉變[191],例如水的沸騰。這些觀察表明,大型生成模型盡管擁有海量數據集,但在學習世界的因果表示方面仍存在固有局限性。一個有前途的未來方向是探索大型生成模型與物理規則模擬器的集成。這種解決方案可能會降低生成內容的分辨率和質量,但應提高對未見過的反事實場景的泛化能力。此外,擁有顯式物理規則還可以提高世界模型的可解釋性和透明度。

6.2 豐富社會維度

僅模擬物理元素對于高級世界模型是不夠的,因為人類行為和社會互動在許多重要場景中也起著關鍵作用[46]。例如,城市居民的行為對于構建城市環境的世界模型尤為重要[8,204]。先前的工作表明,LLM的類人常識推理能力為使用生成式智能體模擬逼真的人類行為提供了獨特機會[132]。然而,設計能夠模擬逼真和全面的人類行為和社會互動的自主智能體仍然是一個開放性問題。最近的研究表明,人類行為模式和認知過程的理論可以為智能體工作流程的設計提供信息,進而增強LLM的人類行為模擬能力[163,132],這代表了未來研究的一個重要方向。此外,生成的人類行為的現實性評估仍然在很大程度上依賴于人類的主觀評估,這對于擴展到大規模世界模型具有挑戰性。開發可靠且可擴展的評估方案將是另一個未來研究方向,可豐富世界模型的社會維度。

6.3 通過具身智能彌合模擬與現實的差距

世界模型長期以來被視為發展具身智能的關鍵步驟[155]。它可以作為強大的模擬器,創建環境的綜合元素并對它們之間的現實關系進行建模。這樣的環境可以促進具身智能體通過與模擬環境的交互進行學習,減少對監督數據的需求。為實現這一目標,提高生成式AI模型的多模態、多任務和3D能力已成為開發適用于具身智能體的通用世界模型的重要研究課題。此外,縮小模擬與現實之間的差距[67]一直是具身環境模擬器的長期研究問題,因此將訓練后的具身智能從模擬環境遷移到物理世界至關重要。收集更細粒度的感官數據也是實現這一目標的關鍵步驟,這可以通過具身智能體的接口來推動。因此,一個有趣的未來研究方向是創建自我強化循環,以利用生成式世界模型和具身智能體的協同力量。

6.4 模擬效率

確保世界模型的高模擬效率對許多應用至關重要。例如,每秒幀數是學習復雜無人機操作AI的高質量關鍵指標。大多數大型生成式AI流行的Transformer架構對高速模擬構成巨大挑戰,因為其自回歸特性一次只能生成一個標記。已提出幾種策略來加速大型生成模型的推理,例如結合大型和小型生成模型[162]和蒸餾大型模型[163]。更全面的解決方案包括構建優化調度LLM請求的模擬平臺[210]。當經典物理模擬器被要求模擬大型復雜系統時,高計算成本也是一個問題。先前研究發現,圖神經網絡等深度學習模型可用于高效近似物理系統[154]。因此,一個重要的研究方向將是探索小型深度學習模型與大型生成式AI模型之間的協同作用。此外,從底層硬件到編程平臺和AI模型的整體改進也需要實現實質性的加速。

6.5 倫理和安全問題

數據隱私:使用大型生成式AI構建世界模型的最新趨勢引發了對隱私風險的重大擔憂,主要由于海量且通常不透明的訓練數據[219]。大量研究工作致力于評估使用LLM等大型生成式AI推斷私人信息的風險[102],這在視頻生成模型的背景下可能尤其敏感。為了符合GDPR[176]等隱私法規,提高生成式AI生命周期的透明度至關重要,幫助公眾了解數據在這些AI模型中是如何收集、存儲和使用的。

模擬不安全場景:生成式AI的強大智能使其訪問安全成為首要任務。先前對LLM的研究發現,它們可能被對抗性提示誤導生成不安全內容[94,76]。世界模型的不安全使用風險可能更大。對抗性用戶可能利用此類技術模擬有害場景,降低策劃非法和不道德活動的成本。因此,未來的一個重要研究方向是保障世界模型的使用安全。

責任歸屬:生成超現實文本、圖像和視頻的能力已導致傳播錯誤信息和虛假信息的嚴重社會問題。例如,深度偽造技術的出現引發了大規模濫用,對社會、經濟和政治系統產生了廣泛的負面影響[193]。因此,檢測AI生成內容已成為解決這些風險的關鍵研究問題[146]。然而,由于生成式AI的進步,這個問題變得越來越具有挑戰性,而能夠生成一致的多維輸出的世界模型的出現將使問題更加困難。水印等技術可以幫助提高世界模型使用的責任歸屬[27]。需要更多的研究關注以及法律解決方案來改善世界模型使用的責任歸屬。

7.結論

理解世界和預測未來一直是開發人工生成智能的科學家的長期目標,突顯了在各個領域構建世界模型的重要性。本文首次對世界模型進行了全面綜述,系統地探討了其兩個主要功能:外部世界的隱式表示和未來預測。我們對這些核心功能的現有研究進行了廣泛總結,特別關注決策中的世界模型、模型學習的世界知識、作為視頻生成的世界模型以及作為具身環境的世界模型。此外,我們回顧了世界模型在關鍵應用領域的進展,包括自動駕駛、機器人技術和社會模擬。最后,認識到這個快速發展領域中未解決的挑戰,我們強調了開放性問題并提出了有前途的研究方向,希望激發這個新興領域的進一步研究。

參考資料

  • 標題:Understanding World or Predicting Future? A Comprehensive Survey of World Models
  • 作者:Jingtao Ding, Yunke Zhang, Yuan Yuan, 等
  • 單位:Tsinghua University, Beijing, China
  • 標簽:人工智能、世界模型、大語言模型、視頻生成、自動駕駛、機器人技術
  • 概述:本文系統綜述了世界模型的核心技術,圍繞“理解世界”和“預測未來”兩大功能,梳理了其在自動駕駛、機器人、社會模擬等領域的應用及挑戰,并展望了未來研究方向。
  • 鏈接:https://arxiv.org/pdf/2411.14499

本文轉載自????旺知識??,作者:旺知識


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日本不卡视频在线播放 | 欧美日韩国产在线 | 求个av网址 | 天天噜天天干 | 蜜桃官网 | 欧美一级黄色免费 | 亚洲欧美激情精品一区二区 | 国产在线观看一区二区三区 | 国产资源视频 | 91香蕉| 在线国产一区二区三区 | 免费在线播放黄色 | 日韩电影在线一区 | 日韩视频一级 | 日韩精品成人网 | 成人精品一区 | 人人看人人搞 | 亚洲综合第一页 | 欧美一级大片免费观看 | 中文字幕视频免费 | 久久久久久免费观看 | 亚洲精品久久嫩草网站秘色 | 亚洲精品在线免费播放 | 高清久久久 | 精品乱人伦一区二区三区 | 亚洲在线成人 | 九色综合网| 91视频国产区 | 97精品超碰一区二区三区 | 欧美一区二区在线观看 | 婷婷一级片 | 久久天天躁狠狠躁夜夜躁2014 | 喷潮网站 | 成人区精品一区二区婷婷 | 中文字幕一区在线观看视频 | 成人欧美一区二区三区在线播放 | 欧美性一区二区三区 | 日韩精品一区二区三区中文字幕 | 天天操天天操 | 日韩精品在线一区 | 欧美日韩久久精品 |