成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

通用世界模型問世:不學(xué)習(xí)就能生成新領(lǐng)域視頻,可實時控制

人工智能 新聞
在 UC San Diego、穆罕默德?本?扎耶德人工智能大學(xué)(MBZUAI)等機(jī)構(gòu)的研究中,人們通過引入 Pandora 向構(gòu)建通用世界模型邁出了一步。

隨著 OpenAI 今年 2 月發(fā)布 Sora,世界模型(World Model)再次成為了 AI 領(lǐng)域的熱門。

世界模型,即通過預(yù)測未來的范式對數(shù)字世界和物理世界進(jìn)行理解,一直以來被認(rèn)為是通往通用人工智能(AGI)的關(guān)鍵路徑之一,與當(dāng)前大模型推崇的智能體(Agent)方向互相區(qū)分。

世界模型的研究促進(jìn)了交互式內(nèi)容的創(chuàng)建,并為有根據(jù)的、長期的推理提供了基礎(chǔ)。當(dāng)前的基礎(chǔ)模型并不能完全滿足通用世界模型的功能——大型語言模型(LLM)受到對語言模態(tài)的依賴以及對物理世界有限理解的限制,而視頻模型(如 Sora)則缺乏對世界模擬的交互式動作控制。

在 UC San Diego、穆罕默德?本?扎耶德人工智能大學(xué)(MBZUAI)等機(jī)構(gòu)的研究中,人們通過引入 Pandora 向構(gòu)建通用世界模型邁出了一步。

MBZUAI 校長邢波(Eric Xing)表示,Pandora 是一個可通過語言命令實時操控的世界模型,能夠在視覺空間中實時推理概念層面。是時候超越語言世界中的 LLM,進(jìn)入物理和感官世界了!

Pandora 是一種混合自回歸擴(kuò)散模型,可通過生成視頻來模擬世界狀態(tài),并允許通過自由文本動作(free-text action)進(jìn)行實時控制。Pandora 通過大規(guī)模預(yù)訓(xùn)練和指令調(diào)整實現(xiàn)了領(lǐng)域通用性、視頻一致性和可控性。

更加重要的是,Pandora 通過集成預(yù)訓(xùn)練的 LLM(7B)和預(yù)訓(xùn)練的視頻模型,繞過了從頭開始訓(xùn)練的成本,只需要額外的輕量級微調(diào)。作者展示了 Pandora 在不同領(lǐng)域(室內(nèi) / 室外、自然 / 城市、人類 / 機(jī)器人、2D/3D 等)的廣泛輸出能力。結(jié)果表明,通過更大規(guī)模的訓(xùn)練,我們能夠構(gòu)建更強(qiáng)大的通用世界模型。

圖片


  • 論文:Pandora : Towards General World Model with Natural Language Actions and Video States
  • 論文地址:https://world-model.maitrix.org/assets/pandora.pdf
  • 項目地址:https://github.com/maitrix-org/Pandora
  • 項目展示頁面:https://world-model.maitrix.org/

該研究展示了一系列先前模型不具有的特性:

  • 能模擬廣泛領(lǐng)域的視頻狀態(tài):Pandora 能夠生成廣泛領(lǐng)域的視頻,例如室內(nèi) / 室外、自然 / 城市、人類 / 機(jī)器人、2D/3D 和其他場景。這種領(lǐng)域的通用性主要?dú)w功于大規(guī)模視頻預(yù)訓(xùn)練(繼承自預(yù)訓(xùn)練視頻模型)。 
  • 該模型允許通過自由文本動作進(jìn)行動態(tài)控制:Pandora 接受自然語言動作描述作為視頻生成期間的輸入,以指導(dǎo)未來的世界狀態(tài)。這與以前的文本到視頻模型有很大不同,以前的文本到視頻模型僅允許在視頻開頭出現(xiàn)文本提示。動態(tài)控制實現(xiàn)了世界模型的承諾,支持交互式內(nèi)容生成并增強(qiáng)穩(wěn)健的推理和規(guī)劃。該功能是通過模型的自回歸架構(gòu)(允許隨時輸入文本)、預(yù)訓(xùn)練的 LLM 主干(可以理解任何文本表達(dá)式)和指令調(diào)整(可以大大增強(qiáng)控制的有效性)來實現(xiàn)的。 
  • 動作可控性跨域遷移:如前所述,使用高質(zhì)量數(shù)據(jù)進(jìn)行指令調(diào)整使模型能夠?qū)W習(xí)有效的動作控制,并遷移到不同的新領(lǐng)域。新模型從特定領(lǐng)域?qū)W到的動作可以無縫地應(yīng)用于不同新領(lǐng)域。 
  • 自回歸模型主干支持更長的視頻:基于擴(kuò)散架構(gòu)的現(xiàn)有視頻生成模型通常會生成固定長度(例如 2 秒)的視頻。通過將預(yù)訓(xùn)練視頻模型與 LLM 自回歸主干集成,Pandora 能夠以自回歸方式無限延長視頻持續(xù)時間。結(jié)合額外的訓(xùn)練(例如指令調(diào)整),作者證明 Pandora 可以生成更高質(zhì)量的更長視頻(可長達(dá) 8 秒)。

方法 

模型架構(gòu) 

Pandora 是一個自回歸世界模型。給定世界先前的狀態(tài)(例如圖像或視頻剪輯)和自然語言動作描述,它可以預(yù)測世界的下一個狀態(tài)(以視頻剪輯的形式)。 

如下圖 2 所示,Pandora 的兩個核心組件包括自回歸主干網(wǎng)絡(luò)(源自預(yù)訓(xùn)練 LLM)和視頻生成器(使用預(yù)訓(xùn)練視頻模型進(jìn)行初始化)。為了將這兩個組件拼接在一起,Pandora 還添加了其他必要的組件,包括視覺編碼器,以及分別將視覺編碼器連接到 LLM 主干和將 LLM 主干連接到視頻生成器的兩個適配器。

階段性訓(xùn)練 

通用世界模型需要實現(xiàn)一致性、可控性和通用性,即它需要生成一致的視頻來準(zhǔn)確描述世界狀態(tài),允許在視頻生成過程中隨時接受自然語言動作描述來進(jìn)行動態(tài)控制,并跨越所有不同的領(lǐng)域執(zhí)行上述操作(具有不同的場景和動作)。 

直接訓(xùn)練世界模型需要大量高質(zhì)量序列(視頻 S1、文本 A1、視頻 S2……)作為訓(xùn)練數(shù)據(jù),而這在實踐中很難獲得。

因此,該研究設(shè)計了一個兩階段的訓(xùn)練策略,包括預(yù)訓(xùn)練和指令調(diào)整。

預(yù)訓(xùn)練階段旨在讓模型獲得一些關(guān)鍵能力,包括:

  • 視頻生成器的一致、通用視頻生成能力;
  • 自回歸主干網(wǎng)絡(luò)的通用文本理解能力,以處理動作;
  • 兩個組件之間的表征空間對齊能力。 

表 1 總結(jié)了該研究收集到的數(shù)據(jù),主要來自公共語料庫和數(shù)據(jù)處理模擬器。

圖片

定性結(jié)果 

研究論文展示了一些定性結(jié)果,表明 Pandora 作為世界模擬器的核心功能,未來該研究將提供更多定量結(jié)果。

跨域的即時控制 

Pandora 是一個通用世界模型,能夠生成跨廣泛領(lǐng)域的視頻。它允許通過自由文本動作進(jìn)行動態(tài)控制,即它可以在視頻生成期間隨時接受文本動作控制并相應(yīng)地預(yù)測未來的世界狀態(tài)。

Pandora 模型能夠理解現(xiàn)實世界的物理概念,可以生成演示基本物理現(xiàn)象的視頻:

圖片

動作可控性遷移

雖然一些動作及其相應(yīng)的運(yùn)動模式只出現(xiàn)在一些模擬數(shù)據(jù)中,但 Pandora 可以將動作可控性遷移到不同的未見領(lǐng)域。如下圖所示圖,Pandora 分別將 Coinrun 的 2D 游戲能力和 HM3D 的 3D 模擬器能力遷移到其他未見領(lǐng)域。

圖片

自回歸生成更長的視頻

借助自回歸主干網(wǎng)絡(luò),Pandora 能夠以自回歸方式生成更高質(zhì)量的更長視頻。Pandora 接受最長 5 秒(40 幀)的視頻訓(xùn)練,但它能夠生成更長的視頻。下圖顯示了生成 8 秒(64 幀)視頻的結(jié)果。

盡管如此,作者表示 Pandora 很難生成高質(zhì)量和良好可控的視頻。在論文中,作者展示了一些語義理解、運(yùn)動控制和視頻一致性方面的失敗案例。

圖片

在進(jìn)行小規(guī)模探索實驗時,作者發(fā)現(xiàn)數(shù)據(jù)質(zhì)量,即動力學(xué)描述的精度對模型性能有很大影響。在存在高質(zhì)量仿真數(shù)據(jù)的領(lǐng)域,模型很容易獲得良好的可控性。但在公共視頻數(shù)據(jù)集領(lǐng)域,GPT-4 Turbo 生成的字幕存在噪聲,導(dǎo)致模型并沒有表現(xiàn)出良好的性能。然而,當(dāng)增加訓(xùn)練計算量時,模型上就會涌現(xiàn)出跨通用領(lǐng)域的可控性。

Pandora 的探索表明通過更大規(guī)模的訓(xùn)練,構(gòu)建更強(qiáng)大的通用世界模型,這一研究方向具有巨大潛力。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-01-29 07:50:00

AI視頻

2023-12-12 13:52:00

數(shù)據(jù)訓(xùn)練

2025-04-08 09:30:00

模型AI機(jī)器人

2024-05-13 12:53:06

AI模型

2025-02-14 09:30:00

視頻生成模型開源機(jī)器人

2016-05-24 15:55:01

大數(shù)據(jù)TalkingData

2024-11-25 10:30:00

AI視頻開源

2017-08-10 15:52:40

AWSGreengrass領(lǐng)域

2010-06-21 16:02:02

光纖FTTx

2025-05-30 09:14:00

2024-02-27 09:19:13

谷歌AI

2010-06-21 16:06:50

MeeGo車載信息娛樂

2012-07-23 14:03:04

甲骨文

2022-08-12 15:41:11

神經(jīng)網(wǎng)絡(luò)架構(gòu)

2024-11-01 16:37:02

Oasis大模型AI

2018-07-06 08:58:53

機(jī)器人人工智能系統(tǒng)

2013-06-21 11:41:37

可信證明技術(shù)信息安全可信計算

2010-03-01 15:51:06

Windows Emb

2025-01-03 10:30:00

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: a在线视频 | 99免费在线视频 | 日韩精品视频在线 | 日韩久久久久久 | 久久丝袜| 日韩精品1区2区 | 亚洲精品久久视频 | xxxxx免费视频 | 国产不卡一| 久久精品一级 | 日韩欧美在 | 天天亚洲 | 国产精品久久久久久久7电影 | 中文字幕在线看第二 | 91精品国产一区二区 | 欧美精选一区二区 | 新超碰97| 韩国久久精品 | 91精品国产91久久综合桃花 | 亚洲精品一区二区网址 | 四虎成人在线播放 | 日韩在线精品 | 欧美日韩国产一区二区三区 | 亚洲免费片 | 国产成人精品久久 | 午夜不卡福利视频 | 中文字幕一区二区在线观看 | 久久性 | 久久免费精品 | 国产一区二区日韩 | 欧美精品日韩精品 | 成人免费观看男女羞羞视频 | 久久久久久av| 在线免费观看视频你懂的 | 二区视频| 久久久精品一区二区三区 | 在线观看中文字幕dvd播放 | 九九热这里 | 久草日韩 | 成人在线视频免费观看 | 欧美一区成人 |