成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Seed Research | 視頻生成模型最新成果,可僅靠視覺認知世界!現已開源

人工智能 開源
作為一種通用視頻生成實驗模型,VideoWorld 去掉語言模型,實現了統一執行理解和推理任務。同時,它基于一種潛在動態模型,可高效壓縮視頻幀間的變化信息,顯著提升知識學習效率和效果。

視頻生成實驗模型“VideoWorld”由豆包大模型團隊與北京交通大學、中國科學技術大學聯合提出。不同于 Sora 、DALL-E 、Midjourney 等主流多模態模型,VideoWorld 在業界首次實現無需依賴語言模型,即可認知世界。 

正如李飛飛教授 9 年前 TED 演講中提到 “幼兒可以不依靠語言理解真實世界”,VideoWorld 僅通過 “視覺信息”,即瀏覽視頻數據,就能讓機器掌握推理、規劃和決策等復雜能力。團隊實驗發現,僅 300M 參數量下,VideoWorld 已取得可觀的模型表現。

現有模型大多依賴語言或標簽數據學習知識,很少涉及純視覺信號的學習。然而,語言并不能捕捉真實世界中的所有知識。例如,折紙、打領結等復雜任務,難以通過語言清晰表達。

作為一種通用視頻生成實驗模型,VideoWorld 去掉語言模型,實現了統一執行理解和推理任務。同時,它基于一種潛在動態模型,可高效壓縮視頻幀間的變化信息,顯著提升知識學習效率和效果。

在不依賴任何強化學習搜索或獎勵函數機制前提下,VideoWorld 達到了專業 5 段 9x9 圍棋水平,并能夠在多種環境中,執行機器人任務。

團隊認為,盡管面向真實世界的視頻生成和泛化仍存在很大挑戰,視頻生成依然可以成為一種通用的知識學習方法,并在現實世界充當思考和行動的“人工大腦”。

目前,該項目代碼與模型已開源,歡迎體驗交流。


VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

論文鏈接:https://arxiv.org/abs/2501.09781

代碼鏈接:https://github.com/bytedance/VideoWorld

項目主頁:https://maverickren.github.io/VideoWorld.github.io


1. 模型僅靠“視覺”即可學習知識 

面向本次研究,研究團隊構建了兩個實驗環境:視頻圍棋對戰和視頻機器人模擬操控。

其中,圍棋可以很好地評估模型的規則學習、推理和規劃能力,且圍棋關鍵信息僅有黑白兩色及棋盤,可將外觀、紋理等復雜細節與高級知識的評估分離,非常適合對上述問題的探索。同時,團隊還選取了機器人任務,以考察模型在理解控制規則和規劃任務方面的能力。

在模型訓練環節,團隊構建了一個包含大量視頻演示數據的離線數據集,讓模型“觀看”學習,以此得到一個可以根據過往觀測,預測未來畫面的視頻生成器。

模型架構上,團隊使用樸素的自回歸模型實例化視頻生成器,它包含一個 VQ-VAE 編碼器 - 解碼器和一個自回歸 Transformer 。編碼器負責將視頻幀(畫面)轉換為離散標記,Transformer 在訓練期間使用這些標記預測下一標記。

在推理過程中,Transformer 生成下一幀(畫面)的離散標記,這些標記隨后由解碼器轉換回像素空間。通過任務相關的映射函數,模型可將生成畫面轉換為任務執行動作。這讓視頻生成實驗模型可在不依賴任何動作標簽情況下,學習和執行具體任務。

基于上述樸素的框架對圍棋和機器人視頻數據進行建模,團隊觀測到,模型可以掌握基本的圍棋規則、走棋策略以及機器人操縱能力。

但團隊同時也發現,視頻序列的知識挖掘效率顯著落后于文本形式,具體如下圖所示。

圖片

團隊將這歸因于——視頻中存在大量冗余信息,影響了模型的學習效率。

例如,學習棋子移動過程中,模型只需通過狀態序列中少量位置標記編碼,但面向視頻數據,編碼器則會產生過多冗余標記,不利于模型對復雜知識的快速學習。

2. 壓縮視覺變化,讓視頻學習更加高效 

根據上述觀測結果,團隊提出 VideoWorld 。它在保留豐富視覺信息的同時,壓縮了關鍵決策和動作相關的視覺變化,實現了更有效的視頻學習。

通常,視頻編碼需要數百或數千個離散標記來捕捉每幀內的視覺信息,這導致知識被稀疏地嵌入標記中。為此,VideoWorld 引入了一個潛在動態模型(Latent Dynamics Model, LDM),可將幀間視覺變化壓縮為緊湊的潛在編碼,提高模型的知識挖掘效率。

舉例而言,圍棋中的多步棋盤變化或機器人連續動作均表現出強時間相關性,通過將這些多步變化壓縮成緊湊嵌入,不僅讓策略信息更緊湊,還將前向規劃指導信息進行編碼。

LDM 采用了 MAGVITv2 風格的編碼器 - 解碼器結構,同時取消時間維度下采樣,以保留每幀細節。

對于一個視頻片段,LDM 采樣每一幀及其后續固定數量幀,編碼器先以因果方式提取每幀特征圖,且進行量化,以保留詳細視覺信息。

接下來,LDM 定義了一組注意力模塊和對應可學習向量。每個向量通過注意力機制捕捉第一幀至后續固定幀的動態變化信息,然后通過 FSQ 量化。其中,量化器作為信息篩選器,防止 LDM 簡單記憶后續幀原始內容,而非壓縮關鍵動態信息。

最后,解碼器使用第一幀的特征圖和幀之間的視覺變化編碼重建后續幀,最終實現對未來動作的預測和規劃,實現對知識的認知學習。

下圖為模型架構概覽,左側為整體架構,右側為潛在動態模型。

圖片

通過使用多個向量順序編碼第一幀到后續多幀的動態變化,VideoWorld 實現了緊湊且信息豐富的視覺表示,可以捕捉視覺序列中的短期和長期依賴關系。這對于長期推理和規劃任務至關重要。

通過引入 LDM ,VideoWorld 在僅有 300M 參數量下,達到專業 5 段的 9x9 圍棋水平,且不依賴任何強化學習中的搜索或獎勵函數機制。在機器人任務上,VideoWorld 也展現出了對多任務、多環境的泛化能力。 3. 純視覺模型可“預測”未來,并能“理解”因果關系覺模型可“預測”未來,并能“理解”因果關系 

3.純視覺模型可“預測”未來,并能“理解”因果關系

針對 LDM 提高視頻學習效率的原因,團隊進行了更為細致地分析,得出如下 3 點結論:

  • LDM 建模了訓練集的數據模式。

下圖為 LDM 潛在編碼 UMAP 可視化呈現,面向圍棋和機器人訓練集,每個點代表一個潛在編碼。

其中,UMAP 是一種流行的降維算法,用于將高維數據映射到低維空間,展現模型特征提取情況。

在下圖左側中,奇數步表示白方走棋,偶數步表示黑方,圖例展示了新增黑棋的一些常見模式。UMAP 可視化表明:LDM 建模了訓練集中常見的走棋模式,并能將短期和長期數據模式壓縮至潛在空間中,提取并總結走棋規律。

同理,下圖右側為機械臂沿 X/Y/Z 軸運動方向可視化潛在編碼,隨著步數(Step)增多,也能看到 LDM 可以建模多步動態依賴關系。

圖片

  • LDM 幫助模型在測試時進行前向規劃。

團隊還研究了 LDM 在模型推理中的價值。

如下圖 UMAP 可視化所示,在測試階段,模型生成的潛在編碼按照時間步(Time-step)進行分組,使得模型能夠從更長遠視角進行圍棋決策。

圖片

在機器人場景實驗中,團隊也觀察到了類似現象。

下圖展示了 VideoWorld 在不同機器人操控任務中預測的潛在編碼。不同時間步的潛在編碼根據任務類型進行分組,突顯了模型逐步捕捉特定任務長程變化的能力。

圖片

  • LDM 可以生成因果相關的編碼。 

為進一步研究潛在編碼的影響,團隊進行了一項干預實驗:用隨機標記替換不同時間步的潛在編碼,并觀察其對模型性能的影響。

實驗結果顯示,干預第一個編碼的影響最大,這可能由于編碼之間存在因果依賴,團隊認為:改變第一個編碼,即下一時間步的最佳決策,會影響所有未來的決策,側面說明模型可生成因果相關編碼,理解因果關系。

4. 寫在最后 

盡管 VideoWorld 在圍棋和模擬機器人操控環境中展現了卓越性能,團隊同時也意識到,其在真實世界環境中的應用,仍面臨著高質量視頻生成和多環境泛化等挑戰。

在未來,團隊將著力解決這些難題,推動視頻生成模型成為真實世界中的通用知識學習器。

責任編輯:龐桂玉 來源: 字節跳動技術團隊
相關推薦

2023-04-03 10:04:44

開源模型

2025-02-27 12:44:41

2024-11-25 10:30:00

AI視頻開源

2024-10-22 09:40:00

模型生成

2024-01-29 07:50:00

AI視頻

2023-10-23 12:43:05

模型訓練

2024-09-23 15:40:00

2023-12-20 14:54:29

谷歌Gen-2視頻

2024-11-08 09:11:24

2024-12-24 13:50:00

視頻生成AI

2024-07-12 12:55:55

2025-04-22 15:34:08

視頻生成AI

2024-09-10 11:21:30

2024-05-24 12:53:06

AI訓練

2021-08-13 15:07:02

模型人工智能深度學習

2025-05-16 09:08:00

2025-02-19 15:17:24

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 丝袜久久 | 日韩在线 | 中文字幕第十五页 | 国产精品视频一二三区 | 欧美日韩久久精品 | 亚洲一区日韩 | 中文字幕一区二区三区在线视频 | 天天干天天操天天爽 | 欧美极品在线 | 国产一区在线视频 | 伊人精品 | 精品欧美一区二区三区久久久 | 完全免费在线视频 | 精品国产一区一区二区三亚瑟 | 午夜影院在线观看免费 | 综合久久久 | 玖玖精品 | 国产高清免费视频 | 天天夜干 | 亚洲免费网站 | 孰女乱色一区二区三区 | 日韩综合一区 | 超碰精品在线 | 精品无码久久久久久久动漫 | 国产精品爱久久久久久久 | 亚洲风情在线观看 | 精品香蕉一区二区三区 | 精品国产欧美一区二区三区成人 | 玖玖综合在线 | 久久久久久久久蜜桃 | 在线观看黄色大片 | 成人免费大片黄在线播放 | 成人一区二区三区在线观看 | 亚洲国产精品一区 | 久久天天躁狠狠躁夜夜躁2014 | 亚洲成人一级 | 国产成人jvid在线播放 | 国内精品久久精品 | 日本午夜网站 | 国产人久久人人人人爽 | 国产成人网 |