一句指令,無限宇宙!Matrix-Game硬核上線,秒殺SOTA
黑客帝國中的「矩陣」,已照進現實。
指尖輕點,一個細節滿滿、物理規則完美運轉的虛擬世界就此誕生。
這個曾經只在科幻大片出現的場景,如今「空間智能」就幫人類實現了。
繼之前刷屏的單張圖片生成虛擬世界Matrix Zero之后,昆侖萬維又來搞事情了!
這次,他們再度撕裂技術邊界,推出Matrix系巔峰之作——Matrix-Game。
GitHub:https://github.com/SkyworkAI/Matrix-Game
Hugging Face:https://huggingface.co/Skywork/Matrix-Game
技術報告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf
項目主頁:https://matrix-game-homepage.github.io
這是一個不僅能生成虛擬世界,更讓你成為世界主宰的交互式創世引擎。
在這個空間智能時代,視頻生成、3D建模、交互控制的融合之力,正徹底顛覆人類與虛擬世界的連接方式。
直通「創世之神」
簡單來說,Matrix-Game就是通往「創世神」之路的超級加速器。
它是Matrix系列在交互世界生成領域的首次驚艷落地,一個專為游戲世界量身打造的交互式世界基礎模型。
Matrix-Game的強大之處在于,不僅能在開放世界里「造」出高質量場景,還能精準控制里面的細節。
現在,只需要輸入一個指令,即可自由探索、操控,甚至創造出細節豐富、物理規則合理的虛擬世界。
多場景可控生成
比如沙漠、森林、山丘、冰原、河流等場景,Matrix-Game可一鍵生成。
這種多場景泛化能力,讓Matrix-Game具備了強大的環境適用性,覆蓋了不同地形、天氣、生物群系的Minecraft場景。
依次是:沙漠、海灘、山丘、河流、森林(左右滑動查看)
它還能支持前進、跳躍、攻擊等細節操作,會根據用戶的輸入,準確響應。
不論是敲擊鍵盤,還是鼠標滑動,操作體驗非常絲滑,仿佛置身于真實世界。
依次是:前進、后退、向左、向右、跳躍、攻擊(左右滑動查看)
包括視角移動,可實現360°無死角生成。
依次是:視角移動向上、向下、向左、向右
依次是:視角移動左上、左下、右上、右下
現在,只需把場景和交互控制融合,便會驚嘆Matrix-Game無與倫比的技術實力。
不論是前進、后退,向左、向右,Matrix-Game不僅能精準響應,而且周邊物理環境生成的穩定性極高。
再比如,跳躍攻擊等幅度大的動作,更是對AI空間生成提出了高難度的考驗。
Matrix-Game模擬了真實物理規律,精準拿捏。
它生成的虛擬世界不僅視覺連貫、細節逼真,還嚴格遵守了自然物理規律,如重力、碰撞等。
這種高保真表現,顯著提升了沉浸感,讓用戶仿佛「身臨其境」。
總而言之,Matrix-Game能在不同Minecraft場景下做到可控生成,包括基礎運動、復合運動、視角運動等。
泛化場景生成
更令人興奮的是,Matrix-Game展現出向非Minecraft游戲環境泛化的潛力,為更廣泛的應用奠定了基礎。
比如,生成賽博風格的城市。
還有古建筑風格的場景,都能無限生成。
由上可見,Matrix-Game這一突破性成果,直接點燃了虛擬世界的無限可能。
它不僅刷新了交互式世界生成的技術天花板,更為構建通用虛擬世界基座樹立了全新標桿。
那么,它是如何做到的呢?
解密Matrix-Game三大技術核心
接下來,讓我們一一拆解Matrix-Game的三大「秘密武器」。
大規模高質量Matrix-Game-MC數據集
數據是AI模型的「養分」,其質量和豐富度直接決定了模型的成敗。
為此,昆侖萬維團隊自主構建了大規模Matrix-Game-MC數據集,為復雜環境的動態學習和交互模式訓練,提供了堅實的基礎。
它涵蓋了「無標注預訓練數據」和精細標注的「有標注可控數據」,兼顧了數據規模和質量。
無標注預訓練數據
從6000小時的MineDojo數據中,研究者通過三階段過濾機制,篩選出近千小時高質量數據。
具體來說,經過了(1) 畫質與美學過濾;(2) 非游戲內容剔除;(3) 動態與視角穩定性過濾。
有標注可控數據
這里,采用了兩種策略,生成數千小時的精細標注數據。
- 探索智能體(Exploration Agent):利用VPT agent在 MineRL環境中進行自動探索,生成包含精確鍵盤與鼠標控制信號的Minecraft視頻數據,支持可控性學習。
- 程序化模擬(Unreal Procedural Simulation):基于Unreal Engine手動構建清晰、標注精確的交互場景,提供位置信息、動作標注(離散與連續)、以及環境反饋信號(如方塊是否成功破壞),生成高精度、無噪聲的可控標注數據,助力高保真動作-響應建模。
核心架構:從圖像出發構建可控交互世界
基于當前最火的擴散模型技術,Matrix-Game打造了一個從圖像到世界生成的創新框架。
只需輸入一個指令、鼠標移動,它就能生成連貫、可控的互動視頻,兼顧視覺精度、時序一致性和物理合理性。
整體架構的設計,有三大核心亮點:
1. 圖像到世界建模(Image-to-World Modeling)
它不依賴語言提示,僅基于視覺信號建模空間幾何、物體運動,及物理交互,強調空間智能能力。
輸入形式是以單張參考圖像為起點,生成交互式視頻。
在交互可控生成上,融合了用戶動作輸入(如鍵盤、鼠標),通過多模態擴散模型,直接生成虛擬游戲世界的視頻內容。
2. 自回歸式視頻生成(Autoregressive Diffusion Generation)
Matrix-Game支持自回歸方式scaling生成長度,可持續生成高一致性長視頻內容。
每次,它會以前一視頻最后k=5幀作為運動上下文,逐段遞進生成,確保了時間上的連貫性。
此外,通過隨機擾動、隨機刪除、分類引導(CFG)策略,可緩解時序漂移和誤差積累,確保了時間連貫性。
3. 可控交互設計(Injecting Actions for Controllability)
對于交互設計,鍵盤動作(如上下左右跳躍攻擊)是以離散token表達,視角移動動作(如鼠標pitch角度)則以連續token表達。
同時,它采用了GameFactory控制模塊,融入多模態Diffusion Transformer架構,并利用CFG提升對控制信號的魯棒響應能力。
得益于這一架構,使得Matrix-Game在生成交互世界時,既能保持視覺上的驚艷效果,又能精準響應用戶指令。
統一評測體系
接下來,如何去全面、科學地評估交互世界生成模型的性能?
為此,研究團隊創新性提出GameWorld Score評測體系。
它從視覺質量、時間一致性、交互可控性,以及物理規則理解四個關鍵維度,來進行量化評估。
- 視覺質量(Visual Quality):基于人類視覺系統(HVS)標準,評估每一幀圖像清晰度、結構一致性與真實感。
- 時間一致性(Temporal Quality):衡量視頻的動態連貫性,包括運動連續性、節奏平滑性與時間穩定性。
- 交互可控性(Action Controllability):測試生成結果是否準確響應用戶輸入的控制信號,涵蓋離散控制(如前進、跳躍)和連續控制(如視角轉換)。
- 物理規則理解(Physical Rule Understanding):驗證生成視頻是否遵循物理常識與空間一致性。
這一體系的提出,填補了行業在交互性、物理一致性等維度的評測空白,為模型的迭代優化提供了科學依據。
而且, GameWorld Score首次實現了對「感知質量+控制能力+物理合理性」的全方位衡量。
它不僅為Matrix-Game性能提供了全面量化的依據,也為整個交互世界生成領域,樹立了統一的標準。
刷新SOTA 重塑交互式世界生成標桿
在實驗評估中,通過兩階段訓練策略(無標注預訓練 + 動作標注微調),17B參數規模的大模型在空間理解、物理交互建模,以及用戶指令響應方面,取得了顯著的突破。
在GameWorld Score評測系統中,Matrix-Game在以上四大評測維度中全面領先,超越了業內著名開源基線——Decart的Oasis和微軟的MineWorld。
尤其是,新模型在交互可控性和物理一致性等關鍵指標上,表現尤為突出。
在雙盲評實驗中,用戶更傾向于選擇Matrix-Game生成的視頻:
- 96.3%總體偏好率,生成效果更真實、連貫、可信;
- 93.76%動作控制偏好,準確響應鍵盤與鼠標指令;
- 98.23%視覺質量得分,單幀畫面更清晰美觀;
- 89.56%時間一致性得分,動態流暢,無閃爍跳變。
在控制性能上,Matrix-Game可實現「運動」「攻擊」等動作高達90%+準確率;細粒度視角控制下依然保持高精度響應。
此外,Matrix-Game在8大典型Minecraft場景中,也全面領先。
模型展現出卓越的環境適應與泛化能力,可廣泛應用于復雜動態的虛擬世界交互任務。
Matrix-Game用事實證明,它不僅能「看得清」,更能「動得準、控得穩」,是當前最強的交互式世界生成基座模型之一。
多領域革命引擎 解鎖交互宇宙
作為空間智能領域的先鋒之作,Matrix-Game不僅是一個技術突破,更是一個跨行業的賦能引擎。
通過融合視頻生成、三維建模與交互控制等核心技術,空間智能不僅支持更加自然、直觀、沉浸的體驗,也在具身智能、影視制作、游戲開發等領域展現出巨大潛力。
Matrix-Game強大的交互式生成能力,未來將在多個領域掀起深遠的變革。
虛擬游戲世界快速搭建
老黃曾表示,「用不了十年,我們就能看到游戲中每一個像素都是由AI生成的」。
Matrix-Game的誕生,讓這一預言又近了一步。
傳統游戲世界構建,往往依賴人工設計和3D建模,開發周期長、成本高。
而且,許多游戲地圖和任務缺乏多樣性,難以滿足玩家對高自由度探索需求。
對于游戲開發者,Matrix-Game能以低成本、高效率生成細節豐富、可控的游戲地圖與任務環境,極大地縮短了開發周期。
不論是開放世界RPG的廣袤大陸,還是沙盒游戲的動態地形,Matrix-Game都能根據指令實時生成,賦予玩家更高自由度的探索體驗。
同時,其物理一致性確保了游戲世界的真實感、沉浸感。
具身智能體訓練與測試
具身智能,也稱物理AI,是AI下一個前沿。
它能夠讓智能體在物理世界中,具備感知、推理和行動的能力。然而,現實開發和測試中,具身智能面臨著多種挑戰。
比如,環境復雜性不足,測試場景單一,測試中難以復現現實世界動態性和復雜性,導致訓練效果較為有限。
又或是,真實物理環境搭建和數據采集耗時耗力,成本高昂等等。
在紅杉最新演講中,Jim Fan將「物理圖靈測試」稱之為AI的下一個北極星,即智能體在虛擬和物理世界無縫操作,展現出與人類無異的能力。
而Matrix-Game以高保真的交互世界生成能力,為智能體提供逼真的訓練環境,直接助力這一目標的實現。
從上面demo中不難看出,Matrix-Game可快速生成高度逼真虛擬場景,森林、山丘、冰原、蘑菇等,涵蓋了多樣地形、物體元素,多樣化場景定制。
這種環境不僅視覺細節豐富,還嚴格遵守物理規律,可以為具身智能提供接近真實世界的訓練場。
另外,支持前進、跳躍、抓取等精細動作,Matrix-Game還能讓智能體實時、細致的交互。
未來,Matrix-Game通過模擬極端天氣、家庭環境等,訓練機器人、服務智能體,推動通用具身智能的實現。
影視與元宇宙內容生產
在影視與元宇宙領域,虛擬場景往往依賴3D建模和特效團隊,一個好萊塢特效場景制作可能耗費數月,甚至數年,成本動輒數百萬。
一些現有虛擬世界,多為靜態或有限的交互,難以滿足元宇宙用戶對自由探索和實時互動的需求。
Matrix-Game能以更高效生產真實合理的動態虛擬空間,直接賦能創意內容制作與沉浸式體驗的開發。
它為導演、元宇宙開發者提供了一個革命性工具,將重塑虛擬內容創作的未來。
教育與仿真系統構建
Matrix-Game在教育、仿真系統構建領域中,同樣大有可為。
即,通過生成高度可控、交互豐富的虛擬學習環境,為學生和專業人士提供一個沉浸式訓練平臺。
舉個栗子,在醫學教育中,或許就可以利用Matrix-Game模擬手術室場景,讓學生身臨其境練習復雜操作。
在航空航天領域,則可以用于生成逼真的飛行模擬環境,幫助飛行員提升應對突發狀況的能力。
這些虛擬場景的搭建,不僅能降低培訓成本,還能通過交互反饋提升學習效果。
此外,在文化遺產保護、零售電商、數字孿生與智能城市規劃等領域中,Matrix-Game未來將會釋放無限的潛力。
它讓世界不再是靜態的畫卷,而是可以被探索、被操控、被創造的活宇宙。
下一步,Matrix-Game還將繼續迭代優化,帶領我們邁向更加智能、沉浸的虛擬世界。