AI無限生成《我的世界》,玩家動動鍵盤鼠標自主控制!國產交互式世界模型來了
用AI無限擴展《我的世界》,動動鼠標、鍵盤即可搞定!
一直前進、砍掉樹木,后面別有洞天的世界,都是由用戶與環境交互、AI實時生成的。
也就是說,在砍掉樹木之前,樹后面的內容還是不存在的。
用鼠標切換視角、環顧環境,絲滑生成連貫畫面內容。
哪怕是跳躍,畫面也非常穩定,且符合自然世界物理規律。
Minecraft中森林、沙灘、沙漠、冰川、河流、平原等場景都可搞定。
支持基礎運動(前后左右)、復合運動、視角移動、跳躍、攻擊等細節操作。
而且不局限于《我的世界》,類Unreal Engine場景泛化也不在話下。
生成的雨天后的街道,已經非常逼真。
無限逼近畫面細節也不崩:
以上,就是交互式世界模型最新的重大更新!
Matrix-Game,面向游戲世界建模,專為開放世界生成高質量內容而來。
它由昆侖萬維帶來,可以讓用戶通過簡單的鍵鼠指令,自由探索、創作細節豐富且符合現實世界物理規律的虛擬內容;以極低操作門檻,釋放物理真實感與創作自由度的雙重潛力。
要知道,傳統方法構建類似效果,往往需要手寫代碼、渲染視覺效果,耗時又耗力。
此前,谷歌推出了完全由AI驅動的實時游戲引擎GameNGEN一夜爆火,它能以每秒20幀模擬經典射擊游戲DOOM,被網友直呼“比Sora還震撼”。
圖片
Matrix-Game與之類似,是交互式世界模型的更進一步探索。
具體如何實現?一起來看。
自由探索創作虛擬世界
Matrix-Game主要發布了三方面內容:
- Matrix-Game-MC數據集
- Matrix-Game主模型
- GameWorld Score評測體系
Matrix-Game-MC數據集
Matrix-Game-MC數據集是一個自主構建的大規模交互世界數據集。主要包含兩類數據:大規模無標簽的Minecraft游戲視頻和帶有鍵盤與鼠標控制信號的Minecraft與Unreal可控視頻數據,具備精細動作標注。
這能讓模型同時學習復雜環境動態和交互模式,完成建模。
其中,無標簽預訓練數據采用三階段過濾機制:畫質與美學過濾→非游戲內容剔除→動態與視角穩定性過濾。
從6000小時的MineDojo數據中過濾出近千小時高質量數據。
有標簽數據采用2種混合策略,生成數千小時可控監督數據。
一方面基于探索代理(Exploration Agent),借助VPT agent在MineRL環境中自動探索,生成大規模、高質量的Minecraft視頻數據,數據中包含精確的鍵盤與鼠標控制信號,支持可控性學習。
另一方面進行程序化模擬(Unreal Procedural Simulation),基于Unreal Engine手動構建結構清晰、標簽精確的模擬交互場景,提供位置信息、動作標簽(離散與連續)、以及環境反饋信號(如方塊是否成功破壞),生成高精度、無噪聲的可控標注數據,以此完成高保真動作-響應建模。
Matrix-Game主模型
主模型核心框架基于擴散模型。包含圖像到世界建模、自回歸式視頻生成、可控交互設計幾個部分。
首先,圖像到世界建模(Image-to-World Modeling)以單張圖像作為生成交互式視頻起點,融入用戶動作輸入(如鍵盤、鼠標),通過類似Flux與HunyuanVideo的多模態擴散模型直接生成虛擬游戲世界的視頻內容。
過程中不依賴語言提示,僅基于視覺信號建模空間幾何、物體運動及其物理交互。
然后通過自回歸式視頻生成(Autoregressive Diffusion Generation),持續生成高一致性長視頻內容。
每次生成以前一視頻片段的最后k=5幀作為運動上下文,逐段遞進生成,確保時間上的連貫性。
為緩解時序漂移和誤差累積,訓練中以一定概率針對參考圖像與運動上下文引入隨機擾動、隨機刪除以及分類引導(CFG)策略。
訓練中采用可控交互設計(Injecting Actions for Controllability),鍵盤動作以離散token表達,視角移動動作則以連續token表達。
采用GameFactory的控制模塊,并融入多模態Diffusion Transformer架構,同時使用CFG技術提升對控制信號的魯棒響應能力。
GameWorld Score測評體系
為了系統性評估和比較交互式世界生成模型的性能,Matrix-Game提出了一套統一評測框架。
該評測體系首次實現了感知質量+控制能力+物理合理性的全方位衡量。
核心評估維度有四方面:
- 視覺質量(Visual Quality):評估每一幀圖像的清晰度、結構一致性與真實感。依據人類視覺系統(HVS)標準衡量每一幀圖像生成效果。
- 時間一致性(Temporal Quality):衡量模型生成視頻的動態連貫性,包括運動連續性、節奏平滑性與時間穩定性。
- 交互可控性(Action Controllability):評估生成結果是否準確響應用戶輸入的控制信號,涵蓋離散控制(如前進、跳躍)和連續控制(如視角轉換)。
- 物理規則理解(Physical Rule Understanding):測試生成視頻是否遵循物理常識與空間一致性。
8大Minecraft場景中全面領先
結果顯示,在GameWorld Score評測系統中,Matrix-Game全面超越現有開源基線模型Decart的Oasis與微軟的MineWorld,在視覺質量、時間一致性、動作可控性與物理規則理解四大維度上均取得領先成績。
在雙盲實驗中,用戶也更傾向于選擇Matrix-Game生成的視頻,總體偏好率達到96.3%,細分維度上的偏好也都超過89%,尤其是視覺質量上,偏好率達到了98.23%。
在“運動”、“攻擊”等動作上,Matrix-Game可實現90%+準確率,而且在細粒度視角控制下依然保持高精度響應。
在8大典型Minecraft場景中全面領先。
在實際應用方面,Matrix-Game可以在虛擬游戲世界快速搭建、影視與元宇宙內容生產、具身智能體訓練和數據生成上發揮作用。
能夠更低成本、更高效率生成高保真、物理一致且可交互的虛擬視頻內容或虛擬環境。
空間智能正在重塑虛擬世界
隨著大模型應用落地趨勢開啟,在前沿領域,AI正在從2D世界向3D世界滲透。
李飛飛官宣創業World Labs,更是讓空間智能成為當下熱議方向。
如今,只憑一張圖生成以假亂真的3D世界,已經成為現實。
今年2月,昆侖萬維推出了Matrix-Zero世界模型,成為中國第一家同時推出3D場景生成、可交互視頻生成模型的企業。由此也開啟了昆侖萬維在世界模型Matrix系列上的探索以及在空間智能領域的深度布局。
國內外,大廠巨頭們也紛紛押注3D AIGC,如谷歌DeepMind、騰訊等也一直在該領域進行前沿布局。
為啥都看好空間智能?
一方面是技術演進邏輯使然:從單模態到多模態、從2D到3D,技術總是朝著“更能傳遞豐富信息”的方向演進。
另一方面在于,現階段技術也為向3D領域探索做好了一定基礎準備,從算法、數據到算力,都展現出了處理3D內容生成的潛力。比如世界模型、3D數字資產生成等……現在可以進行前沿探索了。
再從行業需求來看,影視制作、游戲場景開發、具身智能等領域,都已經浮現出對3D AIGC的需求。近期大火的智能體,也能在虛擬3D世界中進行訓練和迭代。
一定程度上,3D AIGC、世界模型可以為人類提供了一種全新的交互體驗。
所以也就不難理解李飛飛為何在這一領域創業,硅谷巨頭也積極入局,這是對下一代AI、下一個“大模型”的押注。
如此趨勢,在國內亦是如此。
更懂AI的人,已經火速奔赴下一個戰場搶占先機了。
而這一次,站在最前面的是Matrix-Game及其背后的昆侖萬維,它們讓世界不再只是被觀看,而是被探索、被創造。
Github:https://github.com/SkyworkAI/Matrix-Game
Huggingface model:https://huggingface.co/Skywork/Matrix-Game
Homepage:https://matrix-game-homepage.github.io
技術報告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf