微軟Muse秒生游戲登Nature,10億級畫面練出最強AI!千億游戲市場重洗牌
同一天,微軟放出兩個核彈,首個拓撲量子芯片,還有首個世界與人類行動模型。
AI離數秒生成游戲視頻的未來,又近了一步。
今天,微軟團隊首次引入了「世界與人類行動模型」(WHAM),并冠以希臘藝術女神「繆斯」(Muse)之名。
它可以生成游戲視覺效果、控制器動作,甚至可以全都要。最新研究登上Nature期刊。
論文地址:https://www.nature.com/articles/s41586-025-08600-3
在相同的10幀(1秒)真實游戲玩法的條件下,Muse生成了行為和視覺多樣性的樣例。
同時,這也是首個基于Ninja Theory的多人對戰游戲Bleeding Edge,超10億張畫面訓練的GenAI模型。從單個V100集群,成功scaling到多達100個GPU上完成訓練。
Muse AI強大核心在于,對3D游戲世界的深度理解。
它不僅僅是一個簡單視頻生成工具,而是能夠精準模擬游戲中物理規則、玩家行為。
比如,當玩家按下手柄某個按鍵時,Muse AI可以預測游戲世界動態變化,并生成與之匹配的連貫畫面。
傳統上,游戲開發需要數月甚至數年,進行角色設計、動畫制作和游戲測試。而如今,Muse能夠將這一周期從幾個月縮短至幾分鐘。
對于游戲開發者來說,它的出現無疑是一場革命,是顛覆千億游戲產業革命的存在。
就連馬斯克在AI游戲上押下重注,據稱其創辦AI游戲工作室即將要官宣。
AI重塑游戲開發,全球30億玩家狂歡
Muse AI誕生之前,還有這么一段精彩的故事。
2022年12月,微軟研究院游戲智能團隊的負責人Katja Hofmann剛剛結束產假,回到工作崗位。
她忽然發現,在自己休假這段時間里,機器學習領域發生了翻天覆地的變化——
OpenAI發布ChatGPT,這一基于Transformer架構的生成模型,展示出令人驚嘆的能力,尤其是在處理大量文本數據時。
這一突破,讓Hofmann開始思考,生成式AI的崛起,對于AI與視頻游戲的交叉領域意味著什么?
他們發現,盡管GenAI展現出巨大的潛力,但多項研究表明,其能力往往達不到創意人員的期望值。
特別是,在3D游戲開發這種高難度復雜領域,LLM的應用還面臨著諸多的挑戰。
眾所周知,3D游戲開發是一個需要多樣化創意技能的過程,會涉及到角色設計、場景構建、劇情編寫、互動機制等多個方面。
在Hofmann看來,豐富且多樣化的游戲玩法數據,為進一步創新提供了關鍵數據。
這種時間相關、多模態的數據能夠探索日益復雜的任務,從而生成更高質量3D世界、與NPC互動和游戲機制。
更重要的是,游戲產業作為全球娛樂產業最大領域,已經覆蓋了超30億人口。
GenAI的出現,為世界游戲玩家們,甚至游戲工作室提供了一個絕佳的機會。
那么,微軟團隊是如何打造出Muse AI?
Xbox真人實戰,超10億張圖像
微軟的游戲智能團隊,擁有非常不同的數據來源。
多年來,研究團隊與Xbox游戲工作室的Ninja Theory(與游戲智能研究團隊一樣,位于英國劍橋)合作,收集2020年發布的Xbox游戲《Bleeding Edge》的游戲數據。
《Bleeding Edge》是一款4對4的在線游戲。經玩家同意EULA后,比賽會被記錄下來。
研究團隊與Ninja Theory的同事以及微軟合規團隊密切合作,確保數據的收集符合道德規范,并且僅用于研究目的。
Bleeding Edge部分游戲角色
Ninja Theory的技術總監Gavin Costello,見證了相關研究,感到非常高興:
在黑客馬拉松中,首次將AI集成到《Bleeding Edge》中,而這只是開始:此后,從構建行為更像人類玩家的AI智能體,再到世界和人類行為(WHAM)模型在人類指導下,能夠構想出全新的《Bleeding Edge》玩法。
能見證這項技術的潛力,讓人大開眼界。
Muse訓練數據
當前的Muse模型是在Xbox游戲《Bleeding Edge》的人類游戲玩法數據(視覺和控制器操作)上訓練的。
下圖左顯示的是訓練當前模型的300×180像素分辨率。在超過10億張圖像和控制器操作上,Muse(使用WHAM-1.6B)已經進行了訓練,相當于人類連續玩7年多游戲。
下圖右是相關研究團隊,一起體驗《Bleeding Edge》游戲。
直到2022年底,游戲智能團隊一直將《Bleeding Edge》視為類人導航(human-like navigation)實驗平臺,還沒有真正利用手中大量的人類玩家數據。
在文本模型的啟發下,研究團隊開始思考:「如果我們使用基于transformer的模型來訓練這些海量的游戲數據,我們能夠取得什么樣的成果?」
擴大模型訓練
隨著團隊開始深入研究,面臨的一個關鍵難題是如何擴大模型訓練的規模。
最初,使用了一個V100集群,并成功驗證了如何擴展到在多達100個GPU上進行訓練。這為后續在H100上進行更大規模訓練奠定了基礎。在項目初期,做出了一些關鍵的設計決策,主要是關于如何充分利用大語言模型(LLM)社區的見解,包括如何有效地表示控制器操作和圖像。
擴大訓練規模努力的第一個成果是一個令人印象深刻的演示。
當時Game Intelligence的研究員Tim Pearce整理了一些訓練初期與后期的對比示例??粗@些演示,就像看著模型學習一樣。
這為后續展示這些模型中如何出現縮放法則奠定了基礎。
Muse訓練中的一致性
給模型的提示是:輸入1秒的人類游戲玩法(視覺和控制器操作)和9秒的真實控制器操作。
在這種設定下,Muse如果能夠生成與真實情況非常接近的視覺圖像,那么它已經捕捉到了游戲動態。
隨著訓練的進行,觀察到生成的視覺圖像質量明顯提高。
在早期訓練(10k訓練更新)中,看到了初步的成果,但質量迅速下降。
在100k訓練更新后,模型在時間上保持一致,但尚未捕捉到游戲動態中相對不常見的場景,如飛行機制。
隨著額外訓練的進行,與真實情況的一致性繼續提高。例如,在1M訓練更新后,模型學懂了飛行機制。
真實的人類游戲玩法(左)與Muse生成的視覺圖像(使用WHAM-206M)的比較
跨學科合作:一開始就讓用戶參與
很早以前,研究團隊就開始探索評估這類模型,比如下列3個項目:
- 研究實習生Gunshi Gupta和高級研究科學家Sergio Valcarcel Macua,推動了對線性探測學習到的表征的理解。
- 高級研究科學家Raluca Georgescu,負責探索了在線評估的方式。
- 研究實習生Tarun Gupta,主導了既有視覺特效又有動作的內容生成的研究。
但要系統地評估Muse,需要更廣泛的見解。更重要的是,需要了解人們如何使用這些模型,以便知道如何評估它們。
這就是跨學科研究變得至關重要的地方。
研究團隊已經與高級首席研究經理Cecily Morrison和Teachable AI Experiences團隊合作了幾個月,討論了這項工作的各個方面。
在Cecily、設計研究員Linda Wen和首席研究軟件工程師Martin Grayson推動下,團隊還與游戲創作者合作,調查在創意實踐中,游戲創作者希望如何使用GenAI。
Cecily說:「這是一個很好的機會,在早期階段就聯合起來,讓模型滿足創作者的需求,而不是試圖改造已經開發的技術?!?/span>
關于如何處理這項工作,Linda提供了一些寶貴見解:
我們已經看到技術驅動的AI創新如何顛覆創意產業——通常讓創作者措手不及,讓許多人感到被排斥。
之所以從一開始就邀請游戲創作者,共同塑造這項技術,這就是原因。
北半球主導了AI創新。認識到這一點,我們還優先考慮招募來自代表性不足的背景和地區的游戲創作者。我們的目標是創造一個惠及所有人的技術——不僅僅是那些已經處于特權地位的人。
WHAM Demonstrator解鎖新創意
現在,隨著模型逐漸顯現的能力和用戶的反饋,是時候將所有部分整合在一起了。
在微軟內部的黑客馬拉松中,不同團隊共同合作,探索Muse可以解鎖的新交互范式和創意應用場景。
最終,開發了一個原型,命名為WHAM Demonstrator,它允許用戶直接與模型進行交互。
Martin 說:「全球黑客馬拉松是一個完美的機會,大家齊聚一堂,構建了了第一個工作原型。我們希望為WHAM模型開發一個界面,這樣就能探索它的創意潛力,并開始測試從與游戲開發者的訪談中得到的想法和應用?!?/span>
為了與諸如Muse之類的AI模型進行互動,WHAM Demonstrator提供了與WHAM實例互動的視覺接口。
用戶可以探索新玩法,并進行調整,例如使用游戲控制器來控制角色。這些功能展示了 Muse 的能力如何在創作過程中支持迭代和調整,幫助用戶不斷優化和完善游戲體驗。
模型架構與評估
使用WHAM演示器親身體驗Muse的能力,并從用戶研究中獲得見解,研究團隊系統地確定了在使用像Muse這類生成模型時,游戲創作者所需的關鍵能力:一致性、多樣性和持久性。
- 一致性:指的是模型生成游戲玩法時,能夠尊重游戲的動態特性。例如,角色的移動與控制器操作一致,不會穿過墻壁,通常反映了游戲底層的物理特性。
- 多樣性:指的是模型在給定相同的初始提示時,能夠生成多種游戲玩法變體的能力。
- 持久性:指的是模型能夠將用戶修改(或「持久」)整合到生成的游戲玩法中的能力,例如將一個角色復制粘貼到游戲中。
模型架構設計
建模設計反映了識別出的模型能力,如下圖所示。
- 一致性:一個順序模型,能夠準確捕捉游戲視覺和控制器操作之間依賴關系。
- 多樣性:能夠生成數據并保留視覺和控制器操作序列條件分布。
- 持久性:基于(修改過的)圖像和/或控制器操作,通用條件化的預測模型得以實現。
在全部三個能力中,選擇提供可擴展性的組件,這意味著模型應該從大量訓練數據和計算資源中受益。
WHAM設計如圖所示,它建立在transformer架構上,作為其序列預測骨干。
新方法的關鍵在于將數據框定為離散token序列。
為了將圖像編碼為令牌序列,使用VQGAN圖像編碼器。用于編碼每張圖像的令牌數量是一個關鍵的超參數,它在預測圖像的質量、生成速度和上下文長度之間進行權衡。
對于Xbox控制器操作,盡管按鈕天生是離散的,將左和右搖桿的x和y坐標離散化為11個桶。然后訓練一個僅解碼Transformer來預測交織的圖像和控制器操作序列中的下一個token。
然后,該模型可以通過自回歸采樣下一個token來生成新序列。
還可以在生成過程中修改令牌,允許對圖像和/或操作進行修改。也就是說控制器操作或直接編輯圖像本身,可以控制(或提示)生成的能力,這評估持久性的先決條件。
WHAM架構概覽
一致性
通過使用真實的游戲玩法和控制器動作來提示模型,并讓模型生成游戲視覺效果來評估一致性。此處展示的視頻是使用Muse(基于 WHAM-1.6B)生成的,展示了模型生成長達兩分鐘的一致游戲玩法序列的能力。
在論文中,還使用FVD(Fréchet Video Distance,視頻生成社區中一個既定的指標)將生成的視覺效果與真實的視覺效果進行了比較。
多樣性
在總共102,400個動作(1,024 條軌跡,每條軌跡100個動作)中,對10,000個人類和模型動作進行子采樣,并計算它們之間的距離。
重復此過程十次,并繪制平均值 ± 1個標準差。越接近人與人之間的基線越好。均勻隨機動作的距離為5.3。所有模型都通過訓練得到改進,并且可以通過增加動作損失的權重來進一步改進。
圖a:三種WHAM變體的多樣性,通過與人類動作的Wasserstein距離來衡量。
在下圖b中,看到行為多樣性(玩家角色在生成位置附近盤旋與直接前往 Jumppad)和視覺多樣性(玩家角色安裝的懸浮滑板具有不同的皮膚)的示例。
圖b:使用相同起始上下文生成的1.6B WHAM的三個生成示例。
持久性
下列視頻展示了Muse(基于WHAM-1.6B)如何保持修改的一些示例。
首先,取自原始游戲數據的一張視覺圖像,然后將另一個角色的圖像編輯到這張圖像中。
生成的游戲序列展示了該角色是如何被融入到生成的游戲序列中的。
開源資源
與此同時,為了幫助其他研究人員,研究團隊決定將開源 Muse 的權重、樣本數據,并提供WHAM Demonstrator可執行文件——這是一個概念原型,提供了一個可視化界面,用于與 WHAM 模型進行交互,并支持多種方式的模型提示。
項目鏈接:https://huggingface.co/microsoft/wham
像Muse這樣的模型,能夠學習到的游戲世界的豐富結構,更重要的是,新研究還展示了如何通過研究洞察來支持生成性AI模型在創意領域的應用。