微軟發(fā)布創(chuàng)新大模型:一張圖片就能生成游戲,游戲界ChatGPT來了
微軟在官網(wǎng)發(fā)布了專用于游戲領(lǐng)域的創(chuàng)新大模型——Muse。
雖然Muse基于Transformer架構(gòu),但創(chuàng)建游戲場(chǎng)景的方式卻非常獨(dú)特,并不依賴傳統(tǒng)的文本提示,而是通過游戲畫面和控制器操作的序列化數(shù)據(jù)作為輸入提示,從而生成連貫的游戲場(chǎng)景和玩法,同時(shí)更符合游戲機(jī)制和物理規(guī)則的游戲內(nèi)容。
例如,僅通過一張游戲截圖,Muse 就能迅速生成多個(gè)可能的后續(xù)游戲畫面,并通過 Xbox 手柄控制角色生成與開發(fā)者操作相匹配的后續(xù)游戲內(nèi)容,游戲開發(fā)效率非常高。
游戲開發(fā)是一個(gè)高度復(fù)雜的過程,涉及創(chuàng)意構(gòu)思、角色設(shè)計(jì)、場(chǎng)景搭建、玩法策劃等多個(gè)環(huán)節(jié),需要眾多專業(yè)人員協(xié)同合作。
以一個(gè)小型獨(dú)立游戲工作室開發(fā)新游戲關(guān)卡為例,CEO 提出新角色概念后,角色開發(fā)人員需花費(fèi)數(shù)天甚至數(shù)周時(shí)間繪制概念草圖并反復(fù)修改,隨后3D模型師進(jìn)行建模,動(dòng)畫師負(fù)責(zé)角色動(dòng)畫制作,程序員編寫角色行為代碼,最后由關(guān)卡設(shè)計(jì)師與環(huán)境師共同打造適配的關(guān)卡。
整個(gè)流程繁瑣復(fù)雜,且需要大量的創(chuàng)意投入和時(shí)間成本?,F(xiàn)在,通過Muse可以輕松完成這些復(fù)雜的開發(fā)流程。
Muse架構(gòu)簡(jiǎn)單介紹
Muse與ChatGPT一樣使用了著名的Transformer作為核心架構(gòu)。為了將游戲畫面和玩家操作轉(zhuǎn)化為模型能夠處理的序列化數(shù)據(jù),還引入了VQGAN圖像編碼器。
VQGAN的作用是將游戲畫面中的每一幀圖像編碼為一系列離散的tokens,不僅保留了原始圖像的關(guān)鍵信息,還能夠被Transformer模型高效處理。
每個(gè)游戲畫面被編碼為540個(gè)離散tokens,這些標(biāo)記構(gòu)成了模型輸入的一部分,幫助模型能夠在生成過程中靈活地處理圖像數(shù)據(jù),同時(shí)保持對(duì)游戲畫面細(xì)節(jié)的高保真度。
玩家的操作也被離散化處理,以適配模型的輸入格式。玩家控制器的按鈕操作被直接編碼為離散值,而搖桿的連續(xù)操作則被劃分為11個(gè)離散區(qū)間。
在訓(xùn)練過程中,Muse利用了大規(guī)模的計(jì)算資源和優(yōu)化策略,例如,1.6B參數(shù)的Muse模型在訓(xùn)練時(shí)使用了高達(dá)1×1022算力,使得模型能夠在復(fù)雜的3D游戲環(huán)境中學(xué)習(xí)到更精細(xì)的動(dòng)態(tài)關(guān)系,從而生成更加真實(shí)和連貫的游戲玩法序列。
為了進(jìn)一步提升模型的性能,微軟還在訓(xùn)練過程中采用了AdamW優(yōu)化器,并結(jié)合了余弦退火學(xué)習(xí)率策略,在訓(xùn)練過程中動(dòng)態(tài)調(diào)整學(xué)習(xí)率,從而提高模型的收斂速度和最終性能。模型還采用了批量歸一化和權(quán)重衰減等技術(shù),以防止過擬合并提高模型的泛化能力。
高質(zhì)量訓(xùn)練數(shù)據(jù)
為了提升Muse模型的生成性能,微軟與Ninja Theory工作室合作獲取了《Bleeding Edge》的大量真實(shí)玩家游戲數(shù)據(jù)。
為了收集訓(xùn)練數(shù)據(jù),微軟從游戲中提取了超過50萬場(chǎng)玩家的游戲會(huì)話,涵蓋了各種游戲場(chǎng)景、角色行為和玩家操作。同時(shí)對(duì)這些數(shù)據(jù)經(jīng)過清洗和匿名化處理,以確保玩家隱私和數(shù)據(jù)安全。
游戲畫面的圖像幀被提取為300×180像素的分辨率,以確保模型能夠捕捉到足夠的細(xì)節(jié);控制器操作則被離散化處理,包括按鈕操作和搖桿的移動(dòng)方向。這些數(shù)據(jù)被整合為時(shí)間序列,每個(gè)序列包含10幀圖像和對(duì)應(yīng)的控制器操作,形成了模型的輸入和輸出對(duì)。
最終,從這些數(shù)據(jù)中提煉出了兩個(gè)數(shù)據(jù)集:7 Maps和 Skygarden 數(shù)據(jù)集。7 Maps 數(shù)據(jù)集包含 60,986 場(chǎng)比賽,約500,000個(gè)玩家軌跡,數(shù)據(jù)總量達(dá)到27T,相當(dāng)于7年多的游戲時(shí)間。
經(jīng)過下采樣到10Hz后,約有 14 億幀數(shù)據(jù),并按照80:10:10 的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。Skygarden 數(shù)據(jù)集則聚焦于單個(gè)地圖,包含 66,709 個(gè)玩家軌跡,約 3.1 億幀數(shù)據(jù),同樣進(jìn)行了80:10:10 的劃分和10Hz下采樣處理。
Muse測(cè)試數(shù)據(jù)
為了測(cè)試Muse的性能,微軟使用了連貫性、多樣性和持續(xù)性三種測(cè)試基準(zhǔn)進(jìn)行了綜合評(píng)估。
在連貫性測(cè)試中,團(tuán)隊(duì)使用了FVD指標(biāo)來衡量生成游戲畫面與真實(shí)游戲畫面之間的相似度。結(jié)果顯示,隨著模型規(guī)模的增大和計(jì)算資源的增加,F(xiàn)VD指標(biāo)顯著降低,表明生成的游戲畫面與真實(shí)畫面之間的差異越來越小。
例如,1.6B參數(shù)的MUSE模型在高分辨率圖像上的表現(xiàn)尤為出色,能夠生成長(zhǎng)達(dá)2分鐘的連貫游戲畫面。
在多樣性測(cè)試中,團(tuán)隊(duì)使用了Wasserstein距離來衡量生成動(dòng)作與真實(shí)人類動(dòng)作之間的分布差異。測(cè)試結(jié)果表明,MUSE模型能夠生成多種不同的游戲玩法,且生成的動(dòng)作分布與人類玩家的真實(shí)動(dòng)作分布高度一致。
此外,團(tuán)隊(duì)還通過定性分析展示了模型生成的多樣化行為,例如,玩家角色可以選擇不同的路徑、使用不同的技能,甚至在外觀上也存在差異。
持續(xù)性測(cè)試則通過在游戲畫面中插入新的元素,包括游戲角色、道具或地圖等元素,來評(píng)估模型是否能夠?qū)⑦@些修改融入后續(xù)生成的畫面中。
結(jié)果顯示,當(dāng)模型在生成過程中被提示包含這些修改后的畫面時(shí),能以超過85%持續(xù)生成包含這些元素的畫面。這表明MUSE模型能夠有效地支持創(chuàng)意人員的迭代創(chuàng)作過程。
微軟游戲研究負(fù)責(zé)人KatjaHofmann表示,研發(fā)Muse的主要原因是2022年11月OpenAI發(fā)布了ChatGPT。當(dāng)時(shí)意識(shí)到基于 Transformer 架構(gòu)的AI模型在大量數(shù)據(jù)訓(xùn)練下的巨大商業(yè)潛力,同時(shí)手中也有豐富的游戲數(shù)據(jù),于是想利用這些數(shù)據(jù)訓(xùn)練出更好的游戲模型。
目前,Muse模型可以在微軟的Azure AI Foundry上體驗(yàn)。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
