無需游戲引擎,大模型實(shí)時(shí)生成“我的世界”,每秒20幀零延遲可交互,已開源
現(xiàn)在,一個(gè)大模型就能直接拿來當(dāng)游戲,還是開放世界的那種!
可以直接根據(jù)玩家操作預(yù)測(cè)下一幀,連游戲引擎都省了。
這個(gè)怎么看都像是《我的世界》的界面,就是這款游戲Oasis本尊了。
雖然看著像,但兩者驅(qū)動(dòng)方式完全不同,Oasis的圖像不是來自渲染,而是AI實(shí)時(shí)繪制。
Oasis會(huì)根據(jù)你的鍵盤輸入生成新的幀,每次游戲都能探索不同的地圖。
像這樣的可交互世界模型,一個(gè)模型就是一個(gè)游戲,每秒20幀零延遲的生成效率,也讓不少人都投來了驚訝的目光。
FlashAttention作者Tri Dao也感嘆說,很快模型推理成本就會(huì)降低,很多娛樂內(nèi)容將會(huì)變成AI生成。
目前Oasis的代碼和500M參數(shù)的模型權(quán)重已經(jīng)開源,作者同時(shí)也放出了在線體驗(yàn)版本。
無需游戲引擎,大模型即是游戲
在Oasis之前,已經(jīng)有人用類似的技術(shù),開發(fā)出了基于大模型的fps射擊游戲。
現(xiàn)在,Oasis直接把科技樹點(diǎn)到了開放世界游戲當(dāng)中。
Oasis在線版本提供了多種地圖風(fēng)格可供選擇,需要排隊(duì)體驗(yàn),不過時(shí)間不長(zhǎng),排到一次可以玩五分鐘。
進(jìn)入之后會(huì)顯示游戲畫面、操作說明和剩余的體驗(yàn)時(shí)間。
根據(jù)前面選擇的地圖風(fēng)格,游戲中的AI引擎可以實(shí)時(shí)生成各種各樣的畫面。
而且模型也包含了一些對(duì)現(xiàn)實(shí)世界的理解,比如在繪制時(shí)能夠理解并遵循光照等物理規(guī)律。
生命值、饑餓度這樣一般游戲中具有的復(fù)雜機(jī)制也都有,可以通過食物來獲得體力。
而且游戲世界也并不空洞,角色的設(shè)定方面,Oasis中安排了大量的動(dòng)物和NPC。
但是……為什么都擠成一團(tuán)啊?
當(dāng)然這些動(dòng)物也不只是貼圖,你可以像《我的世界》種一樣和動(dòng)物進(jìn)行交互。
時(shí)間用完或者手動(dòng)結(jié)束后,還會(huì)有游戲全過程的視頻記錄,可以選擇下載保存。
不過,Oasis的畫面質(zhì)量也確實(shí)還有很大的進(jìn)步空間,還有人吐槽一致性問題,只要轉(zhuǎn)一個(gè)圈看到的東西就全變了。
但至少勝在響應(yīng)速度快,也算是為以后的實(shí)時(shí)AI畫面生成打了個(gè)樣。
那么,Oasis的研發(fā)團(tuán)隊(duì)都運(yùn)用了些什么技術(shù)呢?
生成一幀只要47毫秒
Oasis由位于美國加州的初創(chuàng)公司Decart打造,該公司成立于2023年。
為了讓研發(fā)的模型能夠高效工作,Decart選擇了和一家叫做Etched的芯片初創(chuàng)公司合作研發(fā)。
Etched由哈佛輟學(xué)生Gavin Uberti在2022年創(chuàng)建,并于今年獲得了1.2億美元的A輪融資。
今年六月,Etched研發(fā)出了專用于Transformer的4nm AI芯片Sohu,號(hào)稱一張能頂20張A100。
按照宣傳,Sohu運(yùn)行700億參數(shù)的Llama 3,每秒吞吐量可達(dá)50萬tokens,相當(dāng)于1秒就能生成21個(gè)人一天說的所有話。
當(dāng)然,Sohu擁有高速度的代價(jià)之一就是只能用來跑Transformer,其他的CNN、RNN等神經(jīng)網(wǎng)絡(luò)通通運(yùn)行不了。
所以,為了能夠利用Sohu的速度優(yōu)勢(shì),Decart團(tuán)隊(duì)為Oasis選定了Transformer作為基礎(chǔ)架構(gòu)。
具體來說,Oasis所用的模型由空間自動(dòng)編碼器和潛在擴(kuò)散主干兩部分組成。
兩者都基于Transformer構(gòu)建,其中自動(dòng)編碼器為ViT(Vision Transformer)架構(gòu) ,主干網(wǎng)則運(yùn)用了很多視頻生成模型(包括Sora)都在用的DiT(Diffusion Transformer)。
Decart還對(duì)Transformer架構(gòu)進(jìn)行了修改,在空間注意層之間穿插了額外的時(shí)間注意層,以便提供來自先前幀的上下文。
另外不同于Sora等雙向模型的是,Oasis生成幀的過程是自回歸的,因此能夠根據(jù)游戲輸入對(duì)后續(xù)幀進(jìn)行調(diào)節(jié),使得用戶能夠與世界實(shí)時(shí)交互。
Decart介紹,如果用H100來跑Oasis,在360P的畫質(zhì)下能夠達(dá)到每秒20幀,而用Sohu的話相同幀率下的畫質(zhì)可以達(dá)到4K。
實(shí)際運(yùn)行下來團(tuán)隊(duì)發(fā)現(xiàn),Oasis生成一幀畫面只需47毫秒。
當(dāng)然除了速度之外,對(duì)于Oasis這樣的游戲場(chǎng)景來說,保持時(shí)間穩(wěn)定性也是一項(xiàng)重要工作。
但是在自回歸模型中,錯(cuò)誤會(huì)發(fā)生疊加,即使很小的缺陷也有可能形成雪球效應(yīng)。
為了解決這個(gè)問題,Decart團(tuán)隊(duì)引入了動(dòng)態(tài)噪聲。
動(dòng)態(tài)噪聲機(jī)制會(huì)在第一個(gè)擴(kuò)散前向傳遞中注入噪聲以減少誤差累積,并在后面的傳遞中逐漸消除,這樣模型就可以找到并保留高頻細(xì)節(jié)。
未來,Decart團(tuán)隊(duì)將針對(duì)部分遠(yuǎn)處物體出現(xiàn)模糊、不確定對(duì)象的時(shí)間一致性等問題進(jìn)行研究,逐步提升Oasis的游戲體驗(yàn)。
官方介紹:https://oasis-model.github.io/。
DEMO:https://oasis.decart.ai/welcome。
代碼:https://github.com/etched-ai/open-oasis。
模型權(quán)重:https://huggingface.co/Etched/oasis-500m。