撰稿丨今日晴
出品 | 51CTO技術棧(微信號:blog51cto)
當下,生成式AI的高速發展讓人們已經逐漸習慣了各種可以生成文本、圖像、音頻乃至視頻的AI工具。
而最近谷歌DeepMind推出的Genie模型則實現了一種完全不同的功能,它能將圖像轉化為“可交互、可玩的環境”。
DeepMind在Genie項目的公告頁面上展示了許多從靜態起始圖像生成的簡單平臺風格游戲樣本GIF,這些起始圖像包括兒童的草圖、真實世界的照片等,甚至通過ImageGen2處理過的文本提示也能生成游戲的GIF示例。
圖片
1.基礎世界模型
Genie提供了一種生成式AI的新范式。Genie 能夠接受其從未見過的圖像提示,從而讓人們能夠與其想象中的虛擬世界互動,實質上扮演了基礎世界模型的角色。
雖然 Genie 的輸出乍一看與基本 2D 游戲引擎的輸出相似,但該模型實際上并不像人類游戲開發人員那樣繪制精靈并編寫可玩的平臺游戲。相反,系統將其起始圖像(或多個圖像)視為視頻中的幀,并在接收到特定輸入時生成對整個下一幀(或多個幀)應該是什么樣子的最佳猜測。
Genie在訓練過程中沒有使用任何動作標簽,而是從大量公開可用的互聯網視頻數據集訓練而來的。
通過這種方法,Genie模型能夠在觀察到有限的靜態視覺信息或文本描述后,基于大量訓練數據中學習到的游戲規則和動態規律,推斷并生成連續的、具有互動性的游戲環境。
這意味著用戶上傳一張簡單的圖畫或一段描述,Genie就能夠嘗試構建出一個與之相關的、可供玩家探索和交互的虛擬游戲場景。
2.無需動作標簽的學習
Genie 的獨特之處在于它能夠專門從互聯網視頻中學習細粒度的控制。這是一個挑戰,因為互聯網視頻通常沒有關于正在執行哪個動作,甚至應該控制圖像的哪一部分的標簽。值得注意的是,Genie 不僅了解觀察的哪些部分通常是可控的,而且還推斷出在生成的環境中一致的各種潛在動作。
為了建立這個模型,Genie 從 200000 小時的公共互聯網游戲視頻開始,從“數百個 2D 游戲”中篩選出 30000 小時的標準化視頻。然后,這些視頻中的各個幀被標記為一個包含 2 億個參數的模型,機器學習算法可以輕松使用該模型。
從這里開始,系統生成了一個“潛在動作模型”來預測哪種交互“動作”(即按下按鈕)可以切實且一致地生成所有這些令牌中看到的逐幀變化。建立潛在動作模型后,Genie 會生成一個“動態模型”,該模型可以采用任意數量的任意幀和潛在動作,并在給定任何潛在輸入的情況下生成關于下一幀應該是什么樣子的有根據的猜測。最終模型在 9420 億個令牌上訓練了 107 億個參數,盡管 Genie 的結果表明更大的模型會產生更好的結果。
之前使用生成式人工智能生成類似交互模型的工作依賴于使用“真實動作標簽”或訓練數據的文本描述來幫助指導他們的機器學習算法。Genie 與這項工作的區別在于它能夠“在沒有動作或文本注釋的情況下進行訓練”,只使用標記化視頻幀的幾個小時來推斷視頻背后的潛在動作。
Genie 團隊在其研究論文中寫道:“泛化到如此顯著的[離分布]輸入的能力突顯了我們方法的穩健性以及大規模數據訓練的價值,而如果采用真實的動作作為輸入,則這樣的訓練方式在可行性上將受到極大挑戰。”
學會控制
草圖生成
圖片
手臂運動
3.不得不提的重大限制
在你對僅憑粗略的草圖就可以生成無盡的平臺游戲感到興奮之前,需要記住一些重要的限制。
最重要的是,該系統目前僅以每秒一幀的速度運行,這比實時播放的內容至少慢 20 到 30 倍。在幾幀上顯示更流暢動畫的示例 GIF 只是將一系列幀拼接在一起,而這些幀需要花費一分鐘的時間才能實時生成。
Genie團隊承認,其系統也會像其他AI模型那樣“產生不切實際的未來預測”。這一點在他們分享的一些示例GIF動畫中表現得尤為明顯。例如,在其中一個演示中,原本并行飛行的兩只鳥突然合并成一個實體,這是違背物理規律的現象;而在另一個例子中,角色在完成簡單跳躍動作后,并未遵循重力下落,而是開始漂浮起來。
這些現象表明,盡管Genie能夠基于已有的游戲素材創造動態情境,但受限于其學習和理解真實世界規則的能力,它在某些情況下生成的結果可能出現邏輯上的不一致性和不真實性。
此外,你可能也注意到,Genie團隊迄今為止公開展示的樣本僅顯示了少數幾個(有時非常模糊)的動作幀,然后就會回到起點循環播放。這很可能是因為當前系統僅限于分析最多“16幀內存”,團隊表示,這“使得在較長時間范圍內獲取一致的環境變得具有挑戰性”。
換句話說,由于系統的內存限制,Genie目前生成的互動環境在超過16幀后可能會出現重復或不連貫的情況,因此無法展現出更長連續的游戲場景。
4.邁向“世界模型”的一步
盡管目前的 Genie 擁有許多的不足,但 Genie 的能力不應該被低估,尤其是它對通向“世界模型的意義”。
自Sora的出現之后,人們更加關注與好奇AI何時能從物理層面上模擬和理解環境的運作規律。Meta首席科學家LeCun堅持認為,Sora走不通“世界模型”,無論生成多么逼真的視頻,都不意味著Sora理解了物理世界。
但Genie則不同,僅從一個靜態圖像開始,Genie 似乎能夠區分玩家角色和游戲背景,因此它能了解觀察對象的哪些部分通常是可控的,還能推斷出在生成環境中一致的各種潛在動作。對于沒有任何人工指導或動作標記幫助來解釋視頻訓練數據的模型來說,這是一項重大的突破。
Genie 團隊提到,研究人員希望這項技術可以用于“為機器人技術創建一個基礎世界模型,并具有可用于各種應用的低級可控模擬”??梢?,Genie技術+具身智能可能會爆發出無限的想象力。
DeepMind 的研究人員已經在展望這種強大的世界模型能力對整個人工智能領域意味著什么。DeepMind 研究科學家 Jack Parker-Holder 在X上興奮地表示道,Genie 代表著“有了一條可行的路徑來生成訓練AGI所需的豐富多樣性環境。”
圖片
DeepMind 的 Richard Song補充說,Genie 可能會導致研究人員需要生成“訓練通用(強化學習)智能體所需的大量多樣化視頻游戲環境”所需的“無限生成器”。
該項目也開始在谷歌之外引起轟動。Nvidia AI 研究員 Jim Fan 指出,Genie在某種程度上改進了OpenAI 的 Sora 視頻模型,因為它“實際上是一個具有推斷動作的正確的動作驅動的世界模型”。
無論這些預測是否成功,該項目在那些近距離觀察過它的人中所產生的興奮感都難以忽視?!爱斘铱吹竭@個項目時,我的反應是‘哦,這是我最近見過的最酷的項目,超級令人興奮!‘’” DeepMind 的 Lucas Beyer寫道。
圖片
5.寫在最后
現代認知科學認為,人類會在頭腦中構建關于周圍真實世界的抽象模型,即我們通常所說的“世界模型”。關于“世界模型”的問題一直是人工智能研究的焦點。然而,大模型究竟能對世界有多深的理解,引發了兩極分化的激烈爭論。
自Sora的出現之后,人們更加關注與好奇AI何時能從物理層面上模擬和理解環境的運作規律。Meta首席科學家LeCun堅持認為,Sora走不通“世界模型”,無論生成多么逼真的視頻,都不意味著Sora理解了物理世界。
現在Genie誕生了。如果說Sora可以顛覆好萊塢,那么Genie讓我們看到了AI正面交鋒暴雪和任天堂的可能。
Tik Tok通過算法推薦內容成為了上個時代的王者。未來將至,今后的內容產和消費會是一個完全由AI掌控的時代嗎?