DeepMind閉關修煉「我的世界」,自學成才挖鉆登Nature!人類玩家瑟瑟發抖
AI又進化了,在沒有任何人類數據的參與下,自己玩《我的世界》還能找到鉆石!
在剛剛登上Nature的論文中,谷歌DeepMind的智能體通過純·自我學習,順利完成了收集鉆石的任務。
圖片
論文鏈接:https://www.nature.com/articles/s41586-025-08744-2
對此,DeepMind的計算機科學家Danijar Hafner表示:「Dreamer是一個重要的里程碑,標志著AI又朝著通用人工智能前進了一大步。」
又是AI和《我的世界》,為何這次就成了邁向AGI的一大步
用AI來挑戰《我的世界》早已是AI界「喜聞樂見」的項目了。
作為世界上排名第一且月活超過1億的游戲,《我的世界》可以說是涵蓋了幾乎所有年齡段的人群。
早在兩三年前,包括OpenAI在內的各個模型都有挑戰《我的世界》的嘗試。
圖片
更早在2019年,研究人員就認為《我的世界》的開放式游戲環境可能非常適合AI研究。
比如一個七歲的小孩在觀看了10分鐘演示視頻后就能學會如何在游戲中找到稀有的鉆石,而當年的AI還遠遠做不到這一點。
AI從《我的世界》中的一個隨機位置開始,必須完成某些任務來找到鉆石
為何這次DeepMind就敢說是「通向AGI的一大步」呢?
這次的任務——在游戲內尋找鉆石——聽起來容易,但其實非常困難,「高玩」們也要花20-30分鐘才能找到一個鉆石。
圖片
給不熟悉游戲的朋友解釋下這個任務為什么這么困難:
1. 每一次的游戲場景都是隨機世界,包含各種地形的虛擬 3D 世界,包括森林、山脈、沙漠和沼澤,這讓AI無法只記住一種特定策略來作弊;
2. 想要獲得鉆石需要經過一系列復雜的前置流程,并不是隨機在地圖尋找,比如你需要:
- 先找到樹木
- 然后將樹木分解為木材,木材也僅僅是用來制作一個工作臺
- 有了工作臺再加上更多的木材你才可以制作一個木頭鎬頭
- 然后才能開始挖掘以尋找鉆石
- ......
鉆石恒久遠,AI不疲倦
圖片
DeepMind的Dreamer AI在《我的世界》中進行了多次游戲學習如何收集鉆石
之前的嘗試讓AI系統收集鉆石依賴于使用人類游戲的視頻或研究人員引導系統完成各個步驟。
相比之下,Dreamer通過強化學習的試錯技術自行探索游戲的所有內容——它識別出可能帶來獎勵的動作,重復這些動作并放棄其他動作。
強化學習是一些重大AI進展的基礎,但之前的程序都是專家型的——它們無法從零開始在新領域應用知識。
成功的關鍵是構建「世界模型」
Dreamer成功的關鍵在于它構建了周圍環境的模型,并使用這個世界模型來「想象」未來的情景并指導決策。
圖片
就像我們自己的抽象思維一樣,世界模型并不是周圍環境的精確復制品。
世界模型允許Dreamer嘗試不同的事情,「世界模型真正賦予了人工智能系統想象未來的能力」Hafner 說。
這種能力還可能有助于創造能夠在現實世界中學習互動的機器人——在現實世界中,試錯的成本要比在視頻游戲中高得多。
研究團隊一開始并不是奔著「鉆石測試」去研究的,測試Dreamer在鉆石挑戰上的表現是一個事后的想法。
「在構建整個算法時并沒有考慮到這一點」,Hafner 說,但團隊意識到,這是測試其算法是否能夠開箱即用、處理不熟悉任務的理想方式。
在《我的世界》中,團隊使用了一種協議,每當Dreamer完成鉆石收集過程中涉及的12個逐步步驟之一時,就會獲得一個「+1」的獎勵——這些步驟包括制作木板和熔爐、開采鐵礦并鍛造鐵鎬。
這些中間獎勵促使 Dreamer 選擇了更有可能獲得鉆石的動作。團隊每 30 分鐘重置一次游戲,這樣Dreamer就不會適應某個特定的配置——而是學會了獲得更多獎勵的一般規則。
在這種設置下,Dreamer需要連續玩大約九天才能找到至少一顆鉆石。
而高手玩家找到一顆鉆石需要20到30分鐘,新手則需要更長的時間。
在Minecraft中進行鉆石挑戰
據DeepMind宣稱,Dreamer是第一個在不使用人類數據的情況下從零開始在《我的世界》中收集鉆石的算法。
所有的Dreamer智能體都在一億次步驟內發現了鉆石。所有物品的成功率顯示在圖右擴展數據中。
盡管其他幾個強大的算法(例子中的PPO、Rainbow和IMPALA)進展到了諸如鐵鎬等高級物品,但沒有一個發現鉆石。
Dreamer算法核心原理
圖片
評論家網絡則對世界模型預測的每個結果進行價值判斷,評估這個結果對實現目標的幫助有多大。
行動者網絡根據評論家的判斷,選擇能達到最佳結果的行動。
這三個網絡相互協作,在智能體與環境交互的過程中,通過重放經驗同時進行訓練。
在訓練過程中,世界模型的學習至關重要。它要學習從感官輸入中提取有用信息,還要預測未來的狀態和獎勵。
為實現這一目標,世界模型需要最小化預測損失、動態損失和表示損失。
圖片
預測損失用于訓練解碼器和獎勵預測器,動態損失訓練序列模型預測下一個表示,表示損失則讓表示更具可預測性。
圖中可視化了世界模型的長期視頻預測。
圖片
實驗結果
圖中展示了基準測試結果,Dreamer在所有測試中均有更好的表現。
圖片
在Atari基準測試中,它能在使用少量計算資源的情況下,超越MuZero算法,也優于Rainbow和IQN算法。
在ProcGen基準測試中,面對隨機生成的關卡和視覺干擾,Dreamer算法在5000萬幀的預算內,超過了經過調優的PPG和Rainbow算法。
在DMLab基準測試里,它在1億幀訓練后,性能超過了IMPALA和R2D2+智能體,數據效率大幅提升。
在Atari100k基準測試中,盡管訓練預算僅為40萬幀,Dreamer算法依然能超越其他方法。
在BSuite基準測試中,它同樣表現出色,在尺度穩健性方面有很大改進。
研究人員進行了消融實驗,結果表明,所有的穩健性技術都有助于提高算法性能。
圖片
研究人員還對Dreamer算法的縮放屬性進行了研究。
他們訓練了不同規模的模型,參數從12M到4M。結果發現,擴大模型規模不僅能提高任務性能,還能減少數據需求。
更多的梯度步數也能減少學習成功行為所需的交互次數。這表明Dreamer算法在計算資源增加時,能夠穩健地提升性能,為實際應用提供了更靈活的選擇。
這篇論文是關于訓練一個單一算法,期望其能在多樣化的強化學習任務中表現出色。
在《我的游戲》中尋找鉆石也許僅僅通向AGI之路的第一關。
AI的下一個更大目標是《我的世界》玩家面臨的終極挑戰:擊殺末影龍,這個虛擬世界中最可怕的生物。
參考資料:
https://www.nature.com/articles/d41586-025-01019-w#ref-CR1