DeepMind閉關修煉「我的世界」，自學成才挖鉆登Nature！人類玩家瑟瑟發抖

作者：新智元 2025-04-07 03:00:00

人工智能

谷歌DeepMind研發的DreamerV3實現重大突破：無需任何人類數據，通過強化學習與「世界模型」，自主完成《我的世界》中極具挑戰的鉆石收集任務。該成果被視為通往AGI的一大步，并已登上Nature。

AI又進化了，在沒有任何人類數據的參與下，自己玩《我的世界》還能找到鉆石！

在剛剛登上Nature的論文中，谷歌DeepMind的智能體通過純·自我學習，順利完成了收集鉆石的任務。

圖片

論文鏈接：https://www.nature.com/articles/s41586-025-08744-2

對此，DeepMind的計算機科學家Danijar Hafner表示：「Dreamer是一個重要的里程碑，標志著AI又朝著通用人工智能前進了一大步。」

又是AI和《我的世界》，為何這次就成了邁向AGI的一大步

用AI來挑戰《我的世界》早已是AI界「喜聞樂見」的項目了。

作為世界上排名第一且月活超過1億的游戲，《我的世界》可以說是涵蓋了幾乎所有年齡段的人群。

早在兩三年前，包括OpenAI在內的各個模型都有挑戰《我的世界》的嘗試。

圖片

更早在2019年，研究人員就認為《我的世界》的開放式游戲環境可能非常適合AI研究。

比如一個七歲的小孩在觀看了10分鐘演示視頻后就能學會如何在游戲中找到稀有的鉆石，而當年的AI還遠遠做不到這一點。

AI從《我的世界》中的一個隨機位置開始，必須完成某些任務來找到鉆石

為何這次DeepMind就敢說是「通向AGI的一大步」呢？

這次的任務——在游戲內尋找鉆石——聽起來容易，但其實非常困難，「高玩」們也要花20-30分鐘才能找到一個鉆石。

圖片

給不熟悉游戲的朋友解釋下這個任務為什么這么困難：

1. 每一次的游戲場景都是隨機世界，包含各種地形的虛擬 3D 世界，包括森林、山脈、沙漠和沼澤，這讓AI無法只記住一種特定策略來作弊；

2. 想要獲得鉆石需要經過一系列復雜的前置流程，并不是隨機在地圖尋找，比如你需要：

先找到樹木
然后將樹木分解為木材，木材也僅僅是用來制作一個工作臺
有了工作臺再加上更多的木材你才可以制作一個木頭鎬頭
然后才能開始挖掘以尋找鉆石
......

鉆石恒久遠，AI不疲倦

AI研究人員專注于在《我的世界》中尋找鉆石，Hafner說因為這需要一系列復雜的步驟，是一個很長的里程碑鏈條，因此它需要非常深入的探索。

圖片

DeepMind的Dreamer AI在《我的世界》中進行了多次游戲學習如何收集鉆石

之前的嘗試讓AI系統收集鉆石依賴于使用人類游戲的視頻或研究人員引導系統完成各個步驟。

相比之下，Dreamer通過強化學習的試錯技術自行探索游戲的所有內容——它識別出可能帶來獎勵的動作，重復這些動作并放棄其他動作。

強化學習是一些重大AI進展的基礎，但之前的程序都是專家型的——它們無法從零開始在新領域應用知識。

成功的關鍵是構建「世界模型」

Dreamer成功的關鍵在于它構建了周圍環境的模型，并使用這個世界模型來「想象」未來的情景并指導決策。

圖片

就像我們自己的抽象思維一樣，世界模型并不是周圍環境的精確復制品。

世界模型允許Dreamer嘗試不同的事情，「世界模型真正賦予了人工智能系統想象未來的能力」Hafner 說。

這種能力還可能有助于創造能夠在現實世界中學習互動的機器人——在現實世界中，試錯的成本要比在視頻游戲中高得多。

研究團隊一開始并不是奔著「鉆石測試」去研究的，測試Dreamer在鉆石挑戰上的表現是一個事后的想法。

「在構建整個算法時并沒有考慮到這一點」，Hafner 說，但團隊意識到，這是測試其算法是否能夠開箱即用、處理不熟悉任務的理想方式。

在《我的世界》中，團隊使用了一種協議，每當Dreamer完成鉆石收集過程中涉及的12個逐步步驟之一時，就會獲得一個「+1」的獎勵——這些步驟包括制作木板和熔爐、開采鐵礦并鍛造鐵鎬。

這些中間獎勵促使 Dreamer 選擇了更有可能獲得鉆石的動作。團隊每 30 分鐘重置一次游戲，這樣Dreamer就不會適應某個特定的配置——而是學會了獲得更多獎勵的一般規則。

在這種設置下，Dreamer需要連續玩大約九天才能找到至少一顆鉆石。

而高手玩家找到一顆鉆石需要20到30分鐘，新手則需要更長的時間。

在Minecraft中進行鉆石挑戰

游戲中的每一次都設定在一個獨特的隨機生成且無限的三維世界中。

每一次持續到玩家死亡或達到36,000步（相當于30分鐘），根據MineRL競賽提供的動作形成了一個分類動作空間，其中包括抽象的制作動作。

據DeepMind宣稱，Dreamer是第一個在不使用人類數據的情況下從零開始在《我的世界》中收集鉆石的算法。

所有的Dreamer智能體都在一億次步驟內發現了鉆石。所有物品的成功率顯示在圖右擴展數據中。

盡管其他幾個強大的算法（例子中的PPO、Rainbow和IMPALA）進展到了諸如鐵鎬等高級物品，但沒有一個發現鉆石。

Dreamer算法核心原理

Dreamer算法的核心是學習一個世界模型。這就像是智能體的大腦，讓智能體具備豐富的感知能力，通過想象未來場景來規劃行動。算法由三個關鍵的神經網絡組成：世界模型、評論家網絡和行動者網絡。世界模型通過自動編碼學習感官輸入的表示，并通過預測潛在動作的未來表示和獎勵來實現規劃。將世界模型實現為遞歸狀態空間模型，如圖所示。

圖片