AI玩寶可夢找出30年前代碼Bug！谷歌論文介紹AI通關全過程，復雜任務都能解

2025-06-18 14:06:40

人工智能新聞

谷歌花超長篇幅介紹了Gemini 2.5 Pro玩《寶可夢藍》時的具體行為，70頁的論文，Pokemon關鍵詞出現59次。

谷歌Gemini 2.5系列大模型技術報告發布，一大重點居然是AI玩《寶可夢》？

沒錯，就是那個童年回憶里的游戲，谷歌花超長篇幅介紹了Gemini 2.5 Pro玩《寶可夢藍》時的具體行為，70頁的論文，Pokemon關鍵詞出現59次。

其中特別報告了當AI控制的游戲角色瀕臨死亡時，Gemini 2.5 Pro會陷入“恐慌”狀態，導致模型推理能力顯著下降，甚至會忘記使用一些基本功能，比如尋路工具。

這種恐慌行為出現過很多次，甚至觀看直播的觀眾都已經能通過AI的行為模式，準確判斷它什么時候在“恐慌”了。

事情開始于3月底，一位獨立開發者Joel Zhang在Twitch上搭建了一個”Gemini玩寶可夢”的直播間，最初的目標只是直播播展示能玩完整游戲的智能體工具的開發過程。

結果Gemini 2.5 Pro超出預期，測試期間直接把游戲打通關了，成為寶可夢聯盟冠軍，進入名人堂，走上AI生巔峰。

雖然整個過程用了831個小時，相比人類玩家平均只需要幾十個小時差得很遠。但在正式使用固定的智能體工具打第二次時，通關時間只用了一半。

AI展現驚人游戲水平，復雜任務一個不落

這次的Gemini 2.5系列技術報告，詳細記錄了AI在玩游戲期間展現出的各種行為，在某些方面，它展現出了驚人的創造力。

比如有一次，AI被困在了一個由于游戲程序bug造成的軟鎖定死循環里，一般情況下這是個無解的困境。但Gemini 2.5 Pro竟然使用了“飛行”技能逃脫。

谷歌認為這不是正常游戲會遇到的情況，所可以肯定這種操作的訓練數據沒有泄露到模型的知識庫中，是Gemini 2.5 Pro在推理階段自己想出來的。

更驚艷的是AI的長期規劃能力。當它第一次用火系寶可夢輸給水系道館館主小霞之后，花了超過24小時專門把電系和草系寶可夢（對水系有克制作用）練到25級，然后成功復仇。

Gemini 2.5 Pro在處理游戲中的復雜任務的表現還包括：

獲取隱藏技能

游戲的很多區域需要解鎖隱藏技能才能繼續，每個隱藏技能需要完成4個步驟：獲取隱藏技能道具、抓一只能學會這個技能的寶可夢、加把它加入隊伍、教它學會技能。

對AI來說每一步都可能涉及十幾個子任務，例如05號技能閃光，人類玩家都需要查攻略完成一系列游戲任務，Gemini 2.5 Pro也成功完成。

△游戲攻略

完成“狩獵地帶”

這是游戲的特殊區域，每次進入要花500金幣，進入后只能走500步，超過就會被強制踢出去，錢也打水漂了。如果連續失敗太多次，可能連進門的錢都沒了，基本等于游戲卡關。Gemini 2.5 Pro在第一次游戲中嘗試了17次才成功，第二次優化后只用了5次。

地牢尋寶

這部分更考驗記憶力和空間想象，AI必須在火箭隊基地地下四層找到一個特定NPC掉落的電梯鑰匙；在另一個11層大樓里找鑰匙卡；在另一個三層建筑里找秘密鑰匙。每個地下城布局都是迷宮，還有各種機關陷阱。Gemini 2.5 Pro不僅要記住去過哪里、打敗了誰，還要管理寶可夢的血量、對付野生寶可夢和訓練師。

雙子島迷宮（Seaform Island）

這是一個橫跨5層的3D迷宮，需要把巨石推過不同樓層的洞口，最終堵住特定的水流才能通過，是對空間推理能力的終極考驗。不僅要在腦海中構建整個迷宮的3D模型，還要規劃推石頭的路線，一步錯就得重來。

有意思的是，Gemini在解決這個謎題時，還順帶發現了游戲代碼里的一個bug，這個可能是AI第一次發現游戲代碼的bug。

有網友詳細介紹了這個Bug的原理，在解決一半謎題后主動重置再解決另一半，游戲開發者都沒想到這個操作，所以留下了這個Bug。

AI也有“強迫癥”和“思維定勢”

Gemini 2.5 Pro在游戲中暴露出的一些問題，也讓人哭笑不得。

幻覺問題：混淆不同游戲版本

在原版寶可夢紅/藍中，玩家需要從自動售貨機買飲料（淡水、汽水或檸檬水）給口渴的守衛，才能通過關卡。但在火紅/葉綠重制版中，需要的是特殊的“茶”道具。問題是，Gemini玩的是原版，根本沒有茶這個道具，可AI就認定了必須找到茶，結果花了好幾個小時滿世界找一個根本不存在的東西。

上下文中毒現象（Context Poisoning）

當AI的目標設定、游戲總結等多處都被錯誤信息污染后，它會像被洗腦了一樣，明明做著毫無意義的事情卻堅信自己是對的。比如這段AI推理階段的內心戲“讓我試著穿過房子的入口，然后再出來，希望堵住入口的守衛可能會移動”，對于人類來說顯然是荒謬的。

思維定勢陷阱

當目標看起來近在咫尺時，AI往往會選擇直接沖過去，結果發現此路不通。比如在火箭隊基地的旋轉地板謎題中，寶物和樓梯都在南邊，必須繞一大圈才能到達。人類玩家可能會意識到”看起來近的路未必是對的”，但AI卻經常在這種地方卡住。

為了減輕這些幻覺，在第二次通關的提示詞中明確要求AI扮演一個對游戲完全陌生的玩家，忽略對游戲中事件、物品位置等先驗知識。雖然這個策略起作用了，讓AI不會混淆其他游戲版本的知識，但也阻礙了AI利用游戲常識過關的能力。

One More Thing

目前AI玩寶可夢的直播項目還在繼續，并且Claude 4也加入了比賽，與Gemini 2.5 Pro同時開始，看兩個模型誰能先通關。

到現在，Gemini 2.5 Pro已經先一步通關了，開始攻略下一款游戲《寶可夢黃》原版的困難模式。

你認為Claude 4 Opus最終能通關么？

論文地址：
https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf

在線圍觀：
https://www.twitch.tv/gemini_plays_pokemon
https://www.twitch.tv/claudeplayspokemon

責任編輯：張燕妮來源：量子位

谷歌代碼 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI玩寶可夢找出30年前代碼Bug！谷歌論文介紹AI通關全過程，復雜任務都能解

AI展現驚人游戲水平，復雜任務一個不落

△游戲攻略

AI也有“強迫癥”和“思維定勢”

One More Thing

AI玩寶可夢找出30年前代碼Bug！谷歌論文介紹AI通關全過程，復雜任務都能解

AI展現驚人游戲水平，復雜任務一個不落