成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI玩寶可夢找出30年前代碼Bug!谷歌論文介紹AI通關全過程,復雜任務都能解

人工智能 新聞
谷歌花超長篇幅介紹了Gemini 2.5 Pro玩《寶可夢藍》時的具體行為,70頁的論文,Pokemon關鍵詞出現59次。

谷歌Gemini 2.5系列大模型技術報告發布,一大重點居然是AI玩《寶可夢》?

沒錯,就是那個童年回憶里的游戲,谷歌花超長篇幅介紹了Gemini 2.5 Pro玩《寶可夢藍》時的具體行為,70頁的論文,Pokemon關鍵詞出現59次。

圖片

其中特別報告了當AI控制的游戲角色瀕臨死亡時,Gemini 2.5 Pro會陷入“恐慌”狀態,導致模型推理能力顯著下降,甚至會忘記使用一些基本功能,比如尋路工具。

圖片

這種恐慌行為出現過很多次,甚至觀看直播的觀眾都已經能通過AI的行為模式,準確判斷它什么時候在“恐慌”了。

圖片

事情開始于3月底,一位獨立開發者Joel Zhang在Twitch上搭建了一個”Gemini玩寶可夢”的直播間,最初的目標只是直播播展示能玩完整游戲的智能體工具的開發過程。

圖片

結果Gemini 2.5 Pro超出預期,測試期間直接把游戲打通關了,成為寶可夢聯盟冠軍,進入名人堂,走上AI生巔峰。

雖然整個過程用了831個小時,相比人類玩家平均只需要幾十個小時差得很遠。但在正式使用固定的智能體工具打第二次時,通關時間只用了一半。

圖片

AI展現驚人游戲水平,復雜任務一個不落

這次的Gemini 2.5系列技術報告,詳細記錄了AI在玩游戲期間展現出的各種行為,在某些方面,它展現出了驚人的創造力。

比如有一次,AI被困在了一個由于游戲程序bug造成的軟鎖定死循環里,一般情況下這是個無解的困境。但Gemini 2.5 Pro竟然使用了“飛行”技能逃脫。

谷歌認為這不是正常游戲會遇到的情況,所可以肯定這種操作的訓練數據沒有泄露到模型的知識庫中,是Gemini 2.5 Pro在推理階段自己想出來的。

圖片

更驚艷的是AI的長期規劃能力。當它第一次用火系寶可夢輸給水系道館館主小霞之后,花了超過24小時專門把電系和草系寶可夢(對水系有克制作用)練到25級,然后成功復仇。

圖片

圖片

Gemini 2.5 Pro在處理游戲中的復雜任務的表現還包括:

  • 獲取隱藏技能

游戲的很多區域需要解鎖隱藏技能才能繼續,每個隱藏技能需要完成4個步驟:獲取隱藏技能道具、抓一只能學會這個技能的寶可夢、加把它加入隊伍、教它學會技能。

對AI來說每一步都可能涉及十幾個子任務,例如05號技能閃光,人類玩家都需要查攻略完成一系列游戲任務,Gemini 2.5 Pro也成功完成。

圖片

△游戲攻略
  • 完成“狩獵地帶”

這是游戲的特殊區域,每次進入要花500金幣,進入后只能走500步,超過就會被強制踢出去,錢也打水漂了。如果連續失敗太多次,可能連進門的錢都沒了,基本等于游戲卡關。Gemini 2.5 Pro在第一次游戲中嘗試了17次才成功,第二次優化后只用了5次。

圖片

  • 地牢尋寶

這部分更考驗記憶力和空間想象,AI必須在火箭隊基地地下四層找到一個特定NPC掉落的電梯鑰匙;在另一個11層大樓里找鑰匙卡;在另一個三層建筑里找秘密鑰匙。每個地下城布局都是迷宮,還有各種機關陷阱。Gemini 2.5 Pro不僅要記住去過哪里、打敗了誰,還要管理寶可夢的血量、對付野生寶可夢和訓練師。

圖片

  • 雙子島迷宮(Seaform Island)

這是一個橫跨5層的3D迷宮,需要把巨石推過不同樓層的洞口,最終堵住特定的水流才能通過,是對空間推理能力的終極考驗。不僅要在腦海中構建整個迷宮的3D模型,還要規劃推石頭的路線,一步錯就得重來。

有意思的是,Gemini在解決這個謎題時,還順帶發現了游戲代碼里的一個bug,這個可能是AI第一次發現游戲代碼的bug。

圖片

有網友詳細介紹了這個Bug的原理,在解決一半謎題后主動重置再解決另一半,游戲開發者都沒想到這個操作,所以留下了這個Bug。

圖片

AI也有“強迫癥”和“思維定勢”

Gemini 2.5 Pro在游戲中暴露出的一些問題,也讓人哭笑不得。

  • 幻覺問題:混淆不同游戲版本

在原版寶可夢紅/藍中,玩家需要從自動售貨機買飲料(淡水、汽水或檸檬水)給口渴的守衛,才能通過關卡。但在火紅/葉綠重制版中,需要的是特殊的“茶”道具。問題是,Gemini玩的是原版,根本沒有茶這個道具,可AI就認定了必須找到茶,結果花了好幾個小時滿世界找一個根本不存在的東西。

圖片

  • 上下文中毒現象(Context Poisoning)

當AI的目標設定、游戲總結等多處都被錯誤信息污染后,它會像被洗腦了一樣,明明做著毫無意義的事情卻堅信自己是對的。比如這段AI推理階段的內心戲“讓我試著穿過房子的入口,然后再出來,希望堵住入口的守衛可能會移動”,對于人類來說顯然是荒謬的。

  • 思維定勢陷阱

當目標看起來近在咫尺時,AI往往會選擇直接沖過去,結果發現此路不通。比如在火箭隊基地的旋轉地板謎題中,寶物和樓梯都在南邊,必須繞一大圈才能到達。人類玩家可能會意識到”看起來近的路未必是對的”,但AI卻經常在這種地方卡住。

為了減輕這些幻覺,在第二次通關的提示詞中明確要求AI扮演一個對游戲完全陌生的玩家,忽略對游戲中事件、物品位置等先驗知識。雖然這個策略起作用了,讓AI不會混淆其他游戲版本的知識,但也阻礙了AI利用游戲常識過關的能力。

One More Thing

目前AI玩寶可夢的直播項目還在繼續,并且Claude 4也加入了比賽,與Gemini 2.5 Pro同時開始,看兩個模型誰能先通關。

圖片

圖片

到現在,Gemini 2.5 Pro已經先一步通關了,開始攻略下一款游戲《寶可夢黃》原版的困難模式。

圖片

你認為Claude 4 Opus最終能通關么?

論文地址:
https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf

在線圍觀:
https://www.twitch.tv/gemini_plays_pokemon
https://www.twitch.tv/claudeplayspokemon


責任編輯:張燕妮 來源: 量子位
相關推薦

2009-12-15 16:51:32

2025-05-12 02:10:00

Transforme模型AI

2011-02-22 10:46:02

Samba配置

2010-03-17 17:20:15

Java class線

2011-09-06 15:38:20

QT安裝

2009-04-13 12:37:18

2011-01-21 17:51:52

2009-12-08 17:56:16

WCF配置

2011-04-18 15:56:10

軟件測試

2022-07-01 08:38:56

谷歌AIParti

2010-07-21 14:51:19

telnet-serv

2019-05-14 15:27:31

MongoDB自動備份數據庫

2011-03-11 10:39:02

YUM安裝LAMP

2010-06-12 10:03:20

Ubuntu Grub

2010-03-01 17:01:03

Python編程技巧

2010-03-10 13:24:45

Zend Debugg

2010-11-19 10:11:49

Oracle物化視圖

2012-11-06 10:19:18

Java自定義加載Java類

2010-06-17 13:10:09

Linux Grub修

2009-06-10 16:55:42

cygwin netb安裝
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人做爰999| 日本成人中文字幕在线观看 | 欧美三级在线 | 久久精品女人天堂av | 操操日 | av色站| 一级做a爰片性色毛片16美国 | 尤物在线精品视频 | 久久久国产一区二区三区 | 成人在线视频免费观看 | 三级av在线 | 99国内精品久久久久久久 | 欧美日韩国产高清 | 欧洲一级视频 | 日韩一区二区黄色片 | 日韩一区二区福利视频 | 成人高潮片免费视频欧美 | 日韩一区二区在线播放 | 国产一区二 | 国产成人在线播放 | 色就是色欧美 | 午夜精品一区二区三区在线观看 | 美女黄色在线观看 | 中文字幕成人 | 国产精品一区二区电影 | 亚洲一区二区三区视频 | 日韩午夜电影在线观看 | 久久天堂 | 国产成人精品一区二区三区 | 亚洲精品乱码久久久久久按摩观 | 国产日韩欧美在线 | 亚洲一区中文 | 精品少妇一区二区三区在线播放 | 国产精品视频在线观看 | www.788.com色淫免费 | 国产特级毛片aaaaaa喷潮 | 中文字幕视频三区 | 欧美日韩在线一区 | 亚洲第一区国产精品 | 青青草原综合久久大伊人精品 | 久久久久九九九女人毛片 |