成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4o舉步維艱、Claude 3.7險勝,《超級馬里奧》成為了檢驗大模型的新試金石?

人工智能 新聞
最近,加州的一家實驗室 Hao labs 推出了「GamingAgent」項目,這是一項測試 AI 性能的新方法,專為實時動作游戲而構建。

一直以來,AI 領域的研究者都喜歡讓模型去挑戰那些人類熱衷的經典游戲,以此來檢驗 AI 的「智能程度」。

例如,在 Atari 游戲、圍棋(如 AlphaGo)或《星際爭霸》等環境中,游戲規則明確,邊界清晰,研究者可以精確控制變量(如難度、初始狀態、隨機性等),確保實驗的可重復性。而 AlphaGo 的勝利能直接證明其策略能力,是因為游戲的勝負、得分或任務完成度也天然提供了直觀的評估標準(如勝率、通關時間、得分高低),無需設計復雜的評價指標。

此前,有開發者用 AI 挑戰過經典之作《神奇寶貝》。這個游戲的畫風雖然簡單,但是身為策略游戲,其中包含的角色、屬性、戰術、體系等,都讓人類玩家感到「入門容易精通難」。一開始,AI 沒有任何的知識和經驗,只能夠隨機按下按鈕。但在五年的模擬游戲時間里,它在經歷中習得了更多能力。最終,AI 能夠抓住寶可夢,進化它們,并擊敗了道館館主。

當我們以為這已經算是高難度的時候,《超級馬里奧兄弟》再次刷新了大模型性能測試基準的上限。

最近,加州的一家實驗室 Hao labs 推出了「GamingAgent」項目,這是一項測試 AI 性能的新方法,專為實時動作游戲而構建。

項目地址:https://github.com/lmgame-org/GamingAgent

團隊采用了《超級馬里奧兄弟》等平臺游戲與《2048》、《俄羅斯方塊》等益智游戲,作為不同 AI 模型的試驗場。

圖片

GPT-4o 表現

圖片

Claude-3.7 表現

這是 Claude 3.7 在《俄羅斯方塊》中的表現:

Claude 3.7 表現最好

GPT-4o 舉步維艱

這次的一系列實驗并不是通過 1985 年版的《超級馬里奧兄弟》完成的,而是通過包含 GamingAgent 的模擬器完成的。

實驗室發現,這種獨特的游戲環境迫使每個模型設計復雜的操作和游戲策略,從而能夠考驗出它們的適應能力和解決問題的能力。

GamingAgent 模擬器為 AI 提供基本指令和游戲截圖,指令類似于:「如果附近有障礙物或敵人,請向左移動 / 跳躍以躲避?!谷缓?AI 通過 Python 代碼生成輸入,從而控制馬里奧。

在下圖的演示中,是四個大模型挑戰超級馬里奧兄弟 1-1 級的結果。Anthropic 的 Claude 3.7 表現最好,其次是 Claude 3.5。遺憾的是,谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 表現不佳。

圖片

有趣的是,盡管 OpenAI 的 GPT-4o 等推理模型在大多數基準測試中總體表現更好,但在這種實時游戲場景中的表現卻不佳。這是因為推理模型的決策過程較慢,通常需要幾秒鐘才能確定如何行動。

另一方面,非推理模型在超級馬里奧兄弟游戲中表現更佳,因為時機就是一切,可以決定成敗。一秒鐘也能導致安全跳過和墜落然后「Game Over」之間的差別。

使用《超級馬里奧兄弟》之類的游戲來對 AI 進行基準測試并不是一個新想法。但畢竟游戲具備一些抽象性質,而且與現實世界的挑戰相比來說相對簡單,領域內的很多專家對其能否確定技術發展程度的價值表示擔憂。

換言之,上述測試未必能說明 Claude 3.7 和 GPT-4o 哪個更強大。

Andrej Karpathy 最近就陷入了「評估危機」:「我真不知道現在應該關注什么(AI)指標。簡而言之,我的反應是,我真的不知道這些模型現在有多好。」

截屏2025-03-07 10.57.00.png

而對于不斷推出的前沿模型來說,如何判斷性能更是個難題。

截屏2025-03-07 11.08.05.png

AI 的「評估危機」

我們該如何衡量大模型的性能提升?

與此同時,有業內人士從另外一個維度提出了對大模型性能提升方向的質疑。

 Hugging Face 的聯合創始人兼首席科學官 Thomas Wolf 周四在 X 平臺發文,表達了對 AI 未來的深切憂慮。他擔心在缺乏根本性研究突破的情況下,人工智能將淪為「服務器上的好好先生」。在他看來,當前的人工智能發展路徑難以培養出真正具備創造性思維的系統 —— 那種能夠摘取諾貝爾桂冠的突破性思考能力。

image.png

「人們常犯的錯誤是把牛頓或愛因斯坦簡單地視為優等生的放大版,仿佛天才只是把成績靠前的學生線性延伸出來的結果,」Wolf 寫道,「在數據中心里打造一個愛因斯坦,我們需要的不是一個萬事通,而是一個敢于提出前人未曾想到或不敢發問的問題的系統?!?/span>

這一觀點與 OpenAI 首席執行官奧特曼(Sam Altman)的說法形成鮮明對比,后者在今年早些時候撰文稱「超級智能」能「極大加速科學發現」。同樣,Anthropic 公司首席執行官 Dario Amodei 也預測,AI 將助力大多數癌癥的治療方案研發。

Wolf 認為當下 AI 的問題在于:它不能通過連接原本不相關的事實來創造新知識。即使擁有互聯網上的海量信息,現今的 AI 主要只是在填補人類已有知識之間的空白。

包括前谷歌工程師弗朗索瓦?喬萊(Fran?ois Chollet)在內的一些人工智能專家也表達了類似的觀點,他們認為 AI 雖能記憶推理模式,但難以針對全新情境產生真正的「新推理」。

Wolf 認為,AI 實驗室目前打造的只是「極其聽話的學生」,而非科學革命的締造者。當今的 AI 不被鼓勵質疑或提出可能與訓練數據相悖的想法,這使其僅能回答已知范圍內的問題。

「在數據中心里打造一個愛因斯坦,關鍵在于培養一個能提出前人未曾想到的問題的系統,」沃爾夫強調,「一個當所有教科書、專家和常識都持相反觀點時,仍會問『如果大家都錯了呢?』的系統?!?/span>

Wolf 指出,AI 領域的「評估危機」是問題的癥結所在。目前評估 AI 進步的標準大多由具有明確、顯而易見的「封閉式」答案的問題構成。

作為解決之道,Wolf 建議行業轉向能夠評估 AI 是否具備「大膽的反常規思考」、基于「微弱線索」提出普適性建議,以及提出能開辟「研究新徑」的「非顯而易見問題」的能力標準。

他承認,確定這種評估標準的具體形式是個難題,但認為這值得投入精力。

「科學的精髓在于提出正確問題并挑戰既有知識的能力,」Wolf 總結道,「我們不需要一個靠常識拿 A+ 的學生,而需要一個能看到并質疑所有人都忽略之處的 B 等生?!?/span>

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-04 08:40:00

AI游戲訓練

2013-03-19 09:54:26

公有云遷移云遷移工具亞馬遜Web服務

2012-03-27 14:22:25

云計算云安全

2025-04-08 02:26:00

2024-06-21 09:58:38

2011-10-24 15:51:12

英特爾移動ARM

2013-01-13 11:26:20

Ubuntu手機系統Ubuntu手機

2025-01-14 13:20:56

2024-06-21 09:51:17

2024-09-06 13:00:29

2024-05-20 08:20:00

OpenAI模型

2018-01-10 07:08:18

寬帶運營商民營資本

2024-06-28 18:13:05

2024-11-04 08:40:00

2025-01-22 16:57:32

字節跳動豆包大模型

2017-04-16 18:28:25

人工智能

2024-06-05 13:09:26

2013-12-10 13:27:09

云計算

2018-11-20 09:57:01

谷歌云計算開發者

2024-12-18 13:24:30

谷歌AI大語言模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久久国产一区二区三区四区 | 亚洲精品丝袜日韩 | h视频免费在线观看 | 日本不卡一区 | 91小视频在线 | 成人在线看片 | 毛片在线免费 | 精品综合在线 | 成人欧美一区二区三区在线播放 | 久久a久久 | 99精品一区二区 | 在线免费av电影 | 亚洲欧美综合精品久久成人 | 999久久精品 | 亚洲国产成人精品女人久久久 | 天天干天天爽 | 中日韩毛片 | 国产草草视频 | 欧美午夜精品久久久久免费视 | 欧美一区2区三区4区公司二百 | 一区中文字幕 | 天天操天天摸天天爽 | 亚洲热在线视频 | 久久国产精品一区二区三区 | 97超碰在线播放 | 国产精品美女久久久久久久久久久 | 久久这里只有精品首页 | 国产成人精品久久 | 中文字幕一区二区三区乱码在线 | 日日日视频| 一区二区三区不卡视频 | 国产黄色网址在线观看 | 欧美电影免费观看高清 | 99视频网| a级在线观看| 夜夜骚 | 一区二区三区av | 色综合天天天天做夜夜夜夜做 | 毛色毛片免费看 | 99久久精品免费看国产小宝寻花 | 欧美性高潮 |