成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<bdo id="oywow"><strong id="oywow"></strong></bdo>

<button id="oywow"></button>

<dl id="oywow"><center id="oywow"></center></dl>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

GPT-4o舉步維艱、Claude 3.7險勝，《超級馬里奧》成為了檢驗大模型的新試金石？

作者：機器之心 2025-03-10 09:36:00

人工智能新聞

最近，加州的一家實驗室 Hao labs 推出了「GamingAgent」項目，這是一項測試 AI 性能的新方法，專為實時動作游戲而構建。

一直以來，AI 領域的研究者都喜歡讓模型去挑戰那些人類熱衷的經典游戲，以此來檢驗 AI 的「智能程度」。

例如，在 Atari 游戲、圍棋（如 AlphaGo）或《星際爭霸》等環境中，游戲規則明確，邊界清晰，研究者可以精確控制變量（如難度、初始狀態、隨機性等），確保實驗的可重復性。而 AlphaGo 的勝利能直接證明其策略能力，是因為游戲的勝負、得分或任務完成度也天然提供了直觀的評估標準（如勝率、通關時間、得分高低），無需設計復雜的評價指標。

此前，有開發者用 AI 挑戰過經典之作《神奇寶貝》。這個游戲的畫風雖然簡單，但是身為策略游戲，其中包含的角色、屬性、戰術、體系等，都讓人類玩家感到「入門容易精通難」。一開始，AI 沒有任何的知識和經驗，只能夠隨機按下按鈕。但在五年的模擬游戲時間里，它在經歷中習得了更多能力。最終，AI 能夠抓住寶可夢，進化它們，并擊敗了道館館主。

當我們以為這已經算是高難度的時候，《超級馬里奧兄弟》再次刷新了大模型性能測試基準的上限。

最近，加州的一家實驗室 Hao labs 推出了「GamingAgent」項目，這是一項測試 AI 性能的新方法，專為實時動作游戲而構建。

項目地址：https://github.com/lmgame-org/GamingAgent

團隊采用了《超級馬里奧兄弟》等平臺游戲與《2048》、《俄羅斯方塊》等益智游戲，作為不同 AI 模型的試驗場。

GPT-4o 表現

Claude-3.7 表現

這是 Claude 3.7 在《俄羅斯方塊》中的表現：

Claude 3.7 表現最好

GPT-4o 舉步維艱

這次的一系列實驗并不是通過 1985 年版的《超級馬里奧兄弟》完成的，而是通過包含 GamingAgent 的模擬器完成的。

實驗室發現，這種獨特的游戲環境迫使每個模型設計復雜的操作和游戲策略，從而能夠考驗出它們的適應能力和解決問題的能力。

GamingAgent 模擬器為 AI 提供基本指令和游戲截圖，指令類似于：「如果附近有障礙物或敵人，請向左移動 / 跳躍以躲避?！谷缓?AI 通過 Python 代碼生成輸入，從而控制馬里奧。

在下圖的演示中，是四個大模型挑戰超級馬里奧兄弟 1-1 級的結果。Anthropic 的 Claude 3.7 表現最好，其次是 Claude 3.5。遺憾的是，谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 表現不佳。

有趣的是，盡管 OpenAI 的 GPT-4o 等推理模型在大多數基準測試中總體表現更好，但在這種實時游戲場景中的表現卻不佳。這是因為推理模型的決策過程較慢，通常需要幾秒鐘才能確定如何行動。

另一方面，非推理模型在超級馬里奧兄弟游戲中表現更佳，因為時機就是一切，可以決定成敗。一秒鐘也能導致安全跳過和墜落然后「Game Over」之間的差別。

使用《超級馬里奧兄弟》之類的游戲來對 AI 進行基準測試并不是一個新想法。但畢竟游戲具備一些抽象性質，而且與現實世界的挑戰相比來說相對簡單，領域內的很多專家對其能否確定技術發展程度的價值表示擔憂。

換言之，上述測試未必能說明 Claude 3.7 和 GPT-4o 哪個更強大。

Andrej Karpathy 最近就陷入了「評估危機」：「我真不知道現在應該關注什么（AI）指標。簡而言之，我的反應是，我真的不知道這些模型現在有多好。」

截屏2025-03-07 10.57.00.png

而對于不斷推出的前沿模型來說，如何判斷性能更是個難題。

截屏2025-03-07 11.08.05.png

AI 的「評估危機」

我們該如何衡量大模型的性能提升？

與此同時，有業內人士從另外一個維度提出了對大模型性能提升方向的質疑。

Hugging Face 的聯合創始人兼首席科學官 Thomas Wolf 周四在 X 平臺發文，表達了對 AI 未來的深切憂慮。他擔心在缺乏根本性研究突破的情況下，人工智能將淪為「服務器上的好好先生」。在他看來，當前的人工智能發展路徑難以培養出真正具備創造性思維的系統 —— 那種能夠摘取諾貝爾桂冠的突破性思考能力。

「人們常犯的錯誤是把牛頓或愛因斯坦簡單地視為優等生的放大版，仿佛天才只是把成績靠前的學生線性延伸出來的結果，」Wolf 寫道，「在數據中心里打造一個愛因斯坦，我們需要的不是一個萬事通，而是一個敢于提出前人未曾想到或不敢發問的問題的系統?！?/span>

這一觀點與 OpenAI 首席執行官奧特曼（Sam Altman）的說法形成鮮明對比，后者在今年早些時候撰文稱「超級智能」能「極大加速科學發現」。同樣，Anthropic 公司首席執行官 Dario Amodei 也預測，AI 將助力大多數癌癥的治療方案研發。

Wolf 認為當下 AI 的問題在于：它不能通過連接原本不相關的事實來創造新知識。即使擁有互聯網上的海量信息，現今的 AI 主要只是在填補人類已有知識之間的空白。

包括前谷歌工程師弗朗索瓦?喬萊（Fran?ois Chollet）在內的一些人工智能專家也表達了類似的觀點，他們認為 AI 雖能記憶推理模式，但難以針對全新情境產生真正的「新推理」。

Wolf 認為，AI 實驗室目前打造的只是「極其聽話的學生」，而非科學革命的締造者。當今的 AI 不被鼓勵質疑或提出可能與訓練數據相悖的想法，這使其僅能回答已知范圍內的問題。

「在數據中心里打造一個愛因斯坦，關鍵在于培養一個能提出前人未曾想到的問題的系統，」沃爾夫強調，「一個當所有教科書、專家和常識都持相反觀點時，仍會問『如果大家都錯了呢？』的系統?！?/span>

Wolf 指出，AI 領域的「評估危機」是問題的癥結所在。目前評估 AI 進步的標準大多由具有明確、顯而易見的「封閉式」答案的問題構成。

作為解決之道，Wolf 建議行業轉向能夠評估 AI 是否具備「大膽的反常規思考」、基于「微弱線索」提出普適性建議，以及提出能開辟「研究新徑」的「非顯而易見問題」的能力標準。

他承認，確定這種評估標準的具體形式是個難題，但認為這值得投入精力。

「科學的精髓在于提出正確問題并挑戰既有知識的能力，」Wolf 總結道，「我們不需要一個靠常識拿 A+ 的學生，而需要一個能看到并質疑所有人都忽略之處的 B 等生?！?/span>

責任編輯：張燕妮來源：機器之心

AI 游戲模型

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：久久久久国产一区二区三区四区 | 亚洲精品丝袜日韩 | h视频免费在线观看 | 日本不卡一区 | 91小视频在线 | 成人在线看片 | 毛片在线免费 | 精品综合在线 | 成人欧美一区二区三区在线播放 | 久久a久久 | 99精品一区二区 | 在线免费av电影 | 亚洲欧美综合精品久久成人 | 999久久精品 | 亚洲国产成人精品女人久久久 | 天天干天天爽 | 中日韩毛片 | 国产草草视频 | 欧美午夜精品久久久久免费视 | 欧美一区2区三区4区公司二百 | 一区中文字幕 | 天天操天天摸天天爽 | 亚洲热在线视频 | 久久国产精品一区二区三区 | 97超碰在线播放 | 国产精品美女久久久久久久久久久 | 久久这里只有精品首页 | 国产成人精品久久 | 中文字幕一区二区三区乱码在线 | 日日日视频| 一区二区三区不卡视频 | 国产黄色网址在线观看 | 欧美电影免费观看高清 | 99视频网| a级在线观看| 夜夜骚 | 一区二区三区av | 色综合天天天天做夜夜夜夜做 | 毛色毛片免费看 | 99久久精品免费看国产小宝寻花 | 欧美性高潮 |

<code id="aomug"></code>

<dl id="aomug"><sup id="aomug"></sup></dl>

<code id="aomug"></code>

<abbr id="aomug"><optgroup id="aomug"></optgroup></abbr>