成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

異議!頂流AI決戰(zhàn)「逆轉裁判」:o1險勝Gemini 2.5登頂、Llama 4零分墊底

人工智能 新聞
懸疑小說的最后一頁,隱藏著罪犯的真相。《逆轉裁判》的法庭上,真兇在謊言中露出破綻。UCSD研究團隊以這款經典游戲為舞臺,o1、Gemini 2.5 Pro等模型化身「偵探」,測試AI的推理極限。

當談到AI為何能從「預測下一個詞」中誕生智慧時,Ilya Sutskever曾用一個生動的比喻來解釋。

想象你在讀一本懸疑小說,如果僅憑前面的線索就能在最后一頁推斷出罪犯是誰,那么你對這個故事的理解無疑是深刻的。

同樣,AI通過學習海量文本,掌握了從字面到語義的「線索」,展現(xiàn)出驚人的智能。

圖片

受此啟發(fā),UCSD的華人研究者用游戲《逆轉裁判》(Ace Attorney)測試AI的推理能力。

《逆轉裁判》以錯綜復雜的故事情節(jié)和扣人心弦的法庭對決著稱。

這款游戲堪稱測試模型的完美舞臺:AI化身偵探,收集線索、揭露矛盾,最終挖掘真相。

圖片

研究者讓當前最頂尖的AI模型(GPT-4.1、Gemini 2.5 Pro、Llama-4 Maverick等)在《逆轉裁判》中接受考驗,看它們能否喊出「反對!」,扭轉案情,揭開謊言背后的真相。

圖片

和偵小說一樣,模型玩家得把線索、證據(jù)串起來,揭露證詞中的矛盾,抓住真兇。

圖片

測試中,AI模型要參與緊張的法庭盤問環(huán)節(jié)。它要敏銳地找出證詞中的漏洞,拿出正確的證據(jù)進行反駁。每個關卡有5次機會,犯錯空間有限。

圖片

團隊測試了多款頂尖的AI多模態(tài)模型,包括o1、Gemini 2.5 Pro、Claude 3.7-thinking和Llama-4 Maverick。

結果顯示,o1和Gemini 2.5 Pro表現(xiàn)最佳,均晉級第4關。雖然未能通關,但o1在應對最復雜案件時,略勝Gemini 2.5 Pro一籌。

GPT-4.1與Claude 3.5表現(xiàn)相當。盡管GPT-4.1據(jù)稱比GPT-4o有所提升,但這次測試中的表現(xiàn)與其持平。

Llama-4 Maverick一次沒對,零分墊底!

圖片

為什么它很難?

《逆轉裁判》游戲對AI模型十分困難,主要是因為模型需要有以下能力:

  • 長文本推理:需要比對之前的對話和證據(jù),發(fā)現(xiàn)證詞中的矛盾點。
  • 視覺理解:準確識別能反駁虛假陳述的圖片。
  • 策略決策(游戲設計):動態(tài)變化的案件中,決定何時追問、出示證據(jù)或暫不行動。不僅要給出答案,還要在正確時機采取行動。

游戲設計要求AI把理解轉化為有情境依據(jù)的行動,讓它不只局限于處理文本或視覺任務。

因為AI需要推理情境化的行動空間,而非簡單死記硬背,所以更不容易出現(xiàn)過擬合。

性價比哪家強

Gemini 2.5 Pro重新定義了性價比。

在性能相當?shù)那闆r下,Gemini 2.5 Pro比o1-2024-12-17便宜6-15倍,甚至比GPT-4.1還便宜一點。

圖片

通過第1關的模型成本對比中,o1的API調用次數(shù)最少,總成本卻是最高的。

調用次數(shù)體現(xiàn)的是策略,而非推理能力。因為深入挖掘證詞,自然會觸發(fā)更多請求。

進入更高關卡后,隨著對話篇幅增加,o1的成本激增。

在第2關(一個很長的案例)中,o1的成本超過$45.75,而Gemini 2.5 Pro僅需$7.89,差距驚人!

注意:

  • Gemini 2.5 Pro使用內置token計數(shù)方法,將所有圖片都按258個token計算,因此實際成本可能略高。
  • o1隱藏推理內容存在不確定性,其輸出成本也可能被低估了。

圖片

目前團隊已將項目開源,可以在里面查看如何設置游戲和LLM。

圖片

項目地址:https://github.com/lmgame-org/GamingAgent

除此之外,項目中還有更多經典游戲能測試AI模型的性能。

推箱子游戲

推箱子(Sokoban)是一款經典的單人游戲,以深邃的策略性著稱。

推箱子的玩法簡單直觀,但挑戰(zhàn)性極高。

玩家在一個由方格組成的迷宮中操作角色,通過邏輯思考和規(guī)劃,將箱子推到目標位置。

圖片

2048游戲

這是一款數(shù)字益智游戲,玩家通過滑動方塊合并相同數(shù)字,最終目標是合成2048方塊。

策略上,應該優(yōu)先保持最大數(shù)字在角落,規(guī)劃滑動方向以避免方塊堆積,靈活調整以應對隨機出現(xiàn)的數(shù)字。

下圖可以看出,Claude 3.7 玩起2048來還是挺絲滑的,能持續(xù)玩很多步。相比之下,GPT 4o不知道為什么,玩上幾步就開始卡上了。

圖片

圖片

俄羅斯方塊

俄羅斯方塊是一款風靡全球的經典游戲。

玩家需通過移動和旋轉方塊,拼湊完整橫行以消除得分,盡可能延長游戲時間或獲得高分。

圖片

此外,還有超級馬里奧、糖果粉碎傳奇等多款游戲。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-11-15 13:30:00

2025-02-17 12:11:36

2025-06-19 09:04:00

2024-12-09 08:00:00

AI大模型人工智能

2025-05-07 13:57:05

谷歌I/O版視覺

2025-05-13 08:24:14

2024-10-30 14:25:00

GitHub模型

2025-06-17 08:40:44

2025-01-08 13:08:55

2025-06-04 04:25:00

Claude 4ChatGPT o3模型

2024-12-09 07:10:00

Llama 3.3GeminiGPT-4.5

2025-02-18 12:30:00

2024-11-05 14:20:00

AI模型

2024-11-07 15:40:00

2024-12-04 15:57:56

2024-12-12 11:29:51

2025-04-10 10:44:00

2018-08-01 23:33:14

Python 開發(fā)編程語言

2025-04-29 09:06:00

2024-09-24 11:01:03

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲激情专区 | 亚洲精品在线免费 | 成年人在线观看 | www.色.com| 国产精品美女久久久av超清 | 中文字幕日韩一区 | 一区二区三区四区在线视频 | 91精品久久久久久久久中文字幕 | 四虎影视免费观看 | 成人毛片网站 | 一区二区福利视频 | 欧美一区二区三区 | 日韩精品一区二区三区视频播放 | 91成人在线| jav成人av免费播放 | 亚洲免费高清 | 国产免费av在线 | 欧美久久久久 | 伊人爽| 日韩午夜激情 | 亚洲美女天堂网 | 国产一区二区自拍 | 久久久91精品国产一区二区三区 | 91精品国产91久久久久久三级 | 国产日韩电影 | 久久人体视频 | 日本涩涩网 | 激情在线视频网站 | 国产精品日韩在线观看 | 亚洲欧美中文日韩在线 | 色综合久久久 | 国产情侣在线看 | 国产精品欧美一区二区三区 | 久久久.com | av黄色在线| 欧美最猛黑人 | 一区二区三区 在线 | 中文字幕一区二区三区四区五区 | 超碰在线人人 | 一级做受毛片免费大片 | 久久久精品久久 |