成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會

人工智能 新聞
翻車,但微翻,翻了 12.5% 吧。

前幾天,OpenAI 已經完成了 12 連更的最后一更 —— 如外界所料,是新的推理系列模型 o3 和 o3-mini 。

從 o1 開始,OpenAI 所指出的推理 Scaling Law 似乎帶來了全新的實現 AGI 的希望。此次被用來驗證 o3 推理能力的基準是 ARC-AGI,這項基準已經提出了 5 年時間,但一直未被攻克。

而新模型 o3 是首個突破 ARC-AGI 基準的 AI 模型:最低性能可達 75.7%,如果讓其使用更多計算資源思考更長時間,甚至可以達到 87.5% 的水平。

對于 o1 來說,此前在這項基準中能達到的準確率僅在 25% 到 32% 之間。

圖片

在 ARC-AGI 基準中,AI 需要根據配對的「輸入 - 輸出」示例尋找規律,然后再基于一個輸入預測輸出。ARC-AGI 發起者、Keras 之父 Fran?ois Chollet 在測試報告中表示,雖然成本高昂,但仍然表明新任務的性能確實隨著計算量的增加而提高。o3 在低計算量模式下每個任務需要 17-20 美元,高計算量模式下每個任務數千美元。但這些數字不僅僅是將暴力計算應用于基準測試的結果。OpenAI 的新 o3 模型代表了人工智能適應新任務的能力的重大飛躍。

「這不僅僅是漸進式的改進,而是真正的突破,標志著與 LLM 之前的局限性相比,人工智能能力發生了質的轉變。o3 能夠適應以前從未遇到過的任務,可以說在 ARC-AGI 領域接近人類水平的表現。」

比如,對于同一道題,Llama 系列的模型就會因為參數量的提高,從而推測出更加準確的答案。

圖片

但大家也注意到了,在 ARC-AGI 的 400 個任務中,還有 34 個任務是 o3 無法解決的,即使思考了 16 小時也沒能給出正確答案。正如 Fran?ois Chollet 所說:「事實上,我認為 o3 還不是 AGI。o3 在一些非常簡單的任務上仍然失敗,這表明其與人類智能存在根本差異。」

這些任務是什么,難點又在哪里,接下來讓我們一起看看。

圖片

人們驚訝于 o3 無法解決它(沒有看到嘗試)。實際上,這些樣本可能沒有詳細說明,并且 o3 的第一個解決方案是正確的。

圖片

這個任務是整個數據集中唯一一個模型無法輸出網格的樣本 —— 在某些列上添加了錯誤的額外方塊。在 ARC 上,使用較小的 LLM 時經常會看到這種情況。

圖片

這個題目看似簡單,其實很有挑戰性。

圖片

圖片

o3 的第一次嘗試就是完全照搬了輸入,啥都沒改,相當于在答題卡上照抄了一遍題干。

這也能理解,對于一個只能一維思考的模型來說,識別二維物體確實很難。Fran?ois Chollet 表示,之前就發現過一維推理的局限性,有意思的是,如果在第二次嘗試時給大語言模型看旋轉或翻轉后的題目,它們的表現會明顯提升。

圖片

圖片

圖片

這道題主要考驗空間思維能力,不像其他題目那樣需要對網格做復雜的改動,不過也不影響最后做錯的結果......

圖片

這次算是一個不錯的嘗試 —— 雖然還是出了點問題。有意思的是,在輸出第二個答案時,o3 雖然做了一堆推理,最后卻只是簡單畫了幾條重復的線(這明顯不對)。說實話,感覺它就像是「算了算了,我不玩了!」

圖片

圖片

圖片

測試樣本比訓練樣本大得多,這一點很有意思。

圖片

可以看到,和標準答案相比,o3 的結果不僅一點邊都沒沾上,第二次還直接「擺爛了」,交了白卷。

Fran?ois Chollet 指出:「這恐怕是最不理想的一次測試案例。模型的表現難以解釋,o3 似乎在這里直接放棄了嘗試。不過還不確定這是否是因為第一次模型已經意識到自己的錯誤,從而觸發了 OpenAI 預設的某種機制?!?/span>

圖片

圖片

圖片

圖片

圖片

每一行都是正確的,但在整個網格上卻錯位了。

圖片

圖片

圖片

圖片

o3 在兩個答案中都漏了一些行、列。

圖片

圖片

圖片

圖片

圖片

圖片

o3 對俄羅斯方塊類型的題完全沒招,我們可以在前面的任務 [1acc24af] 中看到同樣的情況。

圖片

圖片

圖片

圖片

圖片

這兩次,o3 都在答案中少生成了一行??磥恚茈y記住還有多少相同重復的行要輸出。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-04-29 21:06:49

有序數組算法

2022-01-19 11:39:15

數據治理大數據數據

2024-12-23 07:30:00

OpenAIo3-mini人工智能

2009-01-08 21:21:45

程序員筆記

2025-04-23 08:30:05

2024-12-24 16:15:04

2024-03-18 13:32:11

2022-07-26 01:11:09

AMD芯片Intel

2025-05-28 00:00:00

2018-12-11 14:20:14

Python技巧編程語言

2024-12-23 07:40:00

AI模型數學

2018-01-29 15:25:05

前端JSDate對象

2023-12-26 08:10:18

Postgresql數據庫Oracle

2018-09-06 15:55:45

PerfMaGC面試

2021-03-02 11:29:50

算法算法分析前端

2025-06-08 12:23:06

2025-04-18 11:18:51

2025-05-14 10:09:12

2009-03-10 10:06:33

面試題筆試題微軟

2025-04-21 08:22:25

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品在线免费观看 | av天天看| 精品粉嫩超白一线天av | 怡红院怡春院一级毛片 | 日韩精品在线观看一区二区三区 | 国产精品久久久久久久久久久久午夜片 | 日韩图区 | 成人av片在线观看 | 精品视频一区二区三区在线观看 | 欧美一区二区 | 精品国产一区二区三区观看不卡 | 午夜电影网 | 天天拍天天草 | 91色视频在线 | 精品国产乱码久久久久久闺蜜 | 午夜国产一级 | 久久久久久久国产精品视频 | 香蕉视频黄色 | 欧美日韩精品一区 | 99精品久久 | 国产福利在线视频 | av免费在线播放 | 日本不卡高清视频 | 香蕉视频在线播放 | 色资源站| 麻豆va | 欧美炮房 | 在线观看中文字幕视频 | 久久久久久亚洲精品 | 日本成年免费网站 | va精品| 亚洲精品自在在线观看 | 亚洲一区二区三区在线 | 99久久精品国产一区二区三区 | 欧美美女被c | 九九九国产 | 欧美日韩国产一区二区三区 | 成人在线 | 在线播放中文字幕 | 一区中文字幕 | 99re国产精品 |