中杯o3成OpenAI“性價比之王”？ARC-AGI測試結果出爐：得分翻倍、成本僅1/20

作者：量子位 2025-04-23 11:19:31

ARC-AGI是一項旨在評判大模型的“智力”，或者說“AGI能力”的基準測試。

得分比第二名翻倍，成本卻僅為1/20？！

o3中杯在超難推理任務ARC-AGI上的新成績，屬實又給眾人帶來了億點點震撼。

根據ARC Prize官方介紹，本輪測試得出的關鍵結論如下：

按照最新ARC測試，中杯o3堪稱目前OpenAI所有模型中的“性價比之王”。

不過值得注意的是，相比2024年12月OpenAI在“雙十二”直播活動中發布的o3模型，最新成績可謂“大幅縮水”。

當時o3在低推理能力設置下（Low）得分高達75.7%，并且讓模型推理更長時間后，其得分更是首次超越人類（85%）飆升至87.5%。

那么問題來了，為何短短幾個月過去，o3模型在ARC測試上的得分差異明顯呢？

原來前后兩個模型雖然名稱一樣，但實際并非相同的模型。

OpenAI當下最新的o3，已針對聊天和產品應用進行了微調。

△圖源：ARC Prize官網

甚至，OpenAI研究員們也強調，最新發布的o3并未專門針對ARC-AGI測試進行訓練。

也就是說，中杯o3第一次挑戰ARC難題就取得了好成績。

賓大沃頓商學院教授Ethan Mollick更是直言：

現在有更多的證據表明， o3代表著一次重大進步。

與此同時，時代雜志發表的一篇獨家文章表示，o3優于94%的專業病毒學家。其在這一專業領域的準確率達到了43.8%，相比之下博士級人類專家的準確率僅為22.1%。

中杯o3 ARC-AGI測試成績出爐

ARC-AGI是一項旨在評判大模型的“智力”，或者說“AGI能力”的基準測試。

里面包含了一系列拼圖問題，要求AI從不同顏色的方塊中識別出視覺模式，并生成正確的 “答案” 網格。這些問題主要是為了迫使AI適應未曾見過的新問題。

正如開頭所言，在ARC-AGI-1中，o3模型曾以75.7%的得分“稱王稱霸”。而在看到這一成績后，ARC官方感受到了進一步更新的緊迫性。

于是在2024年3月，他們上新了ARC-AGI-2版本，核心目標是測試模型能否高效地獲取超出其訓練數據的新技能。

具體而言，在ARC-AGI-1基礎之上，官方引入了更多符號解釋、多組合規則以及需要更深層次抽象的任務，難度再次大升級。

正是基于以上兩個測試基準，在OpenAI最新上線了o3和o4-mini之后，ARC又重新進行了測試。

除了中杯o3取得的好成績，更多測試結果如下：

首先是o3 (high)，ARC官方自稱耗費超過5萬美元，最終仍未獲得o3 (high)的完整測試結論。

理由是，在高推理能力設置下，模型在大多數情況下均無法響應或超時，最后只有不到一半的任務返回了結果。

不過參與審查的Mike Knoop表示，建議默認使用o3 (high)設置，除非遇到超時才切換到Medium選項。

同時他認為，雖然中杯o3的準確率遠低于o3-preview（去年12月的版本），但毫無疑問o3整體在準確率和成本優化方面做得非常出色。

如今，你在其他任何地方都買不到o3級別的AI推理能力。

一言以蔽之，本輪測試結果表明，中杯o3在繼承o3-preview大部分新功能的前提下，成本有了大幅下降。

除此之外，ARC官方還得出了三個關鍵發現：

1、早期響應準確率更高：模型越早返回的任務，準確率越高。而那些耗時更長（無論是運行時間還是token使用量）的任務，失敗的可能性更大。

2、高級推理可能效率低下：在相同任務上比較中杯o3和o3 (high)時，發現后者始終使用更多token來得出相同的答案。

3、每秒token數的最小變化：在o系列模型中，不同任務的每秒token數差異較小。特別是o3-mini-low和o4-mini-low的吞吐量（tok/s）高于中高版本。

順帶一提，ARC官方早前還測試過DeepSeek-R1。

最終結果是，在ARC-AGI-1基準上，DeepSeek-R1得分為15.8%，遠低于o3模型。

你怎么看o3的新測試？

責任編輯：張燕妮來源：量子位