成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

中杯o3成OpenAI“性價比之王”?ARC-AGI測試結果出爐:得分翻倍、成本僅1/20

人工智能 新聞
ARC-AGI是一項旨在評判大模型的“智力”,或者說“AGI能力”的基準測試。

得分比第二名翻倍,成本卻僅為1/20?!

o3中杯在超難推理任務ARC-AGI上的新成績,屬實又給眾人帶來了億點點震撼。

圖片

根據ARC Prize官方介紹,本輪測試得出的關鍵結論如下:

  • o3 (Medium) 在ARC-AGI-1上得分為57%,成本為1.5美元/任務,優于目前所有已知COT推理模型;
  • o4-mini(Medium)在ARC-AGI-1上得分為42%,成本為0.23美元/任務,準確率不足但成本優勢明顯;
  • 在難度升級的ARC-AGI-2上,兩種型號模型的準確率均未超過3%

圖片

按照最新ARC測試,中杯o3堪稱目前OpenAI所有模型中的“性價比之王”

不過值得注意的是,相比2024年12月OpenAI在“雙十二”直播活動中發布的o3模型,最新成績可謂“大幅縮水”。

當時o3在低推理能力設置下(Low)得分高達75.7%,并且讓模型推理更長時間后,其得分更是首次超越人類(85%)飆升至87.5%。

圖片

那么問題來了,為何短短幾個月過去,o3模型在ARC測試上的得分差異明顯呢?

原來前后兩個模型雖然名稱一樣,但實際并非相同的模型

OpenAI當下最新的o3,已針對聊天和產品應用進行了微調。

圖片△圖源:ARC Prize官網

甚至,OpenAI研究員們也強調,最新發布的o3并未專門針對ARC-AGI測試進行訓練。

也就是說,中杯o3第一次挑戰ARC難題就取得了好成績。

圖片圖片

賓大沃頓商學院教授Ethan Mollick更是直言:

現在有更多的證據表明, o3代表著一次重大進步。

圖片

與此同時,時代雜志發表的一篇獨家文章表示,o3優于94%的專業病毒學家。其在這一專業領域的準確率達到了43.8%,相比之下博士級人類專家的準確率僅為22.1%。

圖片

中杯o3 ARC-AGI測試成績出爐

ARC-AGI是一項旨在評判大模型的“智力”,或者說“AGI能力”的基準測試。

里面包含了一系列拼圖問題,要求AI從不同顏色的方塊中識別出視覺模式,并生成正確的 “答案” 網格。這些問題主要是為了迫使AI適應未曾見過的新問題。

圖片

正如開頭所言,在ARC-AGI-1中,o3模型曾以75.7%的得分“稱王稱霸”。而在看到這一成績后,ARC官方感受到了進一步更新的緊迫性。

于是在2024年3月,他們上新了ARC-AGI-2版本,核心目標是測試模型能否高效地獲取超出其訓練數據的新技能。

具體而言,在ARC-AGI-1基礎之上,官方引入了更多符號解釋、多組合規則以及需要更深層次抽象的任務,難度再次大升級。

正是基于以上兩個測試基準,在OpenAI最新上線了o3和o4-mini之后,ARC又重新進行了測試。

除了中杯o3取得的好成績,更多測試結果如下:

首先是o3 (high),ARC官方自稱耗費超過5萬美元,最終仍未獲得o3 (high)的完整測試結論。

理由是,在高推理能力設置下,模型在大多數情況下均無法響應或超時,最后只有不到一半的任務返回了結果。

不過參與審查的Mike Knoop表示,建議默認使用o3 (high)設置,除非遇到超時才切換到Medium選項。

同時他認為,雖然中杯o3的準確率遠低于o3-preview(去年12月的版本),但毫無疑問o3整體在準確率和成本優化方面做得非常出色。

如今,你在其他任何地方都買不到o3級別的AI推理能力。

一言以蔽之,本輪測試結果表明,中杯o3在繼承o3-preview大部分新功能的前提下,成本有了大幅下降。

圖片

除此之外,ARC官方還得出了三個關鍵發現:

1、早期響應準確率更高:模型越早返回的任務,準確率越高。而那些耗時更長(無論是運行時間還是token使用量)的任務,失敗的可能性更大。

2、高級推理可能效率低下:在相同任務上比較中杯o3和o3 (high)時,發現后者始終使用更多token來得出相同的答案。

3、每秒token數的最小變化:在o系列模型中,不同任務的每秒token數差異較小。特別是o3-mini-low和o4-mini-low的吞吐量(tok/s)高于中高版本。

圖片

One More Thing

順帶一提,ARC官方早前還測試過DeepSeek-R1。

最終結果是,在ARC-AGI-1基準上,DeepSeek-R1得分為15.8%,遠低于o3模型。

圖片

你怎么看o3的新測試?

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-12-26 11:42:56

ARC-AGI大模型人工智能

2025-05-14 10:09:12

2024-06-20 10:43:15

2024-12-23 07:40:00

AI模型數學

2025-04-22 09:18:57

2025-06-17 08:40:44

2024-12-24 16:15:04

2025-03-25 13:07:36

2025-05-28 11:43:48

多模態大模型RBench-V

2025-02-07 09:05:36

2025-05-28 00:00:00

2025-04-23 08:30:05

2025-04-21 08:22:25

2025-04-17 14:09:52

OpenAI模型編程

2025-02-18 08:15:03

2025-03-10 08:10:00

AI研究安全

2025-03-18 13:14:13

2024-12-30 09:30:00

OpenAIAI訓練

2024-12-23 10:20:00

數據訓練模型

2024-12-24 14:30:00

模型AI訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 丁香婷婷综合激情五月色 | 中文字幕中文字幕 | 久久福利电影 | 黑人巨大精品欧美一区二区免费 | 激情久久久久 | 中文字幕不卡 | 精品视频在线观看 | 手机看黄av免费网址 | 在线免费观看黄网 | 欧美激情视频一区二区三区免费 | 精品二 | 久草在线在线精品观看 | 亚洲三级av| 日本a级大片 | 91极品视频 | sese视频在线观看 | 欧美另类视频在线 | 91n成人| 91av小视频| 国产精品成人一区二区 | 久久久久久网 | 欧美日韩精品一区二区 | 毛片网站在线观看 | 国产日日操| 亚洲天堂成人在线视频 | 看片地址 | h在线 | 色一情一乱一伦一区二区三区 | 国产91丝袜在线熟 | 日韩在线免费视频 | 精品久久久久久久久亚洲 | 日韩精品在线观看一区二区三区 | 国产9999精品 | 懂色中文一区二区三区在线视频 | 一区二区三区四区在线视频 | 亚洲精品女优 | 羞羞涩涩在线观看 | 国产精品久久久久久久久污网站 | 久久国产婷婷国产香蕉 | 在线高清免费观看视频 | 欧美黑人一级爽快片淫片高清 |