擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天

原創精選

作者：言征 2024-12-23 00:43:19

人工智能

據theinformation報道，OpenAI正在開發其下一代o1推理模型，在響應之前，這將需要更多時間來“思考”用戶查詢。然而，由于與英國電信服務提供商O2的潛在版權或商標沖突，該公司正在考慮跳過“o2”這個名字。

編輯｜言征、伊風

網友誠不我欺，o3果真來了！

圖片

就在昨天谷歌推出自己的多模態推理大模型Thingking之后，OpenAI終于坐不住了，在十二天直播的最后一天，發布了自己最先進的下一代模型o3！這里不得不感嘆一句，友商的壓力是無窮的～

不過，有朋友會好奇問，既然是下一代模型，為什么會跳過o2直接出o3呢？這可不是OpenAI今年擠牙膏式發布的風格。

原來是商標版權的問題：

據theinformation報道，OpenAI正在開發其下一代o1推理模型，在響應之前，這將需要更多時間來“思考”用戶查詢。然而，由于與英國電信服務提供商O2的潛在版權或商標沖突，該公司正在考慮跳過“o2”這個名字。

直播中，奧特曼也證明了這一說法。

圖片

這次OpenAI發布了兩款型號：o3和o3 mini。前者性能最強，甚至可以在博士級科學任務上超過人類平均水平，當然也最貴；后者性價比被奧特曼稱為“已經做了最大性價比的優化”。

有這樣一句評價：o1只是用強化學習訓練了GPT，o3才是真正的展現了推理Scaling Law定律的擴展空間。

看點上，聚光燈還是給到了o3的出色編程和數學能力。相信大家對于這兩塊已經審美疲勞了，不過不要緊，這次OpenAI引進了不少的新的測試用例和基準，給了大家耳目一新的感覺，值得一探。

打敗99.9%人類程序員的超強編程能力

首先，作為被大模型率先盯上的生產力變革領域，大模型的編程能力，o3刷新了先有模型的基準。在流行的SWE基準測試上，o3達到了驚人的71.7的分數，可以理解成1000道編碼工程問題，o3可以直接為717道問題生成正確的代碼布丁并通過單元測試，而且用時還比人類少很多（分鐘級）。

圖片

其次，還有一個非常新鮮的基準測試：Codeforces。這是個什么鬼？這里要首先科普下，cedeforce是一個人類編程競技平臺。這次測試就是要讓AI 在 codeforces 上面參與競賽，是跟人類選手一樣，在比賽時才會拿到賽題。

圖片

如果高分參賽者輸給了低分參賽者時，那么高分參賽者的 Elo 分數會下降，而低分參賽者的 Elo 分數會上升。令人吃驚的是，目前這個競賽，有 168076 名來自全球各地的程序員參賽。

而o3竟然已經排到了175，Elo分數超過了2700分，有熱心的網友直呼：這不意味著o3已經在編程競技中擊敗了世界上 1-175/168076=99.9% 的程序員嗎？

數學：刷榜最難數學測試，吊打sota

那么，o3這次在數學方面有哪些新看點呢？

一、在美國數學奧林匹克預科考試（AIME）中，o3只打錯了一道題，在上一個版本o1最好的水平是答錯了5道題目。

圖片

二、在處理博士級水平的科學任務方面，o3同樣也得到了顯著的代際提升，GPQA Diamond測試水平87.7%，已經超過了人類博士的平均水平（70%），o1的數字則是78.3%。

三、還有項測試：號稱最難數學測試的 EpochAI Frontier Math，包含最新未公開前沿題目。o3在測試中比之前SOTA從2分提升到25分。這個也是沒想到的，一下提高了12倍！

據說，這項測試難度極高，人類專業數學家解決其中一道題目也要花費數小時到數天，現在o3只需要思考幾分鐘了。

圖片

AGI測試新突破，邁入新階段

Keras之父Fran?ois Chollet發起了一項面向AGI能力的測試基準ARC-AGI，典型題目為圖形邏輯推理。比如這樣式兒的——

圖片

這些圖形邏輯推理題對于人類而言并不是很難，但是它能考驗模型推理的創新適應性能力，而o3在ARC-AGI上的分數從32%躍升到了75.7%、87.5%，可以說踏入了一個新階段。

圖片

那為什么是兩個分數？原因當然是因為o3設置了兩個思考模式——低思考程度和高思考程度兩種設置，高思考程度花費的算力也是大的嚇人。

這里有兩個冷知識——

1.這個ARC-AGI測試中，所有任務都具有獨特性，無法提前準備；不需要特定的世界知識或語言能力；僅依賴人類普遍具備的核心認知能力。

2.AI 參與 ARC-AGI 測試的要求是：讓AI在ARC-AGI-1公共訓練集上進行訓練，訓練的預算成本要小于 1 萬美元。

但，這并不意味著o3已經是AGI了，據介紹，在該項測試中，一些非常簡單的任務，o3依舊會出錯。

有關o3 mini

OpenAI 以思考的時間和成本為基準，不僅將 o3 系列分成了 o3 和 o3 mini，甚至更進一步的將 o3 mini 分成了 low、medium、high（低中高）三個型號。

而 o1 的平均思考時間是 8.92 秒，o3 mini（high）直接翻了差不多兩倍，達到了 23.33 秒的平均思考時間。

而 o3 mini（high）在一些任務上是 o1 水平，o3 旗艦版的平均思考時間這里沒有放出來，有網友認為可能已經達到了分鐘級。

基本上就是這些了，可以看出這次o3的發布，還是給出了不少驚喜：很多都是階躍式的提升。

相信各位朋友對于能不能用上更感興趣，目前o3也只是展示階段，還沒有真正開放使用，奧特曼透露，o3 mini會在明年1月底前發布，o3也會在那之后不久開放，現在呢，如果有心急的朋友可以先去申請測試：https://openai.com/index/early-access-for-safety-testing/

最后附上以上12天的直播概覽吧，小編也在辛苦的追！