擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天

51CTO技術棧

發布于 2024-12-23 09:59

瀏覽

0收藏

編輯｜言征、伊風

網友誠不我欺，o3果真來了！

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

就在昨天谷歌推出自己的多模態推理大模型Thingking之后，OpenAI終于坐不住了，在十二天直播的最后一天，發布了自己最先進的下一代模型o3！這里不得不感嘆一句，友商的壓力是無窮的～

不過，有朋友會好奇問，既然是下一代模型，為什么會跳過o2直接出o3呢？這可不是OpenAI今年擠牙膏式發布的風格。

原來是商標版權的問題：

據theinformation報道，OpenAI正在開發其下一代o1推理模型，在響應之前，這將需要更多時間來“思考”用戶查詢。然而，由于與英國電信服務提供商O2的潛在版權或商標沖突，該公司正在考慮跳過“o2”這個名字。

直播中，奧特曼也證明了這一說法。

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

這次OpenAI發布了兩款型號：o3和o3 mini。前者性能最強，甚至可以在博士級科學任務上超過人類平均水平，當然也最貴；后者性價比被奧特曼稱為“已經做了最大性價比的優化”。

有這樣一句評價：o1只是用強化學習訓練了GPT，o3才是真正的展現了推理Scaling Law定律的擴展空間。

看點上，聚光燈還是給到了o3的出色編程和數學能力。相信大家對于這兩塊已經審美疲勞了，不過不要緊，這次OpenAI引進了不少的新的測試用例和基準，給了大家耳目一新的感覺，值得一探。

打敗99.9%人類程序員的超強編程能力

首先，作為被大模型率先盯上的生產力變革領域，大模型的編程能力，o3刷新了先有模型的基準。在流行的SWE基準測試上，o3達到了驚人的71.7的分數，可以理解成1000道編碼工程問題，o3可以直接為717道問題生成正確的代碼布丁并通過單元測試，而且用時還比人類少很多（分鐘級）。

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

其次，還有一個非常新鮮的基準測試：Codeforces。這是個什么鬼？這里要首先科普下，cedeforce是一個人類編程競技平臺。這次測試就是要讓AI 在 codeforces 上面參與競賽，是跟人類選手一樣，在比賽時才會拿到賽題。

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

如果高分參賽者輸給了低分參賽者時，那么高分參賽者的 Elo 分數會下降，而低分參賽者的 Elo 分數會上升。令人吃驚的是，目前這個競賽，有 168076 名來自全球各地的程序員參賽。

而o3竟然已經排到了175，Elo分數超過了2700分，有熱心的網友直呼：這不意味著o3已經在編程競技中擊敗了世界上 1-175/168076=99.9% 的程序員嗎？

數學：刷榜最難數學測試，吊打sota

那么，o3這次在數學方面有哪些新看點呢？

一、在美國數學奧林匹克預科考試（AIME）中，o3只打錯了一道題，在上一個版本o1最好的水平是答錯了5道題目。

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

二、在處理博士級水平的科學任務方面，o3同樣也得到了顯著的代際提升，GPQA Diamond測試水平87.7%，已經超過了人類博士的平均水平（70%），o1的數字則是78.3%。

三、還有項測試：號稱最難數學測試的 EpochAI Frontier Math，包含最新未公開前沿題目。o3在測試中比之前SOTA從2分提升到25分。這個也是沒想到的，一下提高了12倍！

據說，這項測試難度極高，人類專業數學家解決其中一道題目也要花費數小時到數天，現在o3只需要思考幾分鐘了。

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

AGI測試新突破，邁入新階段

Keras之父Fran?ois Chollet發起了一項面向AGI能力的測試基準ARC-AGI，典型題目為圖形邏輯推理。比如這樣式兒的——

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

這些圖形邏輯推理題對于人類而言并不是很難，但是它能考驗模型推理的創新適應性能力，而o3在ARC-AGI上的分數從32%躍升到了75.7%、87.5%，可以說踏入了一個新階段。

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

那為什么是兩個分數？原因當然是因為o3設置了兩個思考模式——低思考程度和高思考程度兩種設置，高思考程度花費的算力也是大的嚇人。

這里有兩個冷知識——

1.這個ARC-AGI測試中，所有任務都具有獨特性，無法提前準備；不需要特定的世界知識或語言能力；僅依賴人類普遍具備的核心認知能力。

2.AI 參與 ARC-AGI 測試的要求是：讓AI在ARC-AGI-1公共訓練集上進行訓練，訓練的預算成本要小于 1 萬美元。

但，這并不意味著o3已經是AGI了，據介紹，在該項測試中，一些非常簡單的任務，o3依舊會出錯。

有關o3 mini

OpenAI 以思考的時間和成本為基準，不僅將 o3 系列分成了 o3 和 o3 mini，甚至更進一步的將 o3 mini 分成了 low、medium、high（低中高）三個型號。

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區

而 o1 的平均思考時間是 8.92 秒，o3 mini（high）直接翻了差不多兩倍，達到了 23.33 秒的平均思考時間。

而 o3 mini（high）在一些任務上是 o1 水平，o3 旗艦版的平均思考時間這里沒有放出來，有網友認為可能已經達到了分鐘級。

基本上就是這些了，可以看出這次o3的發布，還是給出了不少驚喜：很多都是階躍式的提升。

相信各位朋友對于能不能用上更感興趣，目前o3也只是展示階段，還沒有真正開放使用，奧特曼透露，o3 mini會在明年1月底前發布，o3也會在那之后不久開放，現在呢，如果有心急的朋友可以先去申請測試：

??https://openai.com/index/early-access-for-safety-testing/??

最后附上以上12天的直播概覽吧，小編也在辛苦的追！

OpenAI12天發布回顧

DAY-1: o1滿血版上線

滿血版o1上線多模態推理，推理速度和正確率比preview版顯著提升
發布200美元/月的ChatGPT Pro 訂閱計劃，可無限制訪問 o1，還可訪問特供版o1 Pro

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

DAY-2: 新功能強化微調推出

強化微調功能上線，最低幾十個例子就可創建專家模型，使開發人員能夠創建針對各種領域復雜任務的專用AI模型

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

DAY-3: Sora公開可用

Sora上線，開放給ChatGPT Plus/Pro用戶
Sora新增故事版（Storyboard）、Remix、Re-cut、Loop等功能

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

DAY-4: Canvas正式上線

Canvas上線，提供了智能寫作、代碼協作和AI智能體為一體的工作臺

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

上圖：Canvas界面，可以隨時與ChatGPT交互

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區逐漸變得濃烈的圣誕裝扮

DAY-5: 官宣和蘋果的合作

ChatGPT宣布全面接入蘋果設備，包括iPhone、iPad和Mac，支持Apple Intelligence

DAY-6: OpenAI的Her功能上線

此前的AI實時視頻對話功能推出，允許用戶通過攝像頭與ChatGPT進行互動
團隊用戶、ChatGPT Plus/Pro用戶可以訪問此項功能

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

DAY-7: Projects 功能上線

ChatGPT添加了“Projects”功能，相當于給ChatGPT的對話搞了個文件夾
“Projects”允許用戶組織聊天會話，并上傳文件、設置項目指令

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

DAY-8: ChatGPT Search功能開放

ChatGPT Search功能開放給了免費用戶，并進行了大量更新，包括實時搜索、高級語音等功能

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

DAY-9: API的重大更新

OpenAI將o1模型通過API全面向第三方開發者開放
宣布了對Realtime API的重大更新，價格全面下調（實時API音頻token價格降了60%）
推出一種全新的微調方法——偏好微調，根據開發人員的偏好更輕松地定制模型

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區因為與o1有關，成員很有梗的穿了草莓毛衣

DAY-10: ChatGPT熱線電話

OpenAI熱線開通，美國用戶撥打1-800-ChatGPT（或 1-800-242-8478）
短信服務：給上述號碼發送WhatsApp獲得ChatGPT回復

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

DAY-11: ChatGPT與Mac應用深度集成

桌面版ChatGPT打通了部分編程和寫作應用，例如Warp、XCode、Notion，能夠更加方便地執行任務

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

DAY-12: o3/o3 mini發布

OpenAI最新最強模型o3，在AGI測試方面躍升

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區圖片

完結，撒花，冬至快樂～

本文轉載自??51CTO技術棧??，作者：言征、伊風

標簽

OpenAI

AGI

已于2024-12-26 17:00:29修改

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天

打敗99.9%人類程序員的超強編程能力

數學：刷榜最難數學測試，吊打sota

AGI測試新突破，邁入新階段

有關o3 mini

OpenAI12天發布回顧

DAY-1: o1滿血版上線

DAY-2: 新功能強化微調推出

DAY-3: Sora公開可用

DAY-4: Canvas正式上線

DAY-5: 官宣和蘋果的合作

DAY-6: OpenAI的Her功能上線

DAY-7: Projects 功能上線

DAY-8: ChatGPT Search功能開放

DAY-9: API的重大更新

DAY-10: ChatGPT熱線電話

DAY-11: ChatGPT與Mac應用深度集成

DAY-12: o3/o3 mini發布

目錄