編輯 | 云昭
4月17日凌晨1點,一半OpenAI的模型精銳都出來秀肌肉了!
凌晨一點,OpenAI派出了8位新老大將齊聚今晚的直播間,一起解說OpenAI新發布的目前OpenAI最為強大、最為智能的模型:滿血o3和o4-mini!
可以說這次發布的重點和賣點就是:實用價值(真能代替你干活)!
“這些是首批得到頂尖科學家和律師認可的模型,這些模型能夠產生真正有價值且實用的新想法。我們已經看到了非常出色的結果。” Sam的好盟友、OpenAI聯創Geg Brockman開場來了一波客戶證言。
圖片
這次帶貨的兩大主播分別是OpenAI聯合創始人Greg Brockman以及首席研究官Mark Chen,
其他六位則是o系列模型的研究員或貢獻者,分別是:在OpenAI主要負責o系列模型研究的Eric Mitchell, 多模態推理研究員Brandon McKinzie, 新模型核心貢獻者Wenda Zhou, 以及去年4月臨危受命接管Ilya離職后的空懸的安全團隊任務的,現在是Agent Research的Fouad Matin, o系列模型貢獻者Michael Bolin (后也來到了Agent Resarch)和 Ananya Kumar。
1.滿血o3之后,模型即是Agent!
Brockman絕對是場控大哥,上來就拋出了o3和o4的兩大感受:一、模型可以被訓練使用工具,二、模型不再僅僅是生成代碼片段而是可以處理實際的代碼問題。
“這些模型的真正神奇之處在于,它們不僅僅是普通的AI系統。我們可以訓練它們使用工具,這是我們以前的模型所沒有做到的。它們在嘗試解決復雜問題時,會在思考過程中真正使用這些工具。例如,我們看到o3連續調用了600次工具來解決一些非常棘手的問題。”
還有一件讓我非常興奮的事情是,這些模型在軟件工程方面的能力不僅僅是一次性的代碼片段,而是真正能夠處理實際的代碼問題。我發現這些模型在這方面甚至比我更擅長,它們在我們的開源項目中表現得非常出色。”
Mark Chen則進一步解釋了“模型可以使用工具”的“后果”——
“我們對工具使用的興奮源于它使我們的推理模型變得更加有用和智能。正如你可能會用計算器解決一個復雜的數學問題,或者用地圖來導航一樣,當我們的模型與合適的工具結合時,它們會變得更加強大。基于這一點,我們將o系列推理模型與我們完整的工具套件相結合,在許多非常復雜的任務中取得了最先進的成果。”
Chen還舉了一個典型的例子:直接讓模型處理圖像。o3模型可以使用Python來操作、裁剪和轉換圖像,以完成你想要的任務。
“這意味著今天你可以上傳復雜的內容。你可以上傳一張倒置的藍光圖片,而模型會處理它。”
那背后究竟是如何做到的呢?
Mark Chen解釋道:這些進步是由我們在RL范式中的持續算法改進所推動的,我們繼續在訓練時間和測試時間上進行擴展。
讓我非常興奮的是,就在一兩周前,我看到一篇新的論文中提到了O3 Mini High,它幫助證明了一個尚未解決的定理。我真的相信,憑借O3和O4 Mini這一系列模型,我們將看到更多類似的事情。
Eric和Brandon,現場秀起了這兩項功能:使用工具、代碼處理圖片(多模態推理)。
圖片
Brandon解說得很到位,“我要輸入的是我2015年做的一個物理學實習項目的海報。這個項目的目標是估算一個叫做質子ISO矢量標量的粒子物理量,它能告訴你短程相互作用的強度。你會看到模型o3正在放大圖像。它有點像在瀏覽或放大,以便更好地查看。它正在尋找我提出的問題的正確數值,也就是找到我之前的結果,并將其與最近的文獻進行比較。
但這里有一個小轉折。結果其實并不在Brandon上傳的海報里,“因為當時我還沒有得到這個結果,盡管它在我的最終論文中,但不在這個海報里。我實際上是讓o3為我完成這個項目的剩余部分。”
演示中,o3果真找到了Brandon想要的圖表。
接下來o3還需要計算這個圖表的斜率,推導到一個特定的物理夸克質量,然后抓取那個數值,并應用另一個量來歸一化這個值。
“我認為它已經大致明白了應該做什么,但它還在花一點時間探索圖像。現在它將開始瀏覽網絡,尋找合理的結果。”
“它告訴我這個結果,這很好。對我來說,重新熟悉我的項目就需要好幾天,更不用說搜索文獻了。”
而o3的厲害之處在于,它的論文理解速度已經遠超過人類,“它肯定在幾秒鐘內讀了至少10篇不同的論文。”
這次演示沒有翻車,o3最后給出了正確的結果,而且細節處理得也很到位,人類有時候都會粗心犯的錯,o3顯然不會。
“它通過推導估算出了一個未歸一化的值,然后當你乘以這個特定常數時,它會重新歸一化。它說,最終你會得到這個結果,這在我的論文中大概是1.2左右,然后它與實際文獻進行了比較。這里有幾個不同的估計值,看起來有點接近。
o3非常專業地指出,Brandon論文中的原始值看起來偏高,因為它需要歸一化。在乘以那個常數之后,你得到的結果與最先進的結果更一致。
不同于Brandon演示的科學研究領域,Eric則讓o3演示了一個更接地氣的場景:寫一篇圖文并茂的博客、甚至可以讀出來。
圖片
“這里有一個很好的博客文章,模型在這里流暢地瀏覽,使用數據分析來展示和繪制數據。它使用Canvas生成博客文章,并在結尾處總結引用了它找到的內容和來源。……甚至可以播放聲音。”
也就是說,有了使用工具能力的o3自己本身就是一個Agent!
正如Eric總結的:新的大模型結合上使用工具的能力,無論你是在某個科學領域的前沿,還是將這個模型整合到你的日常工作中,都會很有用。
2.理科難題能力幾乎撐爆測試集o4-mini AIME 99%,數學競賽近全對
上面這些可以說是形象的讓大家知道了滿血o3和o4的厲害之處,那么基準性能上這次都有哪些新進展呢?
Wenda Zhou和Ananya展示了這些模型在數學、編程和科學方面的標準基準測試結果。其中Wenda Zhou從事可擴展系統的研究的, Ananya從事最新o系列模型的算法工作,
圖片
圖中顯示,深黃色的條形代表新的模型系列滿血o3和o4,淺黃色的條形代表舊的模型系列o1和o3-mini。
有一處很顯眼的地方,在AIME數學競賽中,僅僅使用python的o4-mini的準確率獎金達到了99%,可以說幾近于全對。
在編程任務Codeforces方面,新的模型的得分均超過了2700分,這意味著它們可以在全球參賽者中排名前300。
而GPQA是一套艱難的博士級問題,o3的得分超過了83%,這相當令人難以置信。
如果你回望過去的兩年,就會發現:OpenAI再大模型的復雜推理上、尤其是理工科的能力上簡直不要太領先。
當然,注意滿血o3和o4-mini的優秀的成績得益于模型的工具使用能力。這里有一個模型解決數學難題任務的展示。問題是要求你查看這個2×2的方格,并計算從未驗證過的著色組合的數量。
圖片
不過模型跟人的思考方式很不同。它首先生成了一個暴力解決方案,然后使用Python解釋器運行它,并得到了正確的答案,即82。但這個解決方案很混亂,相當不優雅。
“模型意識到這一點,然后簡化了它的解決方案,找到了一個更聰明的方法。然后它還再次檢查了它的答案,以增加可靠性,這很酷。”
現在,這些模型不僅僅是被訓練來輸出正確答案,它們還被訓練成有用的工具。
Ananya認為,真正酷的地方在于,團隊并沒有直接訓練模型使用某些策略,既沒有說“簡化你的解決方案”,也沒告訴他“再次檢查”。模型是自然地學會了這些方法,這相當令人難以置信。
Zhou補充表示,模型本質上產生了一個內部解決方案,雖然人類也可以做到,但最初的暴力解決方案當然在實際情境中人類是沒有時間去做的。
Zhou還展示了一個o3模型完成SWE任務的示例,這是一個涉及到工程任務和代碼錯誤的很好的示例。
圖片
圖中的問題,實際上是要模型要解決的是關于一個名為Sympi的包中的一個錯誤,這是一個用于符號數學的Python包。Zhou用問題提示它,并且給模型提供了一個容器,里面有Sympi的代碼庫。所以模型可以訪問一個所有代碼。
o3模型最后處理的也很nice。“它一開始只是再次確認我在說什么,并看看它是否觀察到了同樣的事情,就像人的第一反應。”
緊接著,模型總是會問一些好問題。所以,為了再次確認,它會檢查符號是否沒有正確應用。j檢查出這是內部行為的錯誤后,試圖修復它。
就這樣,模型會繼續瀏覽代碼,試圖找到代碼庫的層次結構,并為此使用常見的終端工具。所以,它會打開文件,打印出相關文件,并試圖找到出錯的地方。
最后找到了可疑的地方,就可以修改,應用補丁,然后給出正確的解決方案。最后,為了確認這一點,模型還運行了一個單元測試,就像工程師在確認自己是否得到了正確答案一樣。
整個過程看起來非常繁瑣,但實際上不到2分鐘,而且一切都是模型自己完成的,Zhou透露,這一次模型進行了多輪與容器的交互,token消耗量也很驚人。
在某些情況下,模型進行100次容器交互,80k個token,平均是37次容積交互,消耗24k個token。
圖片
3.多模態推理任務比肩DeepResearch,速度更快
多模態能力方面,滿血o3也取得了相當驚人的數字。
圖片
公開的多模態基準測試的數字顯示,在MathVistaArchive和Visual Search上,o3和o4對于多模態任務依舊非常有用。
“將推理范式應用于多模態,以前幾乎是不可能的,但現在正如Brandon在演示中所展示的,模型能夠在思考鏈中直接操作圖像,這帶來了巨大的提升。”
在“人類最后的考試”中,o3(無工具)、o3(python+瀏覽器等工具)、o4mini(python+瀏覽器)都能接近DeepResearch的結果。但所有三個模型的運行速度都要比DeepResearch快得多。
圖片
4.o1/o3-mini/o3-mini-high全面讓位新模型
差不多介紹完之后,Brockman抖出來一個大料:
今天開始,ChatGPT Plus、Pro 和 Team 用戶將在模型選擇器中看到 o3、o4-mini 和 o4-mini-high,取代 o1、o3-mini 和 o3-mini-high。
為什么會這樣?o3-mini1月底才上線的,為什么“保質期”連三個月都沒有就要涼了?
Brockman表示,主要還是推理成本的原因。
圖片
上圖顯示,o4-ini在任何給定的推理成本下都比o3-mini性能好得多。
此外,o4-mini是一個多模態模型,而且是一個小型且快速的多模態推理模型,非常值得各位嘗鮮試用。
不過,滿血o3跟o1對比起來,o3的結果更它可以用更少的推理成本獲得相同的性能。如果你愿意支付和o1相同的費用,那么你將獲得更高的分數。
圖片
所以你看,新模型性能漲了但成本沒漲,甚至下降了,這是一個技術上可行的事實趨勢。
圖片
據Zhou介紹,OpenAI在新模型的成本效益上進行了強有效的優化,同時使模型在一般情況下更有用。這里要強調地是,有DeepSeek珠玉在前,OpenAI這次并不再是像圣誕節12天直播那樣之針對基準測試進行優化,而是進行了大量的預訓練的優化。
“總的來說,它在多模態示例中仍然表現很好。我們仍然希望這是一個更好的模型,因為它針對實際用例進行了優化。當你詢問問題時,你不需要等待太久,這確實是一個真實的情況。”
因為推理時延是推理場景下,不管是B端還是C端一致的剛性需求。
Zhou爆料說道:這些模型是經過了大量的嚴謹科學、巧妙的創造力和精湛的工藝才得以誕生的。“我們投入了比o1多10倍的訓練計算量來生產o3。這是很多人的辛勤工作。但最終結果真的非常美麗,當我們增加計算量時,像AIMW這樣的評估表現持續上升。”
令人驚訝的是,這還僅僅是預訓練環節的優化,OpenAI下一步的目標是真正實現Scaling in RL,“隨著我們投入更多的RL計算量,我們也能獲得相應的成果。”
5.彩蛋:OpenAI推出輕量級接口Codex CLI,程序員可以繼續在Agent時代拉風了
本來以為模型發完就結束了,結果這次還來了一個彩蛋環節。
兩位Agents Research的成員走進直播間,分享了一場頗有原始賽博風格的編程秀。
“今天我們想展示的是Codex的延續。我們今天將發布一系列應用程序,我們認為這些應用程序將定義未來編程的面貌。”
早在今年2月初就有人在x上曬出了用o3生成的一張ASCLL碼風格椰子樹照片。這次兩位研究員直接來了一次更高級的復現。
圖片
這次兩位用到的是Codex CLI,這是一個輕量級的接口,可以將所用的模型連接到用戶及其計算機。“你可以把它看作是一個參考實現,展示如何安全地部署代碼執行代理。它建立在公共API之上,比如Response API,利用了API中的新特性,如思維鏈摘要。我們的最新模型O2、O3和O4 Mini都具備多模態推理能力。”
圖片
這次的復現使用的Codex和o4。Fouad先截個圖甩到終端里喂給Codex。接受完輸入后,Codex將開始使用我們之前看到的多模態推理。
圖片
值得一提的是,不同于全自動的Agent,Codex支持兩種形式的工作模式,一種是完全自動化的代理模式,另一種是建議模式(默認狀態),它運行時,會給出執行建議,讓用戶自己去批準每一個命令。
不過即便是代理模式,一樣是安全和可靠的,“它可以運行命令,網絡被禁用,并且限制它對添加的目錄進行的編輯。所以,它給你帶來了一種可以放手讓某人去完成任務的安心感,但又不會帶來僅僅讓它運行任何命令所帶來的風險。”
“使用這些模型直接在你的計算機上,你可以處理任何文件和代碼。“
6.現在就可以用上滿血o3!但速率限制依舊
據OpenAI官方媒體賬號消息,即日起,ChatGPT Plus、Pro 和 Team 用戶將在模型選擇器中看到 o3、o4-mini 和 o4-mini-high,取代 o1、o3-mini 和 o3-mini-high。
ChatGPT Enterprise 和 Edu 用戶將在一周內獲得訪問權限。所有套餐的速率限制與之前的版本保持不變。接下來預計將在幾周內發布提供全面工具支持的 o3-pro。目前,Pro 用戶仍可在“更多模型”下的模型選擇器中訪問 o1-pro。
此外,OpenAI o3 和 o4-mini 目前也可通過 Chat Completions API 和 Responses API 向開發人員開放。ps:Responses API 支持推理摘要,能夠在函數調用周圍保留推理標記以獲得更好的性能,并且很快將在模型推理中支持內置工具,如網絡搜索、文件搜索和代碼解釋器。
不過,多說一嘴,即便o1下線了,但又來了一個o1-pro 難怪乎網友會沒好氣地抱怨OpenAI,這命名規則簡直就是個迷~
圖片