大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點:替代人干真活! 原創(chuàng)
編輯 | 云昭
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
4月17日凌晨1點,一半OpenAI的模型精銳都出來秀肌肉了!
凌晨一點,OpenAI派出了8位新老大將齊聚今晚的直播間,一起解說OpenAI新發(fā)布的目前OpenAI最為強大、最為智能的模型:滿血o3和o4-mini!
可以說這次發(fā)布的重點和賣點就是:實用價值(真能代替你干活)!??????
“這些是首批得到頂尖科學(xué)家和律師認可的模型,這些模型能夠產(chǎn)生真正有價值且實用的新想法。我們已經(jīng)看到了非常出色的結(jié)果?!?Sam的好盟友、OpenAI聯(lián)創(chuàng)Geg Brockman開場來了一波客戶證言。
圖片
這次帶貨的兩大主播分別是OpenAI聯(lián)合創(chuàng)始人Greg Brockman以及首席研究官Mark Chen,
其他六位則是o系列模型的研究員或貢獻者,分別是:在OpenAI主要負責(zé)o系列模型研究的Eric Mitchell, 多模態(tài)推理研究員Brandon McKinzie, 新模型核心貢獻者Wenda Zhou, 以及去年4月臨危受命接管Ilya離職后的空懸的安全團隊任務(wù)的,現(xiàn)在是Agent Research的Fouad Matin, o系列模型貢獻者Michael Bolin (后也來到了Agent Resarch)和 Ananya Kumar。
1.滿血o3之后,模型即是Agent!
Brockman絕對是場控大哥,上來就拋出了o3和o4的兩大感受:一、模型可以被訓(xùn)練使用工具,二、模型不再僅僅是生成代碼片段而是可以處理實際的代碼問題。
“這些模型的真正神奇之處在于,它們不僅僅是普通的AI系統(tǒng)。我們可以訓(xùn)練它們使用工具,這是我們以前的模型所沒有做到的。它們在嘗試解決復(fù)雜問題時,會在思考過程中真正使用這些工具。例如,我們看到o3連續(xù)調(diào)用了600次工具來解決一些非常棘手的問題?!?/p>
還有一件讓我非常興奮的事情是,這些模型在軟件工程方面的能力不僅僅是一次性的代碼片段,而是真正能夠處理實際的代碼問題。我發(fā)現(xiàn)這些模型在這方面甚至比我更擅長,它們在我們的開源項目中表現(xiàn)得非常出色。”
Mark Chen則進一步解釋了“模型可以使用工具”的“后果”——???
“我們對工具使用的興奮源于它使我們的推理模型變得更加有用和智能。正如你可能會用計算器解決一個復(fù)雜的數(shù)學(xué)問題,或者用地圖來導(dǎo)航一樣,當(dāng)我們的模型與合適的工具結(jié)合時,它們會變得更加強大。基于這一點,我們將o系列推理模型與我們完整的工具套件相結(jié)合,在許多非常復(fù)雜的任務(wù)中取得了最先進的成果。”
Chen還舉了一個典型的例子:直接讓模型處理圖像。o3模型可以使用Python來操作、裁剪和轉(zhuǎn)換圖像,以完成你想要的任務(wù)。
“這意味著今天你可以上傳復(fù)雜的內(nèi)容。你可以上傳一張倒置的藍光圖片,而模型會處理它?!?/p>
那背后究竟是如何做到的呢?
Mark Chen解釋道:這些進步是由我們在RL范式中的持續(xù)算法改進所推動的,我們繼續(xù)在訓(xùn)練時間和測試時間上進行擴展。
讓我非常興奮的是,就在一兩周前,我看到一篇新的論文中提到了O3 Mini High,它幫助證明了一個尚未解決的定理。我真的相信,憑借O3和O4 Mini這一系列模型,我們將看到更多類似的事情。
Eric和Brandon,現(xiàn)場秀起了這兩項功能:使用工具、代碼處理圖片(多模態(tài)推理)。
圖片
Brandon解說得很到位,“我要輸入的是我2015年做的一個物理學(xué)實習(xí)項目的海報。這個項目的目標是估算一個叫做質(zhì)子ISO矢量標量的粒子物理量,它能告訴你短程相互作用的強度。你會看到模型o3正在放大圖像。它有點像在瀏覽或放大,以便更好地查看。它正在尋找我提出的問題的正確數(shù)值,也就是找到我之前的結(jié)果,并將其與最近的文獻進行比較。
但這里有一個小轉(zhuǎn)折。結(jié)果其實并不在Brandon上傳的海報里,“因為當(dāng)時我還沒有得到這個結(jié)果,盡管它在我的最終論文中,但不在這個海報里。我實際上是讓o3為我完成這個項目的剩余部分?!?/p>
演示中,o3果真找到了Brandon想要的圖表。
接下來o3還需要計算這個圖表的斜率,推導(dǎo)到一個特定的物理夸克質(zhì)量,然后抓取那個數(shù)值,并應(yīng)用另一個量來歸一化這個值。
“我認為它已經(jīng)大致明白了應(yīng)該做什么,但它還在花一點時間探索圖像?,F(xiàn)在它將開始瀏覽網(wǎng)絡(luò),尋找合理的結(jié)果。”
“它告訴我這個結(jié)果,這很好。對我來說,重新熟悉我的項目就需要好幾天,更不用說搜索文獻了。”
而o3的厲害之處在于,它的論文理解速度已經(jīng)遠超過人類,“它肯定在幾秒鐘內(nèi)讀了至少10篇不同的論文。”
這次演示沒有翻車,o3最后給出了正確的結(jié)果,而且細節(jié)處理得也很到位,人類有時候都會粗心犯的錯,o3顯然不會。??
“它通過推導(dǎo)估算出了一個未歸一化的值,然后當(dāng)你乘以這個特定常數(shù)時,它會重新歸一化。它說,最終你會得到這個結(jié)果,這在我的論文中大概是1.2左右,然后它與實際文獻進行了比較。這里有幾個不同的估計值,看起來有點接近。
o3非常專業(yè)地指出,Brandon論文中的原始值看起來偏高,因為它需要歸一化。在乘以那個常數(shù)之后,你得到的結(jié)果與最先進的結(jié)果更一致。
不同于Brandon演示的科學(xué)研究領(lǐng)域,Eric則讓o3演示了一個更接地氣的場景:寫一篇圖文并茂的博客、甚至可以讀出來。??
圖片
“這里有一個很好的博客文章,模型在這里流暢地瀏覽,使用數(shù)據(jù)分析來展示和繪制數(shù)據(jù)。它使用Canvas生成博客文章,并在結(jié)尾處總結(jié)引用了它找到的內(nèi)容和來源?!踔量梢圆シ怕曇?。”
也就是說,有了使用工具能力的o3自己本身就是一個Agent!
正如Eric總結(jié)的:新的大模型結(jié)合上使用工具的能力,無論你是在某個科學(xué)領(lǐng)域的前沿,還是將這個模型整合到你的日常工作中,都會很有用。
2.理科難題能力幾乎撐爆測試集o4-mini AIME 99%,數(shù)學(xué)競賽近全對????
上面這些可以說是形象的讓大家知道了滿血o3和o4的厲害之處,那么基準性能上這次都有哪些新進展呢???????????
Wenda Zhou和Ananya展示了這些模型在數(shù)學(xué)、編程和科學(xué)方面的標準基準測試結(jié)果。其中Wenda Zhou從事可擴展系統(tǒng)的研究的, Ananya從事最新o系列模型的算法工作,
圖片
圖中顯示,深黃色的條形代表新的模型系列滿血o3和o4,淺黃色的條形代表舊的模型系列o1和o3-mini。
有一處很顯眼的地方,在AIME數(shù)學(xué)競賽中,僅僅使用python的o4-mini的準確率獎金達到了99%,可以說幾近于全對。
在編程任務(wù)Codeforces方面,新的模型的得分均超過了2700分,這意味著它們可以在全球參賽者中排名前300。
而GPQA是一套艱難的博士級問題,o3的得分超過了83%,這相當(dāng)令人難以置信。
如果你回望過去的兩年,就會發(fā)現(xiàn):OpenAI再大模型的復(fù)雜推理上、尤其是理工科的能力上簡直不要太領(lǐng)先。??????????????
當(dāng)然,注意滿血o3和o4-mini的優(yōu)秀的成績得益于模型的工具使用能力。這里有一個模型解決數(shù)學(xué)難題任務(wù)的展示。問題是要求你查看這個2×2的方格,并計算從未驗證過的著色組合的數(shù)量。
圖片
不過模型跟人的思考方式很不同。它首先生成了一個暴力解決方案,然后使用Python解釋器運行它,并得到了正確的答案,即82。但這個解決方案很混亂,相當(dāng)不優(yōu)雅。
“模型意識到這一點,然后簡化了它的解決方案,找到了一個更聰明的方法。然后它還再次檢查了它的答案,以增加可靠性,這很酷?!?/p>
現(xiàn)在,這些模型不僅僅是被訓(xùn)練來輸出正確答案,它們還被訓(xùn)練成有用的工具。
Ananya認為,真正酷的地方在于,團隊并沒有直接訓(xùn)練模型使用某些策略,既沒有說“簡化你的解決方案”,也沒告訴他“再次檢查”。模型是自然地學(xué)會了這些方法,這相當(dāng)令人難以置信。
Zhou補充表示,模型本質(zhì)上產(chǎn)生了一個內(nèi)部解決方案,雖然人類也可以做到,但最初的暴力解決方案當(dāng)然在實際情境中人類是沒有時間去做的。
Zhou還展示了一個o3模型完成SWE任務(wù)的示例,這是一個涉及到工程任務(wù)和代碼錯誤的很好的示例。
圖片
圖中的問題,實際上是要模型要解決的是關(guān)于一個名為Sympi的包中的一個錯誤,這是一個用于符號數(shù)學(xué)的Python包。Zhou用問題提示它,并且給模型提供了一個容器,里面有Sympi的代碼庫。所以模型可以訪問一個所有代碼。?
o3模型最后處理的也很nice?!八婚_始只是再次確認我在說什么,并看看它是否觀察到了同樣的事情,就像人的第一反應(yīng)?!?/p>
緊接著,模型總是會問一些好問題。所以,為了再次確認,它會檢查符號是否沒有正確應(yīng)用。j檢查出這是內(nèi)部行為的錯誤后,試圖修復(fù)它。
就這樣,模型會繼續(xù)瀏覽代碼,試圖找到代碼庫的層次結(jié)構(gòu),并為此使用常見的終端工具。所以,它會打開文件,打印出相關(guān)文件,并試圖找到出錯的地方。
最后找到了可疑的地方,就可以修改,應(yīng)用補丁,然后給出正確的解決方案。最后,為了確認這一點,模型還運行了一個單元測試,就像工程師在確認自己是否得到了正確答案一樣。
整個過程看起來非常繁瑣,但實際上不到2分鐘,而且一切都是模型自己完成的,Zhou透露,這一次模型進行了多輪與容器的交互,token消耗量也很驚人。?
在某些情況下,模型進行100次容器交互,80k個token,平均是37次容積交互,消耗24k個token。?
圖片
3.多模態(tài)推理任務(wù)比肩DeepResearch,速度更快?????????????
多模態(tài)能力方面,滿血o3也取得了相當(dāng)驚人的數(shù)字。???????
圖片
公開的多模態(tài)基準測試的數(shù)字顯示,在MathVistaArchive和Visual Search上,o3和o4對于多模態(tài)任務(wù)依舊非常有用。
“將推理范式應(yīng)用于多模態(tài),以前幾乎是不可能的,但現(xiàn)在正如Brandon在演示中所展示的,模型能夠在思考鏈中直接操作圖像,這帶來了巨大的提升。”
在“人類最后的考試”中,o3(無工具)、o3(python+瀏覽器等工具)、o4mini(python+瀏覽器)都能接近DeepResearch的結(jié)果。但所有三個模型的運行速度都要比DeepResearch快得多。
圖片
4.o1/o3-mini/o3-mini-high全面讓位新模型???????????????????
差不多介紹完之后,Brockman抖出來一個大料:
今天開始,ChatGPT Plus、Pro 和 Team 用戶將在模型選擇器中看到 o3、o4-mini 和 o4-mini-high,取代 o1、o3-mini 和 o3-mini-high。
為什么會這樣?o3-mini1月底才上線的,為什么“保質(zhì)期”連三個月都沒有就要涼了?
Brockman表示,主要還是推理成本的原因。
圖片
上圖顯示,o4-ini在任何給定的推理成本下都比o3-mini性能好得多。
此外,o4-mini是一個多模態(tài)模型,而且是一個小型且快速的多模態(tài)推理模型,非常值得各位嘗鮮試用。?????
不過,滿血o3跟o1對比起來,o3的結(jié)果更它可以用更少的推理成本獲得相同的性能。如果你愿意支付和o1相同的費用,那么你將獲得更高的分數(shù)。
圖片
所以你看,新模型性能漲了但成本沒漲,甚至下降了,這是一個技術(shù)上可行的事實趨勢。????????????????????????????????
圖片
據(jù)Zhou介紹,OpenAI在新模型的成本效益上進行了強有效的優(yōu)化,同時使模型在一般情況下更有用。這里要強調(diào)地是,有DeepSeek珠玉在前,OpenAI這次并不再是像圣誕節(jié)12天直播那樣之針對基準測試進行優(yōu)化,而是進行了大量的預(yù)訓(xùn)練的優(yōu)化。?????????????
“總的來說,它在多模態(tài)示例中仍然表現(xiàn)很好。我們?nèi)匀幌M@是一個更好的模型,因為它針對實際用例進行了優(yōu)化。當(dāng)你詢問問題時,你不需要等待太久,這確實是一個真實的情況?!?/p>
因為推理時延是推理場景下,不管是B端還是C端一致的剛性需求。??????
Zhou爆料說道:這些模型是經(jīng)過了大量的嚴謹科學(xué)、巧妙的創(chuàng)造力和精湛的工藝才得以誕生的?!拔覀兺度肓吮萶1多10倍的訓(xùn)練計算量來生產(chǎn)o3。這是很多人的辛勤工作。但最終結(jié)果真的非常美麗,當(dāng)我們增加計算量時,像AIMW這樣的評估表現(xiàn)持續(xù)上升?!?/p>
令人驚訝的是,這還僅僅是預(yù)訓(xùn)練環(huán)節(jié)的優(yōu)化,OpenAI下一步的目標是真正實現(xiàn)Scaling in RL,“隨著我們投入更多的RL計算量,我們也能獲得相應(yīng)的成果?!?/p>
5.彩蛋:OpenAI推出輕量級接口Codex CLI,程序員可以繼續(xù)在Agent時代拉風(fēng)了???
本來以為模型發(fā)完就結(jié)束了,結(jié)果這次還來了一個彩蛋環(huán)節(jié)。???????
兩位Agents Research的成員走進直播間,分享了一場頗有原始賽博風(fēng)格的編程秀。
“今天我們想展示的是Codex的延續(xù)。我們今天將發(fā)布一系列應(yīng)用程序,我們認為這些應(yīng)用程序?qū)⒍x未來編程的面貌?!?/p>
早在今年2月初就有人在x上曬出了用o3生成的一張ASCLL碼風(fēng)格椰子樹照片。這次兩位研究員直接來了一次更高級的復(fù)現(xiàn)。????
圖片
這次兩位用到的是Codex CLI,這是一個輕量級的接口,可以將所用的模型連接到用戶及其計算機。“你可以把它看作是一個參考實現(xiàn),展示如何安全地部署代碼執(zhí)行代理。它建立在公共API之上,比如Response API,利用了API中的新特性,如思維鏈摘要。我們的最新模型O2、O3和O4 Mini都具備多模態(tài)推理能力?!?/p>
圖片
這次的復(fù)現(xiàn)使用的Codex和o4。Fouad先截個圖甩到終端里喂給Codex。接受完輸入后,Codex將開始使用我們之前看到的多模態(tài)推理。
圖片
值得一提的是,不同于全自動的Agent,Codex支持兩種形式的工作模式,一種是完全自動化的代理模式,另一種是建議模式(默認狀態(tài)),它運行時,會給出執(zhí)行建議,讓用戶自己去批準每一個命令。?
不過即便是代理模式,一樣是安全和可靠的,“它可以運行命令,網(wǎng)絡(luò)被禁用,并且限制它對添加的目錄進行的編輯。所以,它給你帶來了一種可以放手讓某人去完成任務(wù)的安心感,但又不會帶來僅僅讓它運行任何命令所帶來的風(fēng)險?!?/p>
“使用這些模型直接在你的計算機上,你可以處理任何文件和代碼。“
6.現(xiàn)在就可以用上滿血o3!但速率限制依舊????????????????
據(jù)OpenAI官方媒體賬號消息,即日起,ChatGPT Plus、Pro 和 Team 用戶將在模型選擇器中看到 o3、o4-mini 和 o4-mini-high,取代 o1、o3-mini 和 o3-mini-high。
ChatGPT Enterprise 和 Edu 用戶將在一周內(nèi)獲得訪問權(quán)限。所有套餐的速率限制與之前的版本保持不變。接下來預(yù)計將在幾周內(nèi)發(fā)布提供全面工具支持的 o3-pro。目前,Pro 用戶仍可在“更多模型”下的模型選擇器中訪問 o1-pro。
此外,OpenAI o3 和 o4-mini 目前也可通過 Chat Completions API 和 Responses API 向開發(fā)人員開放。ps:Responses API 支持推理摘要,能夠在函數(shù)調(diào)用周圍保留推理標記以獲得更好的性能,并且很快將在模型推理中支持內(nèi)置工具,如網(wǎng)絡(luò)搜索、文件搜索和代碼解釋器。
不過,多說一嘴,即便o1下線了,但又來了一個o1-pro 難怪乎網(wǎng)友會沒好氣地抱怨OpenAI,這命名規(guī)則簡直就是個迷~?????
圖片
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:云昭