剛剛,OpenAI發布史上最強模型-o1,推理能力超人類博士!
今天凌晨1點,OpenAI終于正式發布了傳說中的“草莓”模型——o1。
除了名字不一樣,功能、推理、性能等方面與之前泄漏的內容基本一致,o1的推理模式很特殊,在回答用戶問題之前會進入擬人化思考模式,將問題分解成更小的步驟逐一解決,生成一個較長的內部思維鏈,回答的內容也更加準確。
這個技術谷歌DeepMind很早之前便進行過解讀稱為——訓練時計算(Test-time computation)。其核心技術主要使用了密集型、流程導向的驗證獎勵模型搜索,以及自適應地更新模型對響應的概率分布兩種方法。
根據OpenAI公布測試的數據顯示,o1在美國數學奧林匹克預選賽中,排名美國前500 名學生之列,并且在物理、生物學、化學基準上,首次超過了人類博士。也就是說,o1超過了GPT-4o,是現役最強的超復雜推理大模型。
o1主要開發人員介紹該產品
已經使用上的用戶表示,o1成功地寫出了一首非常困難的藏頭詩,以前的模型都無法寫出來。它在生成答案的過程中瘋狂反復推理、自我糾正,非常特別的推理模式。
已經嘗試了o1 模型,進步非常大。推理能力更好,準確性和思維復雜性似乎也更好。
超過人類博士水平,這個結果太瘋狂了!
期待已久的草莓模型終于來了。
太陽從西邊出來了,這次居然沒有候補名單?
感受一下AGI的震撼吧!
推理能力遙遙領先,這下能和Claude競爭了。
國際數學奧林匹克資格考試中,GPT-4o 只正確解決了 13% 的問題,而新模型的得分為 83%,編程競賽中的表現更好,確實有點瘋狂!
主要技術特點介紹?
擬人化的推理模式是o1的主打功能之一,與傳統模型不同,它在回答問題之前會進行深入的思考,生成一個較長的內部思維鏈。這種思維鏈的產生使得 o1 能夠更好地理解問題的本質,分析問題的各個方面,從而給出更準確和合理的答案。
自適應強化學習、糾錯則是其第二大技術特點,o1 通過大規模的強化學習算法進行訓練,在訓練過程中,模型學會了如何有效地利用其思維鏈來解決問題。
這種訓練方法使得 o1 能夠不斷優化自己的策略,識別和糾正錯誤,學會將復雜的步驟分解為更簡單的部分,并在當前方法不奏效時嘗試不同的方法來解決。通過不斷的學習和改進,o1 的推理能力得到了極大的提升,也就是說o1具備了智能體的功能。
o1使用了谷歌訓練時計算類似的技術,OpenAI發現,隨著訓練時計算資源的增加和測試時思考時間的延長,o1 的性能會不斷提升。這表明,通過增加計算資源的投入,可以進一步挖掘 o1 的潛力,使其在各種任務中表現得更加出色。
o1的其他主要特色應用功能包括,可以直接翻譯一個不健全的句子,自動補全缺失內容;可根據提示自動編寫復雜的視頻小游戲;擅長解決超復雜、冗長的推理問題。
測試數據
OpenAI對o1進行了一系列的測試,以評估其在不同領域的性能。在競爭編程問題方面,o1 在 Codeforces 編程競賽上的表現非常出色,超過83%的專業人員。
在數學競賽中,以 AIME 2024 為例,GPT - 4o 平均只能解決 12% 的問題,而 o1 平均能解決74% 的問題,若采用 64 個樣本的共識,解決率能達到83%。
使用學習到的評分函數重新排序 1000 個樣本時,解決率更是高達 93%。這樣的成績使 o1 在該考試中的得分能夠躋身美國前 500 名學生的行列,超過了美國數學奧林匹克的入選分數線。
在 PhD - Level Science Questions(GPQA Diamond)的測試中,o1 也展現出了優異的性能,超過了人類專家的表現。為了進行這項測試,研究人員招募了具有博士學位的專家來回答 GPQA - diamond 問題,結果發現 o1 的表現更為準確。
此外,o1 在 ML Benchmarks 的多個子類別中也有顯著的改進。例如,在 MATH - 500、MathVista、MMMU、MMLU 等測試中,o1 的準確率均高于 GPT - 4o。
在其他考試方面,o1 在 APEnglish Lang、APEnglish Lit、APPhysics2、AP Calculus、AP Chemistry、LSAT、SATEBRW、SATMath 等考試中的成績也顯示出了巨大優勢,整體比GPT-4o高出很多。
值得一提的是,這一次OpenAI沒有再放鴿子,ChatGPT Plush和team用戶已經可以使用該模型,同時開放了API,想體驗的小伙伴們趕緊去試試吧!
本文轉自AIGC開放社區 ,作者:AIGC開放社區
