滿血版o1深夜震撼上線，奧特曼懟臉演示超強推理！終極Pro版每月1450元

作者：新智元 2024-12-06 08:36:31

就在剛剛，滿血版o1震撼上線了！它首次將多模態和新的推理范式結合起來，更智能、更快速。同時推出的還有200美元/月的專業版ChatGPT Pro。奧特曼親自和Jason Wei等人做了演示，同時放出的，還有49頁完整論文。據網友預測，GPT-4.5可能也要來了。

果不其然，滿血版o1終于正式上線了，而且還帶來了地表最強o1 Pro Mode！

12天連更第一天，OpenAI隨手扔了一個炸彈。

這次，Sam Altman本人正式出鏡，和研究科學家Hyung Won Chung、Max，以及思維鏈提出者Jason Wei一起，在短短15分鐘內速速完成了發布。

完整版o1是一個更快、更強大的推理模型，更擅長編碼、數學和寫作。

它可以上傳圖片，根據圖片進行推理，給出更詳細、更有用的回復。

給出一個人工鳥巢圖像，模型就生成了安裝手冊

在多項基準測試中，完整版o1性能直接暴漲，在數學、代碼、博士級別科學問題中，拿下了最優的成績。

相較于o1-preview，o1數學性能提升了近30%，代碼能力提升了27%。再看GPT-4o，幾乎沒有任何優勢了。

更值得一提的是，o1在GPQA Diamond基準測試中，表現完全超越了人類專家。

現在，所有ChatGPT Plus用戶，都已經可以用上o1了。

接下來，o1 Pro Mode更是強到令人發指，數學性能要比o1提升7.5%，在博士級別科學問題中，實現了79.3%的表現。

另外，o1模型還進行了更具挑戰性的Worst of 4基準的評估。

它要求模型對每個問題進行四次嘗試，只有在所有四次嘗試中都給出正確答案，該問題才被視為真正「解決」。

如下所示，o1 Pro在數學、代碼、博士級別科學問題上，均是性能最優的，而且o1比預覽版的性能也大幅提升。

奧特曼直接總結了下今日發布兩件大事：

o1，世界上最智能的模型，比o1-preview更智能、更快速、功能更多（如多模態）。現在已在ChatGPT中上線，很快將API中上線。
ChatGPT Pro，定價為200美元/月。無限制使用，使用o1時還有更智能的模式！

奧特曼幽默風趣地表示，「o1雖強，但還沒有強大到宇宙派遣海嘯來阻止的程度」。

德撲之父、OpenAI研究科學家Noam Brown表示，「o1（草莓模型）它可以做得更好，而不僅僅是計算『草莓』中有多少個r」。

現在，OpenAI正在處理更多計算密集型任務，還在給o1模型添加網頁瀏覽、文件上傳等工具，并且在努力將o1引入API。

他們還會為開發者提供一些新功能，比如結構化輸出、函數調用、開發者消息、API圖像理解功能等。

全新的智能體領域，也將很快開啟。

明天上線的，就是為開發者打造的精彩內容。

現場演示

OpenAI的12天特別活動，將嘗試一項迄今沒有任何科技公司做過的事——在接下來的12個工作日，發布或演示一些新開發的新東西。

12天中的Day 1，正式拉開序幕。

奧特曼同OpenAI的三位員工一起，給大家帶來了o1完整版的演示。整個過程不到20分鐘，如奧特曼所說既快速又有趣。

滿血版o1來了

首先，就是o1的完整版。

網友們反饋，希望o1-preview更智能、更迅速、支持多模態，并且更好地遵循指令。

據此OpenAI做了許多工作，做出了這個「科學家、工程師、程序員會很喜歡的模型」。

從GPT-4o到o1-preview再到o1，模型在數學、編程競賽、GPQA Diamond方面方面性能暴漲，但奧特曼強調：我們非常關心的是原始智能，尤其是在編碼性能上。

o1的獨特之處在于，它是第一個在回應前會先思考的模型。這意味著，它比其他模型提供了更好、更詳細、更準確的響應。

o1模型將很快取代o1-preview，因為它更快、更智能。

而在o1 Pro模式中，用戶可以要求模型使用更多的計算資源，來解決一些最困難的問題。

對于已經在數學、編程和寫作任務上將模型推向能力極限的用戶，將感到驚嘆。

響應更快

首先，o1的提升，并不只是解決非常難的數學和編程問題，OpenAI收到的關于o1-preview的最多的反饋是，它的速度太慢了——只是說hi，它都要思考10秒鐘。

現在，這個問題已被解決。

OpenAI研究者打趣地說，這件事其實很好玩——它真的思考了，真的在關心你。

現在，如果你問一個簡單問題，它就會很快回答，不會想太多了。但如果問一個很難的問題，它就會思考很長時間。

經過非常詳細的真人評估之后，研究者們發現，它犯重大錯誤的頻率，比o1-preview要低大約34%，同時思考速度提升了50%。

作為歷史愛好者，Max給大家帶來第一個演示。

左邊是o1，右邊是o1-preview。

提問：列出二世紀的羅馬皇帝、在位時間，以及他們做過的事。

這個問題，GPT-4o在真正回答時，在相當一部分情況下會出錯，而o1的響應速度o1-preview快了約60%。（目前，OpenAI正在將所有的GPU從o1-preview更換到o1）

可以看到，o1思考了大約14秒后給出答案，而o1-preveiw思考了大約33秒。

不少羅馬皇帝只統治了6天、12天或一個月，所以回答出所有答案并不簡單

多模態輸入和圖像理解

為了展示多模態輸入和推理，研究者創建了下面這個問題，并附上了手繪圖。

圖中，太陽正在為太陽能板提供能量，旁邊還有一個小型數據中心。在地球上，可以使用風冷或液冷來給GPU降溫，但在太空中，只能將這種熱量輻射到宇宙空間，因此需要泵裝置

給o1的問題如下——

在未來，OpenAI可能會在太空環境中訓練模型，功率數值是1吉瓦。
這是一個簡化的數據中心空間示意圖。對于任何細節假設，請提供相應的理由。如果受到了規范輻射的影響，你的任務是估算這個包含GPU的數據中心的輻射損失面積。在此過程中，還需要回答以下問題：
1）你如何處理太陽和宇宙輻射？
2）熱力學第一定律如何應用到這個問題中？

拍照后將圖片上傳到模型，它很快給出了回答。

注意，這個題目中，有多個陷阱。

首先，一吉瓦的功率只是在紙面提到的，顯然，模型很好地從圖中捕捉到了這一點。

其次，研究者故意將這個問題描述得不夠具體，他省略了冷卻板的溫度這類關鍵參數，專門用來考驗模型處理模糊性問題的能力。

果然，o1發現了這一點！它識別出，這是一個未具體指定但很重要的參數，而且令人驚喜地選擇了正確的溫度范圍，然后進行了后續分析。

這個答案，經過了擁有熱力學博士學位的研究者的認證。

從這個演示可以看出，o1在做出一致且合理假設上表現非常優秀，已經具備了相當高的智能水平。

ChatGPT Pro上線，每月200美元

很多人，尤其是ChatGPT的重度用戶使用得非常頻繁，所以希望獲得比每月20美元更多的計算資源。

因此，OpenAI推出了ChatGPT Pro——直接將訂閱費用拉到了200美元/月。

Pro版可以無限制地訪問模型，包括o1、4.0和高級語音模式等功能，此外，它還包含一個新功能——o1 Pro Mode。

o1是目前世界上最智能的模型，除了在Pro模式中使用的o1之外。對于人們遇到的最難的問題，o1 Pro模式可以讓表現更進一步。

在處理高難度的數學、科學、編程問題時，o1 Pro尤其有用。

研究者提出了一個極有挑戰性的化學問題，o1-preview通常會答錯。

在這個問題中，模型被要求找到一種符合特定標準的蛋白質。挑戰就在于，為了滿足六個標準，每個都需要模型回憶起高度專業的化學知識。

而且，對于任何標準，都可能有數十種蛋白質符合。

因此，模型必須考慮所有候選選項，檢查它們是否符合所有標準。

哪種蛋白質嚴格符合以下標準？

1. 前體多肽的長度為210到230個氨基酸殘基

2. 編碼該蛋白質的基因跨越32千個堿基對

3. 該基因位于X染色體的Xp22帶

4. 信號肽由23個氨基酸殘基組成

5. 該蛋白質促進細胞間粘附

6. 該蛋白質在維持神經系統特定部分的健康中起關鍵作用

在53秒內，模型就給出了正確答案，表現格外出色。

演示即將結束時，Jason Wei帶來這個笑話：圣誕老人想讓LLM解決一個數學問題，但怎樣努力地prompt都不起作用，他是怎么解決的？

答案是——他使用了馴鹿強化學習（reindeer enforcement learning）。

這個梗已經被玩起來了。

GPT-4.5也要來？

第一天就如此轟轟烈烈，網友直接原地炸翻。

o1如此強大，只需每月20刀，就能在口袋里擁有一個博士級智囊。

OpenAI研究科學家Jason Wei表示，o1確實是一個傳奇，主要亮點有：

面對復雜問題，o1能夠進行更深入、更全面的思考
對于簡單問題，o1能夠快速給出精準答案
同時處理圖像和文本信息
o1 Pro為模型增添了更強大的思考能力

OpenAI研究員測試o1 Pro回答草莓問題，思考1分49秒后，準確答出了3個r。

OpenAI產品副總表示，我每天都使用這個模型，進行編碼、復雜的計算，甚至寫作。

英偉達高級科學家Jim Fan表示，希望看到與Claude 3.5的直接代碼能力對比測試，我不太關心數學問題測試集，因為擬合太嚴重了，比如它能夠解決奧數題，但是錯誤回答了9.9>9.11的問題。

目前，編程是最重要的文本模態。

正如Noam Brown實測后發現，井字棋并沒有被o1征服。

另有網友看到o1 Pro在編碼上性能，相較于o1僅僅提升了1%，直接質問奧特曼，「你還說沒有墻，這是怎么回事」？

奧特曼本人表示，這才是12天連更第一天！

據可靠爆料人摘出的代碼中，可以看到未來幾天，可能還會有GPT-4.5的上線。

爆料人Tibor Blaho在OpenAI還未直播之前，就準確預測了ChatGPT Pro版本

完整版49頁論文放出

當然了，隨著o1的面世，背后整整49頁技術報告也來了。

論文地址：https://cdn.openai.com/o1-system-card-20241205.pdf

不論是預覽版，還是完整版o1，都是通過大規模強化學習進行了訓練，掌握了一種前沿的思維鏈CoT的推理方法。

這種方法，不僅僅是簡單地給出答案，而是像人類思考一樣，逐步分析和推理。

而且，o1系列模型的一個重大突破在于——安全性推理能力。

當面對潛在的不安全提示詞時，它能精準理解上下文，根據預設安全策略進行深度推理。

這使得o1在多個安全基準測試中，展現出卓越的性能，比如有效地址非法建議的生成、拒絕刻板印象的響應、低于已知的模型越獄攻擊。

結合CoT的智能增強的同時，也帶了潛在的風險。

為了確保模型安全，OpenAI研發團隊采取了多層次的風險管理策略。

比如，他們建立了穩健的對齊方法，進行了廣泛的壓力測試，并維護細致的風險管理協議。

這份報告全面概括了對o1和o1-mini模型的全面安全評估，包括安全評估、外部紅隊測試（模擬攻擊測試）和準備度框架評估。

數據和訓練

在此之前，先來了解下o1的數據和訓練過程。

完整版o1是該系列旗艦模型，o1-mini是專注編碼的輕量級版本。

通過強化學習RL進行訓練的目的，就是讓o1系列能夠進行復雜的推理。

o1在回答之前進行思考——它可以在響應用戶之前產生長的思維鏈條。

通過訓練，模型學會了優化思維過程，去嘗試不同的策略，并自主識別錯誤。

推理使o1模型能夠遵循OpenAI設定的特定指南和模型政策，幫助其符合安全期望。

不僅如此，o1模型的訓練數據源豐富多樣，包括公開可用數據、通過合作伙伴關系訪問的專有數據，以及內部開發的自定義數據集。

- 公共數據：

兩個模型都在各種公開可用的數據集上進行了訓練，包括網絡數據和開源數據集。

關鍵組成部分包括推理數據和科學文獻。這確保了模型在一般知識和技術主題上都很精通，增強了它們執行復雜推理任務的能力。

- 來自數據合作伙伴的專有數據：

為了進一步增強o1和o1-mini的能力，OpenAI通過戰略合作，獲取高價值的非公開數據集。

這些專有數據源包括收費內容、專業檔案和其他特定領域的數據集，提供了對行業特定知識和用例的更深入見解。

- 數據過濾和優化：

OpenAI數據處理管道包括嚴格的過濾，以保持數據質量和減輕潛在風險。研究團隊使用先進的數據過濾流程來減少訓練數據中的個人信息。他們還結合使用自家的審核API和安全分類器，防止使用有害或敏感內容，包括諸如 CSAM等材料。

安全性評估

關于禁止內容的評估結果顯示， o1要么與GPT-4o持平，要么超越GPT-4o。

特別是，o1-preview和o1-mini，以及o1在更具挑戰性的拒絕測試中，大幅優于GPT-4o。

OpenAI還在標準評估集上對多模態輸入的不允許的組合文本和圖像內容，以及拒絕過多的情況進行了評估。

如下表2所示，當前版本的o1在防止過度拒絕方面有所改善。

這里，OpenAI沒有評估o1-preview、o1-mini，因為它們無法原生支持圖像輸入。

越獄

另外，研究人員進一步評估了o1對越獄的穩健性：即故意嘗試規避模型拒絕生成不應生成內容的對抗性輸入。

他們采用了四種評估方法，來衡量模型對已知越獄的穩健性：

生產環境越獄：在實際使用中的ChatGPT數據中識別的一系列越獄。
越獄增強示例：將公開已知的越獄應用于標準禁止內容評估中的示例。
人力來源越獄：從人工紅隊測試中獲取的越獄。
StrongReject：一個學術越獄基準，用于測試模型抵御文獻中常見攻擊的能力。計算goodness@0.1，即在針對每個提示詞的前10%越獄技術進行評估時模型的安全性。

如下圖1，o1在以上四種越獄評估中顯著優于GPT-4o，尤其是在具有挑戰性的StrongReject基準測試中。