剛剛，OpenAI放出最后大驚喜o3，高計算模式每任務花費數千美元

2024-12-23 07:30:00

o3 是 o1 系列模型的繼任者。這類模型的特點是讓模型在回答問題之前花更多時間思考（推理），從而提高回答的準確率。不過，OpenAI 在命名上跳過了 o2。據 The Information 報道，這么做是為了避免版權問題，因為英國有家電信公司名叫 O2，可能引起混淆。Sam Altman 在今天下午的直播中證實了這一點。

剛剛，OpenAI 為期 12 天的發布迎來尾聲。如外界所料，新的推理系列模型 ——o3 和 o3-mini 成為這次發布的收官之作。

事實上，從昨天開始，OpenAI 就已經開始預熱這個模型。而且已經有開發者在網上找到了 OpenAI 網站上對 o3_min_safety_test 的引用。

也有人早早就想看看 o3 究竟有何真本事，能否匹敵谷歌昨天發布的 Gemini 2.0 Flash Thinking。

現在，和傳言的一樣，o3 和 o3-mini 來了！遺憾的是，o3 系列模型并不會直接公開發布，而是會先進行安全測試。Sam Altman 也指出今天不是發布（launch），只是宣布（announce）。

Sam Altman 提到，他們計劃在一月底左右推出 o3-mini，并在不久后推出完整的 o3 模型。

o3：突破 ARC-AGI 基準，博士級問題求解能力

首先，在 12 只圣誕青蛙聚集的圓桌前，ARC Prize Fundation 總裁 Greg Kamradt 參與了對 o3 模型的介紹。

ARC Prize Fundation 是一個非營利組織，旨在「通過基準測試來成為實現 AGI 之路的北極星」。該組織的首個基準 ARC-AGI 已經提出了 5 年時間，但一直未被攻克。

直到現在，Kamradt 宣布 o3 已經在該基準上達到了優良水平，成為首個突破 ARC-AGI 基準的 AI 模型。

據介紹，o3 系列模型在 ARC-AGI 基準上的最低性能可達到 75.7%，而如果讓其使用更多計算資源思考更長時間，o3 更是可以達到 87.5% 的水平。

在 ARC-AGI 基準中，AI 需要根據配對的「輸入 - 輸出」示例尋找規律，然后再基于一個輸入預測輸出，下圖展示了一些例子。參加過畢業季招聘或公務員考試的人或許對此類圖形推理問題并不陌生。

Greg Kamradt 也順勢宣布開源了一個任務數據集：https://github.com/arcprizeorg/model_baseline

ARC-AGI 發起者、Keras 之父 Fran?ois Chollet 在測試報告中寫道，「（o3 系列模型）在高效率模式下取得的 75.7% 的分數符合 ARC-AGI-Pub 的預算規則（成本 <10000 美元），因此有資格在公共排行榜上排名第一！而它們在低效率模式下取得的 87.5% 的分數。雖然成本高昂，但仍然表明新任務的性能確實隨著計算量的增加而提高（至少達到了這個水平）。」

報告中還寫道，盡管每項任務的成本很高（o3 在低計算量模式下每個任務需要 17-20 美元，高計算量模式下每個任務數千美元），但這些數字不僅僅是將暴力計算應用于基準測試的結果。OpenAI 的新 o3 模型代表了人工智能適應新任務的能力的重大飛躍。這不僅僅是漸進式的改進，而是真正的突破，標志著與 LLM 之前的局限性相比，人工智能能力發生了質的轉變。o3 能夠適應以前從未遇到過的任務，可以說在 ARC-AGI 領域接近人類水平的表現。

不過，報告也指出，ARC-AGI 并不是對 AGI 的嚴峻考驗，通過 ARC-AGI 并不等于實現 AGI。「事實上，我認為 o3 還不是 AGI。o3 在一些非常簡單的任務上仍然失敗，這表明其與人類智能存在根本差異。」Fran?ois Chollet 表示。

OpenAI o3 消耗數千美元，生成數百萬個 token 也沒能解決的問題。

ARC Prize Fundation 總裁 Greg Kamradt 表示，明年還會與 OpenAI 一起開發下一代基準。不過，從早期數據點來看，即將推出的 ARC-AGI-2 基準測試仍將對 o3 構成重大挑戰，即使在高計算量下，其得分也可能會降低到 30% 以下（而聰明人在不經過任何培訓的情況下仍然能夠得分超過 95%）。

在報告中，Fran?ois Chollet 還分析了為什么 o3 的分數可以提升那么多。他寫道，「LLM 就像一個向量程序的存儲庫。當被提示時，它們會檢索你的提示詞映射到的程序，并在當前的輸入上『執行』它。LLM 是一種通過被動接觸人類生成的內容來存儲和操作化數百萬有用小程序的方法。」

「只要有足夠的合適訓練數據，這種『記憶、檢索、應用』的模式就能在任意任務上達到任意水平的技能，但它無法適應新情況或即時學習新技能（也就是說，這里并沒有涉及到 fluid intelligence）。這一點在 LLM 在 ARC-AGI 上的表現中得到了體現，ARC-AGI 是專門設計用來衡量對新事物適應能力的基準測試 ——GPT-3 得分為 0，GPT-4 得分接近 0，GPT-4o 達到了 5%。將這些模型擴展到可能的極限，并沒有使 ARC-AGI 的得分接近幾年前基本的暴力枚舉就能達到的水平（高達 50%）。」

「要適應新事物，你需要兩樣東西。首先，你需要知識 —— 一套可復用的函數或程序庫。LLM 在這方面擁有的資源綽綽有余。其次，你需要在面對新任務時，能夠將這些函數重新組合成一個全新的程序 —— 一個能夠模擬當前任務的程序。這就是程序合成。LLM 長期以來缺乏這一特性。而 o 系列模型解決了這個問題。」

「關于 o3 模型的具體工作原理，目前我們只能進行一些推測。o3 模型的核心機制似乎是在 token 空間內進行自然語言程序搜索和執行 —— 在測試時，模型會在可能的思維鏈空間中搜索，這些思維鏈描述了解決任務所需的步驟，這種方式可能與 AlphaZero 風格的蒙特卡洛樹搜索（Monte-Carlo tree search）頗有相似之處。在 o3 的情況下，搜索可能由某種評估模型引導進行。值得注意的是，DeepMind 的 Demis Hassabis 在 2023 年 6 月的一次采訪中暗示，DeepMind 一直在研究這一概念 —— 這項工作已經醞釀了很長時間。」

詳細分析參見：https://arcprize.org/blog/oai-o3-pub-breakthrough

除了解決 ARC-AGI 這樣的「IQ」問題，o3 的編碼能力也比之前的 o1 系列明顯更勝一籌。在 SWE-bench Verified 基準上，o3 的準確率約為 71.7%，比 o1 模型高出 20% 以上。在 Competition Code 中，o3 獲得了難以置信 2727 Elo 得分，而 o1 僅為 1891。

此外，o3 在競賽數學（Competition Math ）上的準確率達到 96.7%，在 GPQA Diamond （該基準衡量模型在博士級科學問題上的表現）上的準確率達到 87.7%，比之前的 o1 表現（78%）高出近 10%。總結來看，o3 在這兩項基準測試上都達到了最佳表現。

o3 在 OpenAI 研究人員認為最嚴格的基準之一（EpochAI Frontier Math）上的表現如下表所示。該數據集由新穎的、未發表的以及非常難、極其難的問題組成。

OpenAI 高級研究副總裁 Mark Chen 特別強調了，即使是專業數學家也需要幾個小時甚至幾天才能解決里面的問題之一。而今天，所有產品在這個基準上的準確率都低于 2%，o3 的準確率可以超過 25%。

o3-mini：高性能低成本，非常適合編程

o3 mini 是一個更經濟高效的 o3 版本，專注在提升推理速度、降低推理成本的同時兼顧模型性能。

介紹 o3-mini 的是參與訓練的 OpenAI 研究者 Hongyu Ren

它支持三種不同的推理時間選項 —— 低、中、高。

與 o1 相比，o3-mini 在 Codeforces 上的性能具有顯著的成本效益，這使其成為一個非常適合用來編程的模型。

在數學問題上，o3-mini (low) 實現了與 gpt-4o 相當的低延遲。

o3-mini 上所有的 API 特性以及相應的能力表現如下：

Hongyu Ren 現場演示了幾個示例。首先，針對 o3-mini (high)，任務是使用 Python 語言編寫一個本地服務器，其有一個簡易的用戶 UI，同時可以將用戶給出的文本消息通過 API 傳輸給 o3-mini 的 medium 選項，然后獲取得到的代碼，將其保存到桌面的一個臨時文件中，然后在一個新的 Python 終端中執行該文件。

38 秒后，o3-mini 生成了結果代碼：

接著，Hongyu Ren 直接將其復制到了一個 server.py 文件中，然后直接運行了它。

之后，他嘗試了使用這個服務器：print openai 并隨機給出一個數，簡單任務，當然很成功。

接下來他們上了點難度：在相當困難的 GPQA Diamond 數據集（這是一個博士水平的科學問題基準）上，生成一個代碼來評估 o3-mini 的 low 模式，需要下載 https://openaipublic.blob.core.windows.net/simple-evals/gpga_diamond.csv

最后，使用前面編寫的 UI 界面，o3-mini 用了一定時間完成了這個任務，最終得到 low 模式下的 o3-mini 在 GPQA Diamond 數據集上的準確度為 61.62%。也就是說，他們成功讓模型編寫了一個測試該模型自身的腳本。

Mark Chen 打趣地表示明年要讓 AI 演示一下自我提升，但這個說法似乎不夠 PR，讓 Sam Altman 趕忙說了一句：「Maybe not.」

另外，他們也給出了在 GPQA Diamond 數據集上的更多測試結果。可以看到，o3-mini (low) 的結果與上面演示示例得到的結果基本一致，而 o3 滿血版更是可以得到 87.7 的高準確度分數。

如何申請測試 o3 和 o3-mini

Mark Chen 表示，OpenAI 已經做了大量內部安全測試，而現在他們正在推進外部安全測試。從即日起，想要參與的測試者可以申請測試 o3-mini，至于 o3，就連測試員也還得繼續等待。

早期訪問申請現已在 OpenAI 網站上開放，并將于 2025 年 1 月 10 日關閉。

申請地址：https://openai.com/index/early-access-for-safety-testing/

申請者必須填寫一份在線表格，表格中會要求他們提供各種不同的信息，包括之前發表的論文鏈接及其在 Github 上的代碼庫，并選擇他們希望測試的模型（o3 或 o3-mini）以及計劃使用它們做什么。

選定的研究人員將被授予訪問 o3 和 o3-mini 的權限，以探索它們的能力并為安全評估做出貢獻，不過 OpenAI 的表格提示稱，o3 將在幾周內無法使用。

OpenAI 表示他們將滾動審核申請，并立即開始選拔申請人。

最后，Mark Chen 也簡單介紹了他們的一種新的安全評估方法：deliberative alignment，即審議式對齊。這是一種直接教授模型安全規范的新范式，并可訓練模型在回答之前明確回憶規范并準確地執行推理。他們使用了這種方法來對齊 OpenAI 的 o 系列模型，并實現了對 OpenAI 安全政策的高度精確遵守，并且這個過程無需人工編寫的思路或答案。

感興趣的讀者可查看 OpenAI 的相關論文。

論文標題：Deliberative Alignment: Reasoning Enables Safer Language Models
論文地址：https://assets.ctfassets.net/kftzwdyauwt9/4pNYAZteAQXWtloDdANQ7L/978a6fd0a2ee268b2cb59637bd074cca/OpenAI_Deliberative-Alignment-Reasoning-Enables-Safer_Language-Models_122024.pdf

所以，總結起來，12 天發布的最后一天，OpenAI 真正發布出來的東西只有一篇論文，更多是兌現期票。另外，我們還是不知道 o3 是否能解答最難的高考數學題，但至少從 OpenAI 的描述來看，答案應該是樂觀的。

對于 OpenAI 的這最后一天發布和 o3 模型，你有什么看法？

責任編輯：姜華來源：機器之心

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

剛剛，OpenAI放出最后大驚喜o3，高計算模式每任務花費數千美元

o3：突破 ARC-AGI 基準，博士級問題求解能力

o3-mini：高性能低成本，非常適合編程

如何申請測試 o3 和 o3-mini