剛剛!OpenAI 上線 o3-pro,性能碾壓 Gemini 與 Claude,重新定義“模型”
剛剛!OpenAI發布了它自稱“迄今為止最強大”的模型:o3-pro。
——這是此前發布的推理模型 o3 的“加強版”。
圖片
o3-pro屬于“推理模型”,它可以一步步拆解問題、邏輯嚴密地得出結論。這種能力使它在物理、數學、編程等嚴謹性要求較高的領域表現更為穩定可靠。
OpenAI宣稱,在評估中,o3-pro在所有測試領域都優于基礎版o3,尤其在科學、教育、寫作輔助、商業分析和編程等領域,獲得了評審的一致好評。它不僅在準確性、清晰度、全面性上表現更強,還更擅長理解復雜指令。
目前,o3-pro已經上線:
- ChatGPT Pro 和 Team 用戶已可使用(取代舊版 o1-pro);
- 企業和教育用戶將在下周獲得權限;
- 開發者API也已經接入,價格為每百萬輸入tokens 20美元,輸出tokens 80美元。
順便說一句,百萬輸入tokens大約等于75萬字——比《戰爭與和平》還要長一點。
圖片
除了基礎對話能力,o3-pro還擁有多項高級功能:聯網搜索、視覺識別、Python工具調用、文件分析、甚至可以基于記憶進行個性化響應。但也并非完美無缺:
例如,暫時不支持圖片生成;Canvas 工作區功能不兼容;臨時對話功能暫時關閉;響應速度相比o1-pro略慢。
不過在一系列專業基準測試中,o3-pro打敗了Google的Gemini 2.5 Pro和Anthropic的Claude 4 Opus,尤其是在AIME 2024(高難數學測試)和GPQA Diamond(博士級科學測試)中斬獲佳績。
圖片
而這場替換來的悄無聲息。沒有發布會,也沒有 demo 視頻。OpenAI 用慣常方式在 changelog 中寫道:“評審一致認為 o3-pro 在科學、教育、編程、商業和寫作幫助等關鍵領域優于 o3。”評價中,“清晰度”“全面性”“指令執行力”“準確性”成為關鍵詞。
One more thing
圖片
除了新模型,還有另一個消息:
OpenAI 原計劃在 6 月發布的開源模型——推遲了。
6 月 10 日,Sam Altman 在 X 上發文宣布:開源模型將延遲至“夏末”上線。他寫道:“我們的研究團隊做了一些意想不到又非常驚艷的事情,我們相信這非常值得等待,但還需要一點時間。”
這本應是 OpenAI 多年來首個真正意義上的開源權重模型。據稱,它將具備與 o 系列相似的“推理能力”,目標是超越當前最強開源推理模型,如 DeepSeek 的 R1。而在這條時間線上,OpenAI 已落后一步——就在同一天,Mistral 發布了自家首個推理模型家族 Magistral;更早之前, Qwen 推出了一套支持推理與快速切換的混合模型。
據 TechCrunch 報道,OpenAI 此前內部也在討論給開源模型接入云端能力,例如復雜問題時自動請求 OpenAI 云模型協助。但這些功能最終是否會出現在首發版本中,尚未可知。
Altman 曾公開承認,OpenAI 在“開源與封閉”的爭議中站到了“歷史錯誤的一邊”。這次推遲,某種意義上,是技術節奏的調整,也可能是一次產品路線的重新權衡。
推理模型顯然是今年 AI 賽道的新焦點:更像人類思維、更少幻覺、更適用于復雜任務。但當商業化模型搶占企業市場,開源模型搶占開發者生態,OpenAI 是否還能兩頭通吃?
真正的問題是:它還來得及奪回“開源”的主動權嗎?