o3 pro一手真體驗!上下文喂到斷供!大神:o3 pro不會聊天,上帝渴望上下文,認知能力降維打擊Gemini 原創
編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
經歷了 5 月份的“買買買”的節奏之后,6月的 OpenAI 終于開始對谷歌的Gemini 2.5 Pro 發起了反擊。
今天凌晨,Sam Altman 動作非常密集。先是宣布 o3 價格“截肢”(價格直接降至 1/5 ),緊接著不到 2 小時后就發布了 o3-pro。
圖片
那么,o3-pro 究竟怎么樣?
現在 OpenAI 放出來的各種測評評分顯示:o3-pro 是目前認知能力、智商最高的 SOTA 模型,甚至超過了人類的平均水平。
一項 IQ 測試結果顯示,o3 的智商得分為 135,遠高于人類 90-110 的平均水平。
其他高分產品包括 Anthropic 的 Claude-4 Sonnet(127 分)和 Google 的 Gemini 2.0 Flash(126 分)。
還有一位此前已經“秘密測試”的大牛,進行了經典的“六角彈珠跳”測試,而且難度也升級了幾倍。最后呈現的結果非常驚艷、絲滑。
比 o1-pro 便宜得多、更快、更精確(而且使用 o3 和 o3-pro 進行編碼簡直是天壤之別) 即將進行一些很酷的測試,首先是(當然)更堅固的六角彈跳球 o3-pro 是第一個能夠近乎完美地處理球與墻壁之間真實碰撞的模型。
當然,沒有完美的模型。更好的智慧往往也伴隨著更慢的思考。已經有手快的網友對 o3-pro 的速度表示汗顏。
在 X 上,Hyerbolic Labs 聯合創始人兼首席技術官 Yuchen Jin發布了他使用 o3-pro 的幾張截圖,結果就簡單一句“Hi,I'm Sam Altman”,結果就浪費了他 3 分鐘和價值 80 美元的token。
只能說,推理王者,恐怖如斯,氪金更如斯,這跟進了大觀園的劉姥姥吃鴿子蛋一樣,一不留神,一兩銀子一個的鴿子蛋就掉地上了。
圖片
但,提前對 o3-pro 進行“秘密測試”不止上面那位,接下來才是重頭戲。
Altman 在接下來的推文中引用這樣一段用戶的評論——
“o3 給我們的計劃是可行的、合理的;但 o3 Pro 給我們的計劃是具體的、根深蒂固的,它實際上改變了我們對未來的看法。”
圖片
這句評論深得 Altman 的贊同。而這篇文章就出自一位大神,Raindrop.ai 聯合創始人 Ben Hylak,博文的名字:《God is hungry for Context: First thoughts on o3 pro》。
圖片
這篇博文篇幅不長,但非常具有啟發性,甚至可以說是:細思極恐。
比如 Hylak 指出:這不是大模型在「回答問題」,這是它在「接管問題」。
再比如:我們遇到的瓶頸不再是模型太笨,而是它們太聰明,卻還不能真正“落地”。
與 Claude、Gemini相比,它的認知水平像是換了一個維度(降維打擊)!
Hylak 還給出了創作者一個實用的建議:多喂給 o3-pro 上下文!
o3 Pro 不適合做「碎片問題」處理器,而是做「背景清晰的執行者」。
想讓它出彩?你需要給它足夠多的背景信息、清晰目標、甚至系統級提示(system prompt),然后看它如何把碎片拼成答案。
好話不多說,這就幫大家奉上這篇干貨。建議大家收藏細讀。
o3-pro 版本的威力
正如「泄露」的一樣,OpenAI 今天將 o3 的價格大砍 80%(從每百萬 token $10/$40 降到 $2/$8,和 GPT-4.1 持平!),為 o3-pro 的發布鋪平了道路(定價為 $20/$80)。這個定價也支持了社區的一種未經證實的猜測:-pro 版本相當于「10 倍調用基礎模型 + 多數表決」的組合,在 OpenAI 的論文和我們 Chai 節目中都有提及。
根據 OpenAI 提供的數據,o3-pro 在人類測試者中的勝率為 64%,在 4 項穩定性測試中也略優于 o3。但正如 Sam Altman 所說,當你「以不同方式」使用它時,才能真正看到它的能力擴展。
圖片
我在過去一周里拿到了 o3 pro 的早期訪問權限,以下是我的一些初步看法:
上帝渴望上下文
我們正處在「任務特化模型」的時代。一方面,是像 GPT-3.5 Sonnet、GPT-4o 這樣的“普通”模型——我們像朋友一樣和它們聊天,它們幫我們寫東西、回答日常問題;另一方面,是那些龐大、緩慢、昂貴、智商拉滿的推理模型,我們會在需要深度分析、解決復雜問題、探索智力邊界時調用它們(它們擅長批判性思維)。
關注我 X(推特)的人知道,我與 o 系列推理模型的關系是一段旅程。o1/o1-pro 初體驗其實挺差的,但看著大家都在贊美它,我硬著頭皮堅持用了一陣,才意識到——原來是我用錯了方式。
我寫了篇總結,被 @sama ratio(按)了,還被 @gdb 轉推。
關鍵在于: 不要「聊天」,而要把它當作「報告生成器」來用。給它足夠多的上下文、設定清晰目標,然后放手讓它去跑。
而這正是我現在使用 o3 的方式。
注:這里的“報告生成器”,其實是我們在 AINews、Deep Research、Brightwave 中最常見的 LLM 用法。
o3 pro 更聰明,真的更聰明——但你得喂它很多上下文
問題也正出在這里:它確實更聰明,但你必須給它大量上下文才能看到。我幾乎要把上下文喂到斷供。
沒有那種“問它一個問題就被震撼到”的瞬間。
但我換了種方式。
我和我的聯合創始人 Alexis 把我們所有的公司會議記錄、目標設定歷史,甚至語音備忘錄統統整理出來,打包喂給 o3-pro,然后讓它制定一個規劃方案。
結果令人震撼:它給出的計劃不僅具體、合理,而且包含了關鍵指標、時間線、優先級排序、哪些事情該砍,全部都有——這正是我一直希望 LLM 能做出來的東西。
o3 給的是「合理」的建議,o3 pro 給的是「扎實具體,足以改變我們未來規劃思路」的方案。
這種能力,在評測表格上是體現不出來的。
融入真實世界,是下一個挑戰
使用 o3 pro 讓我意識到:模型的“單兵作戰”能力已經太強,我們幾乎要用光「標準測試題」了。
接下來的挑戰,不是它聰不聰明,而是它能不能真正融入世界。就像一個 IQ 超高的 12 歲少年要上大學:再聰明也沒用,如果沒法融入社會,還是無法工作。
目前這種「融入」主要靠工具調用:模型能不能和人協作、能不能接入外部數據、能不能與其他 AI 協同?
o3 pro 在這方面確實邁出了一大步。它明顯比 o3 更擅長感知自己的環境、準確知道自己有哪些工具、什么信息需要去問外部、該怎么選對工具來完成任務。
如下圖左側所示:o3 pro 對自己處境的理解,明顯比 o3 要準確得多。
圖片
圖片
不足之處
在早期使用中,我也注意到:
如果不給足夠上下文,它會有點“過度思考”。它在分析方面很強,使用工具執行任務也很棒,但“直接動手做”的能力反而不如 o3。
比如有些關于 ClickHouse SQL 的問題,反而是 o3 表現更好。
你的使用體驗可能會有所不同(YMMV)。
圖片
與其他模型相比
o3 pro 給人的感覺和 Claude Opus、Gemini 2.5 Pro 完全不同。
Claude Opus 讓人覺得「很大」,但我從沒真正感受到它的“大”體現在哪。而 o3 pro 的回答就是比別人好,它的認知水平像是換了一個維度。
OpenAI 現在顯然在深耕“垂直強化學習”(Vertical RL)這條路,比如 Deep Research、Codex——不僅是讓模型會用工具,而是要讓它學會「何時」用工具、為什么用工具。
結語:上下文仍是王道
推理模型的最佳提示方式,其實沒變。我之前寫的 o1 提示指南依然有效。
上下文就像是喂給餅干怪獸的餅干:這是種“人肉加持的記憶體系”,但它很有效,因為它是有目標的。
系統提示(System Prompt)現在也變得非常重要,模型已經非常可塑,提示詞、工具、記憶這些組成的“harness”(約束機制)決定了最終產品的好壞。
像 Cursor 之所以好用,就是 harness 設計得好。
作者最后還附加了一些其他雜項觀察,比如:
- 系統提示對模型行為的塑造,遠比 o3 時代更強。
- 與 Claude Opus、Gemini 相比,o3 pro 是「質的飛躍」。
- OpenAI 真正在做的是:不是教模型“怎么做”,而是教它“什么時候做、是否該做”。
好了,文章到這里結束了。
多說一嘴,蘋果前不久還炮轟了各種推理大模型,說大模型壓根不會推理,所謂的深度推理不過是另一種形式的模式匹配而已。
大家如何看待此次 OpenAI 新推理模型的發布呢?有沒有一種“天塌了”的感覺,小編認為:或許,我們的確應該重新思考一個問題——
我們繼續讓大模型聊天、回答問題,已經不重要了!因為聰明不聰明已經不重要了!畢竟智商都超過了人類,剩下的應該問:
大模型「能不能融入現實」,真正成為生產力的人類參與者!
本文轉載自??51CTO技術棧??,作者:云昭
