o3-pro答高難題文字游戲引圍觀，OpenAI前員工諷刺蘋(píng)果：這都不叫推理那什么叫推理

2025-06-13 14:15:57

人工智能

系統(tǒng)提示的影響極大。如今模型的可塑性超強(qiáng)，那些能讓模型“理解自身所處環(huán)境與目標(biāo)”的LLM調(diào)教框架，能產(chǎn)生遠(yuǎn)超預(yù)期的價(jià)值。

OpenAI“最新最強(qiáng)版”推理模型o3-pro，實(shí)際推理能力到底有多強(qiáng)？

全球首位全職提示工程師Riley Goodside來(lái)給它上難度：

說(shuō)出歌手Sabrina Carpenter的一首歌的歌名，回答這個(gè)問(wèn)題時(shí)，每個(gè)單詞最后一個(gè)字母連起來(lái)看，也能對(duì)應(yīng)這首歌名。

圖片

結(jié)果，o3-pro在經(jīng)過(guò)4分25秒的推理過(guò)后，成功給出正確答案。

經(jīng)Sabrina Carpenter實(shí)測(cè)，o3只能做對(duì)個(gè)大概，通常只能把最后幾個(gè)字母湊對(duì)。

圖片

該測(cè)試引來(lái)OpenAI前AGI Readiness團(tuán)隊(duì)負(fù)責(zé)人Miles Brundage的轉(zhuǎn)發(fā)關(guān)注。

雖然人已經(jīng)不在OpenAI了，但Miles Brundage還是替老東家直接開(kāi)大陰陽(yáng)蘋(píng)果：如果這都不叫推理那什么叫推理。

PS：蘋(píng)果前幾天發(fā)了個(gè)新研究，用漢諾塔等四個(gè)小游戲測(cè)試大模型，稱(chēng)推理模型全都沒(méi)在真正思考，只是另一種形式的“模式匹配”，所謂思考只是一種假象。

圖片

除了網(wǎng)友實(shí)測(cè)外，各大評(píng)測(cè)榜單已陸續(xù)同步更新排名。

總結(jié)來(lái)看，和官方給的測(cè)試結(jié)果略有不同。

官方測(cè)評(píng)中，o3-pro超越o3、o1-pro，成為當(dāng)前最擅長(zhǎng)編碼的OpenAI模型。

圖片

而在大模型權(quán)威榜單LiveBench上，o3-pro和o3編碼平均得分幾乎無(wú)差，o3-pro僅有0.07分的優(yōu)勢(shì)。

智能體編碼平均得分方面，o3-pro甚至大比分落后于o3（31.67 vs 36.67）。

圖片

亞馬遜云科技&谷歌前高管Bindu Reddy表示：

主要是它在智能體這塊不太行，工具使用也不咋擅長(zhǎng)。
昨天的大新聞不是o3-pro ，而是o3降價(jià)了！！

另外，針對(duì)大模型長(zhǎng)上下文理解的基準(zhǔn)測(cè)試Fiction.LiveBench也放榜了。

o3-pro在較短上下文場(chǎng)景下表現(xiàn)很出色，較o3有所提升。

然鵝，192k超長(zhǎng)上下文處理依然是Gemini 2.5 Pro占優(yōu)勢(shì)，Gemini 2.5 Pro得分90.6，而o3-pro僅得分65.6。

圖片

讓人困惑的是，在這個(gè)基準(zhǔn)測(cè)試中，不管是o3-pro還是o3，在16k上下文中分?jǐn)?shù)都下降了，到了32k，兩個(gè)模型得分又回到了100。

圖片

除此之外，蘋(píng)果&SpaceX前工程師Ben Hylak之前分享o1使用心得，得到不少網(wǎng)友關(guān)注，連奧特曼、Brockman都轉(zhuǎn)發(fā)了。

這次o3-pro他同樣沒(méi)放過(guò)，而且又被奧特曼翻了牌子。

圖片

蘋(píng)果&SpaceX前工程師分享使用心得

蘋(píng)果&SpaceX前工程師Ben Hylak的分享，好似恰巧解釋了o3-pro的官方測(cè)評(píng)和各大評(píng)測(cè)榜單結(jié)果有所出入的問(wèn)題。

圖片

Ben Hylak曾任SpaceX軟件工程師、蘋(píng)果VisionOS人機(jī)交互設(shè)計(jì)師，目前在創(chuàng)業(yè)為AI產(chǎn)品提供分析服務(wù)。

此前o1 pro推出滿(mǎn)血$200/月版本時(shí)，Ben Hyla第一天就交了錢(qián)，整整測(cè)試了一天。

圖片

結(jié)果體驗(yàn)很糟糕，很多人表示同感，但也有人強(qiáng)烈反對(duì)。Ben Hylak在與持不同觀點(diǎn)人激烈討論了一番后，意識(shí)到自己的使用方法完全錯(cuò)了。

我還在把o1當(dāng)聊天模型來(lái)用，但o1已經(jīng)不是聊天模型了。

后來(lái)，Ben Hylak從討厭o1轉(zhuǎn)變成了每天都在用它解決最重要的問(wèn)題。這件事兒的反轉(zhuǎn)，讓Ben Hylak測(cè)試o3-pro更加用心。

他透露這次自己一周前就已經(jīng)提前接觸到了3-pro，o3-pro“以不同方式測(cè)試，實(shí)際體驗(yàn)會(huì)有所不同”。

從經(jīng)常測(cè)評(píng)大模型的經(jīng)驗(yàn)來(lái)看，Ben Hylak認(rèn)為“模型能力的發(fā)揮高度依賴(lài)背景信息”，他表示自己目前使用o3關(guān)鍵就是：

不把它當(dāng)聊天對(duì)象，而是當(dāng)作報(bào)告生成器。給它背景信息、設(shè)定目標(biāo)，然后讓它自由發(fā)揮。

由此，要看出o3-pro的真正實(shí)力，得給它多得多的背景信息。然鵝，Ben Hylak手頭的信息素材都快榨干了。于是，Ben Hylak換了種方法：

他和他的聯(lián)合創(chuàng)始人Alexis花時(shí)間把他們?cè)赗aindrop所有歷史會(huì)議記錄、目標(biāo)全翻出來(lái)，甚至錄了語(yǔ)音備忘錄，一股腦塞給o3-pro，讓它做規(guī)劃。

結(jié)果，被o3-pro驚艷到了：

它輸出的計(jì)劃精準(zhǔn)踩中我們想要的點(diǎn)——目標(biāo)數(shù)據(jù)、時(shí)間排期、優(yōu)先級(jí)排序，連“必須砍哪些業(yè)務(wù)”都寫(xiě)得明明白白。
o3給出的計(jì)劃合理、說(shuō)得通；但o3-pro給出的計(jì)劃足夠具體、有依據(jù)，真真切切改變了我們對(duì)未來(lái)的思考方式。
這在評(píng)估中很難體現(xiàn)出來(lái)。

除此之外，Ben Hylak認(rèn)為如今的模型在孤立環(huán)境下表現(xiàn)已然十分出色，簡(jiǎn)單測(cè)試難不倒它，真正的挑戰(zhàn)在于將其融入社會(huì)。

這種融入主要體現(xiàn)在工具調(diào)用方面，即模型與人類(lèi)、外部數(shù)據(jù)以及其它AI協(xié)作得如何。

經(jīng)測(cè)試，Ben Hylak表示o3-pro在這方面有了實(shí)實(shí)在在的提升——

“它在識(shí)別自身所處環(huán)境、準(zhǔn)確說(shuō)明可使用的工具、知曉何時(shí)需詢(xún)問(wèn)外部世界信息（而非假裝自己掌握相關(guān)信息或權(quán)限）以及為任務(wù)挑選合適工具等方面，表現(xiàn)都明顯更優(yōu)。”

下面是展示示例。Ben Hylak讓o3-pro和o3做一個(gè)日歷。

o3-pro顯然能更好地理解其所處環(huán)境的邊界，明確表示：

在這個(gè)聊天窗口中無(wú)法顯示實(shí)時(shí)交互的HTML預(yù)覽（我的環(huán)境僅支持純文本和代碼片段）。

并且給出了要查看渲染后日歷的詳細(xì)步驟操作，還描述了用戶(hù)將看到的視覺(jué)內(nèi)容。

圖片

相比之下，o3明明做不到還裝能做，表示可以“創(chuàng)建日歷小組件的實(shí)時(shí)交互預(yù)覽”。

下面這個(gè)例子，Ben Hylak讓模型找今年關(guān)于Borges的Substack文章。

o3-pro同樣明確表示進(jìn)行實(shí)時(shí)Substack查詢(xún)所需的網(wǎng)頁(yè)搜索工具在當(dāng)前環(huán)境未啟用，所以無(wú)法直接獲取最新鏈接。

而o3表示搜索了，但沒(méi)有找到2025年發(fā)布的Borges的Substack文章。

圖片

Ben Hylak還發(fā)現(xiàn)，需要給o3-pro提供更多上下文，要是不提供足夠的上下文，它會(huì)出現(xiàn)過(guò)度思考的情況。

它在分析方面超強(qiáng)，也很擅長(zhǎng)借助工具做事，但自己直接動(dòng)手做事就沒(méi)那么在行。我覺(jué)得它會(huì)是個(gè)超棒的協(xié)調(diào)者。不過(guò)，有些ClickHouse SQL相關(guān)問(wèn)題，o3處理得更好。實(shí)際效果因人而異。

o3-pro給Ben Hylak帶來(lái)的體驗(yàn)與Claude Opus、Gemini 2.5 Pro相比，都不同。

Ben Hylak認(rèn)為Claude Opus雖體量龐大，但沒(méi)讓他真切感受到這種“大”的獨(dú)特價(jià)值；而o3-pro的輸出更優(yōu)，仿佛兩者完全處于不同的競(jìng)爭(zhēng)維度。

他繼續(xù)補(bǔ)充道，OpenAI正沿著強(qiáng)化學(xué)習(xí)路徑深挖（比如Deep Research、Codex項(xiàng)目），不只是教模型“怎么用工具”，更是教它們“思考何時(shí)該用工具”。

最后，Ben Hylak總結(jié)認(rèn)為推理模型的Prompt技巧核心邏輯不變，之前他寫(xiě)的o1提示指南，現(xiàn)在依然適用o3-pro。

首先，“語(yǔ)境”是一切，就像給“餅干怪獸”喂餅干，精準(zhǔn)投喂才有效，它是一種引導(dǎo)大語(yǔ)言模型激活“類(lèi)記憶能力”的方式，但因?yàn)樽銐蚓珳?zhǔn)，所以效果拔群。

另外，系統(tǒng)提示的影響極大。如今模型的可塑性超強(qiáng)，那些能讓模型“理解自身所處環(huán)境與目標(biāo)”的LLM調(diào)教框架，能產(chǎn)生遠(yuǎn)超預(yù)期的價(jià)值。