編譯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
近日,蘋果被爆出了兩個大事:一篇極具爭議的論文,一場頗受質(zhì)疑的新發(fā)布。最吊詭的是,iOS26新發(fā)布的熱度還沒有一篇論文引起的反響更強烈!
這篇研究論文名為《The Illusion of Thinking》,意在“討伐”當前AI領域流行的一些“假象”,從題目就能看出火藥味十足:大模型根本不會推理,那只是幻覺!
不過,很快就有一位大牛Gregorio站出來反駁——
雖然這篇論文戳中了不少痛點,但卻因笨拙的表達方式而落人口舌。
Gregorio在自己的文章《Apple’s Viral AI Paper. Reality or Fraud?》,用客觀且犀利的筆鋒論證了這篇蘋果刷屏的AI論文:是突破,還是欺詐?
為此,作者拆解以下幾個關鍵問題:
- 蘋果到底想說什么?他們并非全錯,只是表達太生硬;
- 當前AI模型到底有哪些真正的局限?
- 對于一個急需“AI殺手锏”的三萬億美元公司來說,這一切意味著什么?
「前沿SOTA的AI模型到底有多聰明」、「蘋果AI戰(zhàn)略的真實圖景到底是什么樣子」,「推理只是記憶的偽裝嗎」,這些問題都被作者在文章中一一揭露。篇幅較長,大家自行摘取金句。
一、思考的幻覺
蘋果在《The Illusion of Thinking》的論文中指出:即便是當下最先進的推理類大模型,如 OpenAI 的 o3、Google 的 Gemini 2.5 Pro,它們展現(xiàn)出來的“思考能力”其實是一種假象。
圖片
這些模型的共性是:通過生成更多的 token 來提升表現(xiàn),也就是我們熟知的「思維鏈」(Chain of Thought)技術——讓AI一步步地“拆解”問題,模仿人類的推理過程。
圖片
蘋果的核心觀點是:這些模型看起來是在“推理”,但它們并沒有真的理解,更談不上「通用推理能力」。
他們甚至聲稱,他們有證據(jù)表明,這一切幾乎只是表演。
但他們究竟是如何證明的呢?
二、蘋果的研究方法:從基準測試到“益智游戲”
蘋果首先批評了現(xiàn)有的評估機制:目前評判AI能力的方法主要靠一堆標準化基準測試,涵蓋數(shù)學、編程、常識等領域。
圖片
這些是 Google 用來比較其最新 Gemini 2.5 Pro 型號的一組基準
蘋果公司一針見血地指出,問題在于大多數(shù)基準測試都受到了污染,這些模型之前已經(jīng)見過大多數(shù)問題的答案。
誠然,這些測試的初衷是好的,能讓我們橫向比較不同模型。但問題是:大部分測試題,AI模型早就見過了,這根本無法區(qū)分實際表現(xiàn)和記憶力。就像學生提前看到了考卷,那考試成績當然不能說明真實水平。
蘋果提出的替代方案是:用益智類難題來測試模型真正的“推理”能力,因為這些題目極少出現(xiàn)在訓練數(shù)據(jù)中,更能考驗模型的泛化能力。
他們選用了四種經(jīng)典的推理謎題:
- 漢諾塔(Tower of Hanoi):一個遞歸性極強的難題,考驗規(guī)劃和記憶。
- 跳棋換位(Checker Jumping):一個一維空間內(nèi)顏色交換的邏輯題。
- 過河難題(River Crossing):約束條件豐富的角色過河規(guī)劃問題。
- 積木世界(Blocks World):早期AI界著名的“世界建模”問題。
圖片
每一個謎題都有確定的目標狀態(tài)和解法步驟,能清楚地區(qū)分“解對了”還是“沒解出來”。
(這里,來一波回憶殺~)例如,以漢諾塔謎題為例,該謎題經(jīng)過了最廣泛的評估,其目標是在以下約束條件下將位于第一根柱子的所有圓盤移動到最后一根柱子:一次只能移動一個磁盤較大的磁盤永遠不能位于較小磁盤的頂部(直徑)目標是在盡可能少的移動下完成,由公式 (2^n - 1) 定義,其中“n”是磁盤的數(shù)量。
圖片
n = 5 的漢諾塔(很經(jīng)典的算法面試題)
其他謎題與之類似,因為它們定義了模型必須遵守的一小部分約束,并且解決方案有一個特定的、確定性的答案,這使得評估具有客觀性;模型要么解決它,要么沒有。
至關重要的是,它們是可解釋的,這樣人們可以查看模型的推理痕跡,了解它們?nèi)绾巍八伎肌保〞呵疫@么說吧,的確也沒有更好的詞兒)。
三、結果如何?所有SOTA模型“智商瞬間崩盤”
蘋果研究者最后發(fā)現(xiàn):天塌了!DeepSeek R1、Claude-3.7-Sonnet、o3-mini等這些前沿的模型雖然有復雜的反思機制,但卻無法發(fā)展出可泛化的解決問題的能力,甚至會在每個謎題的某個階段,性能會急劇下降為零。
圖片
總結起來有如下幾個結論——
1. 推理模型無法突破復雜度閾值
即便有“自我反思”的能力,這些模型一旦遇到更復雜的問題(比如漢諾塔的盤子變多),準確率幾乎瞬間歸零。它們無法“遷移”解決復雜任務,只能停留在簡單套路中。
2. 三種推理“狀態(tài)”
蘋果指出,模型的表現(xiàn)大致分為三個階段:
- 簡單任務:普通大模型反而表現(xiàn)更好,因為推理模型“想太多”反而拉胯(典型“越想越錯”)。
- 中等復雜度任務:推理模型展現(xiàn)優(yōu)勢,思維鏈幫助其逼近答案。
- 高復雜度任務:無論是普通模型還是推理模型,統(tǒng)統(tǒng)崩盤,準確率接近零。
3. 思考力的“反直覺衰減”
最驚人的是:隨著問題變復雜,模型的思考輸出(即生成的 token 數(shù))居然減少了。模型就像“知道自己搞不定”,索性提前放棄。
研究者稱這是一種“推理計算資源的極限”:模型自我判斷“撐不到解完”,干脆停下來。
這就類似于我們?nèi)祟愒诿鎸Ρ灸苋蝿諘r,如果試圖靠“刻意思考”來完成,而不是憑本能反應,反而會表現(xiàn)得更差。
一個很直觀的例子是打字。如果你已經(jīng)習慣了盲打,你可以毫不猶豫地按下任何一個鍵。但如果你刻意去想“字母?‘u’?在哪兒”,你反而會慢下來,甚至可能一時想不起來,盡管你的肌肉記憶非常清楚地知道?‘u’?的位置。
再舉一個更簡單的例子:你如果去“思考”?1 + 1 等于幾,而不是本能地回答“2”,那其實是在用更低效的方式處理一個幾乎可以秒答的問題——因為你把原本可以瞬間解決的事,花了更多的認知資源。
四、推理模型“裝聰明”?計算≠思考
哪怕提示中直接給出了解題算法,比如“漢諾塔怎么搬盤子”,這些模型依舊做不到長期正確執(zhí)行。
更嚴重的是,它們在不同題型上的表現(xiàn)非常不一致。比如 Claude 3.7 在漢諾塔上表現(xiàn)不錯,但在理論上更簡單的“過河”問題中卻表現(xiàn)糟糕。
蘋果認為這說明了一個殘酷現(xiàn)實:
當前模型的“聰明”多數(shù)是靠“背題庫”來的,泛化能力極差。我們以為是一個12歲天才少年,其實他只是個“背書機器”。
乍一看,有強有力的證據(jù)表明:推理模型實際上并不推理,并且其大部分可信性能可以用“基準記憶”來解釋。然而,如果你仔細觀察,事情就會變得模糊不清。
五、蘋果的研究方法很值得質(zhì)疑
說實話,我贊成蘋果揭露“偽智能”的動機,但我對他們的研究方法保留意見。
但這個問題,可能是可以靠更大模型、更好訓練繼續(xù)優(yōu)化的,并不能直接證明“AI不會思考”。
他們沒有測試最強的模型,比如 o3 或 o4-mini,這些可能根本不會出現(xiàn)類似“過度思考”的問題。你會懷疑他們是不是“刻意繞過”了這些模型?
其次,關于“自動認輸”的問題。模型面對復雜任務(如 15 層漢諾塔)不但做不出來,甚至都“不太想試”。蘋果覺得這是“思維能力不足”的鐵證。但他們忽略了幾個重要事實:
- 大模型訓練時,就被鼓勵別亂試錯,這能減少計算浪費,優(yōu)化用戶體驗。
- 這些模型有 token 上限,它們“知道自己撐不到結尾”,所以選擇中途放棄。
比如,o3-mini 的 token 上限是 10 萬左右,扣除提示詞后大概能推 10,000 步。
根據(jù)漢諾塔解法公式 2n?12^n - 1,它最多也就能算出13層以內(nèi)的解,超過就力不從心了。
蘋果卻沒有考慮這個計算極限,還以此推斷“AI根本不會按步驟執(zhí)行”。
其實模型可能是在說:
“我知道該怎么做,但我沒足夠 token 做完,只能告訴你我會怎么做。”
六、蘋果沒錯,但還不夠深刻
蘋果這篇論文,有刺刀的凌厲之處,但也有盲區(qū)。它敲響了AI神話的警鐘,卻也可能低估了模型正在發(fā)生的真實進化。
說它“搬起石頭打自己的腳”太重,說它“突破”也言過其實。更像是蘋果用技術語言講了個直白的警示故事:
“今天的AI,看起來會思考,實際上大部分時候只是記得答案。”
1.并不是所有謎題都“等價”
蘋果研究者在解讀結果時,還有一個頗具爭議的地方——他們以為所有謎題的“步驟數(shù)”可以直接比較,并據(jù)此判斷模型是不是在靠記憶作答。
比如,他們發(fā)現(xiàn) Claude 3.7 Sonnet 在漢諾塔問題上可以完成將近 100 步的解題(10層),而在“過河難題”中,第4步就崩了,于是就得出結論:AI 模型沒有推理力,只是在背題庫。
論文中是這樣寫的:
“Claude 3.7 Sonnet 在漢諾塔任務中,常常要到第100步才出錯(N=10),而在過河問題中,通常在第4步就無法生成合理動作。更令人驚訝的是,它幾乎可以完美解決需要31步的 N=5 漢諾塔,但在只需11步的 N=3 過河問題中卻完全失敗。這可能意味著,訓練數(shù)據(jù)中幾乎沒有 N>2 的過河問題樣本,導致模型缺乏記憶,因此也就不會解。”
翻譯成通俗白話,就是:
“Claude 模型能搞定上百步的漢諾塔,卻搞不定十幾步的過河問題,所以我們認為,它只是在靠記憶刷題,對‘推理能力’根本沒掌握。”
這公平嗎?我覺得完全不公平。
2.邏輯直覺沒錯,卻論證邏輯太薄弱
這正好說明了我之前的觀點:這篇論文的直覺很敏銳,但論證能力很差。
對比謎題步驟數(shù)是一種極其粗糙的分析方式。
“過河問題”本質(zhì)上就比“漢諾塔”復雜。雖然表面上只有11步,但涉及到約束條件(比如“狼不能和羊單獨待一起”)更多,狀態(tài)空間也更不可預判。
反觀漢諾塔,其實是一個可規(guī)劃性極強的問題,步驟雖多,但解法是高度規(guī)則化的。
所以你不能因為一個題“短”,就說它“簡單”;也不能說模型做得好,就是“記住了”。
我本人也同意他們對AI推理的懷疑論傾向。我早就多次說過:很多“推理”其實就是“記憶偽裝出來的”。
但蘋果在方法論上選錯了靶子。真正體現(xiàn) AI 推理能力的基準,是像 ARC AGI 這樣的測試集——它專門設計來規(guī)避“訓練數(shù)據(jù)污染”,確保模型真的沒有見過類似題。
結果呢?模型一旦離開記憶舒適區(qū),成績立刻“撲街”:
下圖展示了 ARC AGI v2 最新測試結果,圖中用三角形標示不同模型,表現(xiàn)最好的 Opus 4 得分也只有 8.9%。
圖片
ARC AGI v2 測試結果:模型一旦無法“背題”,推理就崩潰
這才是真正說明問題的數(shù)據(jù)。它表明:大部分模型嚴重依賴記憶,而不是邏輯。這比蘋果在論文里“比誰走得多”靠譜多了。
3.AI的真正極限:不是“不會推理”,而是“無法泛化”
這里要澄清一件事:當我說 AI 過度依賴記憶,不代表我認為它們只會記憶。這顯然是錯的。
如果你以為大模型只是個大數(shù)據(jù)庫,那你就錯了。Anthropic 的“歸因電路”研究就證明,大模型內(nèi)部確實構建了可泛化的邏輯電路,用來處理“美國首都在哪”這類任務。
圖片
如果全靠死記硬背,那就得為每一個問題建一個電路,這在架構上是不可行的。
所以,問題不在于“AI 不會推理”,而是:
AI只能在“已知領域”推理,而人類可以在“未知領域”做出合理推斷。
這是人機差異的本質(zhì)。
七、如果蘋果真想挑事,就應該盯住這三個“硬傷”
蘋果這篇論文,如果真的想撼動主流AI敘事,應該聚焦于那些大家都公認的AI硬傷:
1. 學習樣本效率極低
人類看幾遍就能學會的知識,AI 需要幾百萬條數(shù)據(jù)。這是目前AI完全無法比擬人類的地方,也是衡量“智能”的重要指標。
2. 無法持續(xù)學習
人類不斷更新世界觀,但大模型“上線之后就停止學習”,要重新訓練一遍,代價巨大。更重要的是,我們還沒搞懂如何讓AI進行真正的貝葉斯式持續(xù)學習。
3. 適應力幾乎為零
人類面對陌生環(huán)境可以快速“現(xiàn)學現(xiàn)賣”,AI不行。模型只能“對已知做出最優(yōu)反應”,而不能像人類一樣對未知建模。
這三點,才是AI與人類之間最本質(zhì)的智能鴻溝。也是為什么說“AI像博士一樣聰明”根本不成立。模型可以擁有比人類更全面的知識,但那不等于更聰明。
如果連井字棋都下不好,你知識再多也沒用。
八、蘋果真正的問題:不是論文寫得刺耳,而是產(chǎn)品太難看
最后說說蘋果自己。
他們其實不是第一次批評AI了,甚至已經(jīng)讓人覺得他們對現(xiàn)代AI始終抱有戒心。這不是壞事,畢竟 Meta 的 Yann LeCun 批評得更狠,但 Meta 依然在全力投入AI模型研發(fā)。
蘋果的問題是,他們自己交出的答卷——尤其是產(chǎn)品層面——實在太差了。
昨天 WWDC 剛剛發(fā)布的 Apple Intelligence,遠不及預期。一堆“炫技功能”背后,實用性、開放度、迭代力統(tǒng)統(tǒng)缺失。Siri 仍然是地表最爛的語音助手,而我居然還因為這個更新?lián)Q了 iPhone。真的……很氣。
對一個市值三萬億的科技巨頭來說,這是難以原諒的頹廢。
蘋果研究論文說:“AIs 還解不了 14 層的漢諾塔。”
但問題是:你們自己連“4 層的 Siri”都做不好,這誰能信服呢?
好了文章到這里結束了,歡迎大家評論區(qū)拍磚:大家如何看蘋果的這篇的論文,大模型真的會思考嗎?
參考鏈接:
https://medium.com/@ignacio.de.gregorio.noblejas/apples-viral-ai-paper-reality-or-fraud-9627a6de385a
https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf