反轉！AI 推理能力遭蘋果質疑后，Claude 合著論文反擊：不是不會推理，是輸給 Token

2025-06-17 17:19:31

人工智能

研究者們指出，OpenAI 的“o”系列、Google 的 Gemini 2.5、以及 DeepSeek-R 等所謂“推理型大模型”，本質上并沒有從訓練數據中學習到可泛化的第一性原理。

近日，Apple 機器學習研究團隊發布了一篇名為《思考的幻覺（The Illusion of Thinking）》的論文。

圖片

這篇 53 頁的技術報告并非普通評測，而是一記質疑當下主流 LLM 推理能力的重錘。

研究者們指出，OpenAI 的“o”系列、Google 的 Gemini 2.5、以及 DeepSeek-R 等所謂“推理型大模型”，本質上并沒有從訓練數據中學習到可泛化的第一性原理。

他們用了四個經典問題來證明這一觀點：漢諾塔（Tower of Hanoi）、積木世界（Blocks World）、過河問題（River Crossing）和跳棋（Checkers Jumping）。

圖注：四類經典問題的示意圖。

這些任務的特點是，可以通過增加步驟和限制條件，讓難度指數級飆升，極其考驗模型的長鏈條邏輯規劃能力。

蘋果的要求也很苛刻：不僅要給出正確答案，還得用“思維鏈”的方式，把解題的每一步都寫出來。

結果呢？

正如蘋果所料，隨著謎題越來越難，所有頂尖推理模型的準確率都直線下滑。在最復雜的任務面前，性能直接崩盤，準確率歸零。

圖片

圖注：在所有謎題環境和不同難度級別下，思維模型（Claude 3.7 Sonnet with thinking、DeepSeek-R1）與其非思維對應模型（Claude 3.7 Sonnet、DeepSeek-V3）在準確率方面的對比。

更有意思的，是蘋果研究員發現的一個現象：模型用于“思考”的篇幅（也就是輸出的token數量）也開始縮水。

作者將此視為模型主動減少推理嘗試的跡象。

也就是說：推理，是幻象。

圖片

這篇論文在X（推特）上被瘋狂轉發，很多人上來就直接宣判：“蘋果已經證明了，像Claude、DeepSeek這類模型根本不會推理，它們只是記性特別好的復讀機罷了！”

反轉來了：“思考幻覺”本身的幻覺

圖片

爭議的火苗很快被一篇名為《The Illusion of The Illusion of Thinking》的反駁論文點燃，作者是一位名叫Alex Lawsen的獨立研究員——以及，他的合作伙伴：大語言模型Claude Opus 4。

是的，一篇論文，合著者是AI。

他們認為，蘋果所謂的“推理崩潰”，根本不是AI能力的上限到了，而是實驗設計本身存在致命缺陷。

槽點一：混淆了“推理失敗”和“作文本不夠長”

這是最核心的一個反駁點。

批評者指出，像漢諾塔這類問題，解決步驟是隨著盤子數量指數級增長的。比如，要解開15個盤子的漢諾塔，需要輸出超過32000個步驟。

而大模型的上下文窗口和單次輸出Token都是有上限的。

模型很可能在內部已經得出了正確的算法和策略，但因為輸出篇幅的限制，導致答案被截斷，結果被蘋果的評估腳本直接判了零分。

也就是說，這不是邏輯的極限，這是Token的極限。

槽點二：“考卷”本身就有問題

這是對蘋果研究嚴謹性的最后一擊。反駁論文指出，不僅僅是評估方法有問題，蘋果用來測試的“考卷”本身，都存在設計缺陷。

論文作者發現，在蘋果使用的基準測試中，一些“過河問題”的題目，根據其給出的限制條件，在數學上是根本無解的。

一個無解的題，AI當然給不出“正確答案”。

但最離譜的是，蘋果的評估系統，依然對模型在這些無解題上的輸出進行了評分，并以此作為模型“失敗”的證據。

槽點三：換個“考法”，AI原地復活

他們做了一個簡單的實驗：他們不再要求模型一步一步地寫出漢諾塔的完整解法，而是讓模型直接輸出一個能解決這個問題的“程序代碼”（比如一個Lua函數）。

結果如何？

模型在之前被判定為“徹底失敗”的、更復雜的任務上，輕松給出了正確的程序。

這個反轉極具說服力。它證明了AI不是不懂解題的邏輯，它只是無法遵循那種“默寫全文”式的、極其冗長又低效的輸出要求。

AI 的腦子里已經有了算法，但你非要它把每一步計算都口述出來。

此外，還有其他研究者在推特（X）指出了第四個槽點：缺乏人類基準的“單方面宣布”。即，蘋果在整個實驗中，從未將模型的表現與人類在相同任務下的表現進行對比。

別說AI了，就是一個正常人，在沒有任何紙筆輔助的情況下，去心算一個需要幾百步規劃的邏輯謎題，大腦一樣會“宕機”。

沒有這個最基本的參照系，怎么能斷言AI的“性能衰減”是一種根本性的“思考缺陷”，而不是所有智能體（包括人類）面對超限復雜任務時的正常表現呢？

責任編輯：武曉燕來源：大數據文摘

AI OpenAI Google

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

反轉！AI 推理能力遭蘋果質疑后，Claude 合著論文反擊：不是不會推理，是輸給 Token

反轉來了：“思考幻覺”本身的幻覺

槽點一：混淆了“推理失敗”和“作文本不夠長”

槽點二：“考卷”本身就有問題

槽點三：換個“考法”，AI原地復活