成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

反轉!AI 推理能力遭蘋果質疑后,Claude 合著論文反擊:不是不會推理,是輸給 Token

人工智能
研究者們指出,OpenAI 的“o”系列、Google 的 Gemini 2.5、以及 DeepSeek-R 等所謂“推理型大模型”,本質上并沒有從訓練數據中學習到可泛化的第一性原理。

近日,Apple 機器學習研究團隊發布了一篇名為《思考的幻覺(The Illusion of Thinking)》的論文。

圖片圖片

這篇 53 頁的技術報告并非普通評測,而是一記質疑當下主流 LLM 推理能力的重錘。

研究者們指出,OpenAI 的“o”系列、Google 的 Gemini 2.5、以及 DeepSeek-R 等所謂“推理型大模型”,本質上并沒有從訓練數據中學習到可泛化的第一性原理。

他們用了四個經典問題來證明這一觀點:漢諾塔(Tower of Hanoi)、積木世界(Blocks World)、過河問題(River Crossing)和跳棋(Checkers Jumping)

圖注:四類經典問題的示意圖。圖注:四類經典問題的示意圖。

這些任務的特點是,可以通過增加步驟和限制條件,讓難度指數級飆升,極其考驗模型的長鏈條邏輯規劃能力。

蘋果的要求也很苛刻:不僅要給出正確答案,還得用“思維鏈”的方式,把解題的每一步都寫出來。

結果呢?

正如蘋果所料,隨著謎題越來越難,所有頂尖推理模型的準確率都直線下滑。在最復雜的任務面前,性能直接崩盤,準確率歸零

圖片圖片

圖注:在所有謎題環境和不同難度級別下,思維模型(Claude 3.7 Sonnet with thinking、DeepSeek-R1)與其非思維對應模型(Claude 3.7 Sonnet、DeepSeek-V3)在準確率方面的對比。

更有意思的,是蘋果研究員發現的一個現象:模型用于“思考”的篇幅(也就是輸出的token數量)也開始縮水。

作者將此視為模型主動減少推理嘗試的跡象。

也就是說:推理,是幻象。

圖片圖片

這篇論文在X(推特)上被瘋狂轉發,很多人上來就直接宣判:“蘋果已經證明了,像Claude、DeepSeek這類模型根本不會推理,它們只是記性特別好的復讀機罷了!”

反轉來了:“思考幻覺”本身的幻覺

圖片圖片

爭議的火苗很快被一篇名為《The Illusion of The Illusion of Thinking》的反駁論文點燃,作者是一位名叫Alex Lawsen的獨立研究員——以及,他的合作伙伴:大語言模型Claude Opus 4。

是的,一篇論文,合著者是AI。

他們認為,蘋果所謂的“推理崩潰”,根本不是AI能力的上限到了,而是實驗設計本身存在致命缺陷

槽點一:混淆了“推理失敗”和“作文本不夠長”

這是最核心的一個反駁點。

批評者指出,像漢諾塔這類問題,解決步驟是隨著盤子數量指數級增長的。比如,要解開15個盤子的漢諾塔,需要輸出超過32000個步驟。

而大模型的上下文窗口和單次輸出Token都是有上限的。

模型很可能在內部已經得出了正確的算法和策略,但因為輸出篇幅的限制,導致答案被截斷,結果被蘋果的評估腳本直接判了零分。

也就是說,這不是邏輯的極限,這是Token的極限。

槽點二:“考卷”本身就有問題

這是對蘋果研究嚴謹性的最后一擊。反駁論文指出,不僅僅是評估方法有問題,蘋果用來測試的“考卷”本身,都存在設計缺陷。

論文作者發現,在蘋果使用的基準測試中,一些“過河問題”的題目,根據其給出的限制條件,在數學上是根本無解的

一個無解的題,AI當然給不出“正確答案”。

但最離譜的是,蘋果的評估系統,依然對模型在這些無解題上的輸出進行了評分,并以此作為模型“失敗”的證據。

槽點三:換個“考法”,AI原地復活

他們做了一個簡單的實驗:他們不再要求模型一步一步地寫出漢諾塔的完整解法,而是讓模型直接輸出一個能解決這個問題的“程序代碼”(比如一個Lua函數)

結果如何?

模型在之前被判定為“徹底失敗”的、更復雜的任務上,輕松給出了正確的程序。

這個反轉極具說服力。它證明了AI不是不懂解題的邏輯,它只是無法遵循那種“默寫全文”式的、極其冗長又低效的輸出要求。

AI 的腦子里已經有了算法,但你非要它把每一步計算都口述出來。

此外,還有其他研究者在推特(X)指出了第四個槽點:缺乏人類基準的“單方面宣布”。即,蘋果在整個實驗中,從未將模型的表現與人類在相同任務下的表現進行對比。

別說AI了,就是一個正常人,在沒有任何紙筆輔助的情況下,去心算一個需要幾百步規劃的邏輯謎題,大腦一樣會“宕機”。

沒有這個最基本的參照系,怎么能斷言AI的“性能衰減”是一種根本性的“思考缺陷”,而不是所有智能體(包括人類)面對超限復雜任務時的正常表現呢?

責任編輯:武曉燕 來源: 大數據文摘
相關推薦

2025-06-06 14:13:46

蘋果AI模型

2025-06-10 09:25:27

2025-05-15 14:39:17

AI模型數據

2025-05-29 03:00:00

混合推理模型LHRMAI

2012-05-22 14:32:05

2024-10-22 13:28:53

2025-05-26 08:40:00

2022-03-28 14:23:26

HarmonyAI算法統一推理接口

2024-11-07 13:19:03

2024-10-17 14:02:19

2024-06-17 13:34:54

2025-02-25 09:49:12

2023-11-15 14:17:23

微軟語言模型AI 模型

2023-11-20 21:56:04

AI推理

2025-06-11 13:41:50

2025-02-25 08:15:09

2022-05-05 09:10:00

AI芯片設計

2024-10-21 09:46:00

2025-03-10 06:10:00

2011-04-27 10:20:46

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 每日更新av| 国产一区二区三区四区 | 在线 丝袜 欧美 日韩 制服 | 一级a毛片 | 日韩欧美视频在线 | 成人在线播放网址 | 国精久久 | 日本高清视频在线播放 | 视频一二三区 | 久久久久久免费精品一区二区三区 | 一本色道精品久久一区二区三区 | 2018国产大陆天天弄 | 97精品超碰一区二区三区 | 手机看黄av免费网址 | 久草院线 | 国产一级片一区二区 | 91国内精品久久 | 精品一区二区三区电影 | 欧美一级毛片久久99精品蜜桃 | 中国一级毛片免费 | 伊人久久大香线 | 亚洲成人三区 | 亚洲人成网亚洲欧洲无码 | 久久亚洲精品久久国产一区二区 | 中文字幕在线一区二区三区 | 日韩精品免费视频 | 国产欧美日韩一区 | 91精品国产综合久久久久 | 欧美在线视频a | 99久久久久国产精品免费 | www久| 国际精品鲁一鲁一区二区小说 | 狠狠干五月天 | 91精品国产一区二区在线观看 | 亚洲日本视频 | 久久久国产亚洲精品 | 男女搞网站| 亚洲91精品 | 日韩一二区 | 成人影院免费视频 | 日韩电影免费在线观看中文字幕 |