LeCun有了新證據!大模型思考與人類思考存在本質差別 精華
大模型到底會不會真的思考?這一疑問一直縈繞在人們心中。
作為LLM的反對派Yann LeCun又拿出了新證據。他參與的最新研究《From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning》(從詞元到思想:大模型與人類在壓縮與意義之間的權衡)用信息論的全新視角,揭示了大語言模型(LLM)與人類在“理解世界”這件事上的本質差異。
人類大腦在處理信息時,善于將紛繁復雜的感知和經驗,壓縮成簡潔而有意義的“概念”。比如,“知更鳥”和“藍松鴉”都被歸為“鳥類”,而且我們還能分辨出“知更鳥”比“企鵝”更“像鳥”。這種能力讓我們在面對海量信息時,既能高效歸納,又不失對細節和語境的敏感。
而LLM的“理解”機制則大不相同。它們通過對海量文本的統計學習,形成了復雜的詞嵌入空間。論文作者提出疑問:這些AI模型內部的“概念結構”,是否也能像人類一樣,在壓縮信息的同時保留豐富的語義?還是說,它們只是“聰明的壓縮機”,本質上與人類的認知有著天壤之別?
信息論新框架:用“速率-失真”理論量化AI與人類的差距
為了解答這一問題,研究團隊創新性地引入了信息論中的“速率-失真理論”(Rate-Distortion Theory)和“信息瓶頸原理”(Information Bottleneck),建立了一套全新的量化框架。簡單來說,這一框架可以精確衡量一個系統在“壓縮信息”(減少冗余)和“保留語義”(避免失真)之間的權衡。
研究者選用了認知心理學領域的經典數據集(如Rosch的“鳥類”“家具”典型性實驗),這些數據集由專家精心設計,能真實反映人類的概念形成和“典型性”判斷。與此同時,團隊分析了BERT、Llama、Gemma、Qwen、Phi、Mistral等多種主流大模型的詞嵌入結構,涵蓋了從幾億到七百多億參數的不同規模。
三大核心發現:AI與人類的“理解鴻溝”
1.AI能學會“分門別類”,但難以“舉一反三”
研究發現,LLM在大類劃分上表現優異,能將“鳥類”“家具”等分得八九不離十,甚至有些小模型(如BERT)在這方面比大模型還強。這說明,AI在宏觀上能“看懂”哪些東西屬于同一類。但在更細致的“典型性”判斷上,AI就力不從心了。比如,AI很難像人類一樣認為“知更鳥”比“企鵝”更像鳥。這種“細粒度”語義區分的缺失,意味著AI的“理解”還停留在表層。這種細膩的語義區分,是人類認知的獨特優勢。
2.AI和人類的“優化目標”完全不同
論文的最大亮點在于揭示了AI和人類在“壓縮-意義”權衡上的本質分歧。LLM在內部表示上極度追求“壓縮”——用最少的信息表達最多內容,最大限度減少冗余。這種“壓縮至上”的策略,使得AI在信息論意義上極為高效,但也犧牲了對語義細節和上下文的敏感。而人類的概念系統則更注重“適應性豐富性”,即保留更多細節和語境,即使這會降低壓縮效率,多花點“存儲空間”。這種根本性的差異,決定了兩者在“理解世界”時的表現截然不同。
3.模型越大≠越像人類,結構和目標更關鍵
研究還發現,模型規模的擴大并不能讓大模型更接近人類的思維方式。反而是模型的結構和訓練目標,才是影響“類人化”表現的關鍵。例如,BERT等編碼器模型在某些任務上甚至優于更大的生成式模型。這一發現對當前AI“堆參數”的發展趨勢提出了挑戰。
小結
技術的進步不只是“更大”或“更快”,更重要的是“更合適”。如果想讓機器更好地服務于人類,或許我們需要重新思考,什么才是真正有價值的“智能”。我們不必苛求機器像人一樣思考,也許正是這些差異,讓人類和技術的結合變得更加有趣和充滿可能。
論文:???https://arxiv.org/pdf/2505.17117??
本文轉載自??AI工程化??,作者:ully
