ICML 2024演講爆火!Meta朱澤園揭秘大模型內(nèi)心世界:不同于人類的2級推理
大語言模型 (LLM) 是如何解數(shù)學(xué)題的?是通過模板記憶,還是真的學(xué)會了推理思維?模型的心算過程是怎樣的?能學(xué)會怎樣的推理技能?與人類相同,還是超越了人類?只學(xué)一種類型的數(shù)學(xué)題,是會對通用智能的發(fā)展產(chǎn)生幫助?LLM 為什么會犯推理錯誤?多大多深的 LLM 才能做推理?
論文地址:https://arxiv.org/abs/2407.20311
近日,來自 Meta FAIR、CMU 和 MBZUAI 的葉添、徐子誠、李遠(yuǎn)志、朱澤園四人團隊最新公布 arXiv 論文《語言模型物理學(xué) Part 2.1:小學(xué)數(shù)學(xué)與隱藏的推理過程》用可控實驗,巧妙地回答上述問題。推特網(wǎng)友 @xlr8harder 評價,「這一結(jié)果將一勞永逸地平息關(guān)于 LLM 是否具有推理能力,或者只是隨機鸚鵡的爭論?!?/span>
編者注:《語言模型物理學(xué)》全系列受邀于 7 月 22 日在 ICML 2024 國際機器學(xué)習(xí)頂級大會上進(jìn)行了兩小時的專題報告,反響熱烈,據(jù)悉現(xiàn)場掌聲不斷。這里為大家呈現(xiàn)系列中的 Part 2.1。
圖 1
論文詳解
首先,根據(jù)本系列的慣例,作者認(rèn)為不應(yīng)通過與 GPT-4 等大模型對話來猜測其思維方式,這類似于動物行為學(xué),雖可行但不夠嚴(yán)謹(jǐn),無法科學(xué)地揭示 GPT-4 的內(nèi)心思考過程。
此外,從數(shù)據(jù)角度看,只有完全訪問模型的預(yù)訓(xùn)練集(pretrain data),才能明確哪些題目是模型見過的,哪些是通過推理學(xué)會的。即使模型在 GSM8k(包含 8000 道小學(xué)數(shù)學(xué)題的基準(zhǔn)測試集)上獲得高分,也難以判斷它是否見過這些題目的變體(如不同語言或 GPT-4 改寫后的變體)。
為此,作者創(chuàng)建了 iGSM,一個人工合成的、模擬小學(xué)數(shù)學(xué)級別的思維題集,并讓模型從零開始在 iGSM 上預(yù)訓(xùn)練,以控制模型接觸的問題類別。值得注意的是,iGSM 不包含常識信息,只包含 mod 23 范圍內(nèi)的加減乘,并且所有計算都使用 CoT 逐步進(jìn)行。通過 iGSM,可進(jìn)行可控實驗,專門研究模型的推理能力,而忽略了其他因素(如大整數(shù)運算)。圖 2 展示了一個簡單的例題。
圖 2
通過這個數(shù)據(jù)集,作者首先測試了 GPT2(RoPE 版)的表現(xiàn)。用 op 代表解題所需的數(shù)學(xué)運算步數(shù),作者發(fā)現(xiàn),當(dāng)在 op≤21 的題目上進(jìn)行訓(xùn)練時,模型不僅能達(dá)到 99% 正確率,還能在更高難度的題目(如 op=32)上保持 83% 的正確率(見圖 3)。這表明模型學(xué)會了某種推理技能,畢竟它從未見過 op>21 的題。(順帶一提,GPT-4o 在該數(shù)據(jù)集上僅能應(yīng)對 op=10 的題目,超過這個難度就如同盲猜,文末我們會討論這個問題。)
那模型究竟學(xué)會了怎樣的推理技能呢?解決 iGSM 的數(shù)學(xué)題至少有兩種思路。一種是作者稱為「0 級推理」,即「暴力計算能算則算」。由于題目中的變量可能存在復(fù)雜的依賴關(guān)系,有些可以直接計算,有些則需要先算出其他變量 —— 譬如小張比小王多 3 倍的水果,那么就要先算出小王有多少蘋果、梨子并求和,才可以開始計算小張的水果數(shù)?!? 級推理」就是盡可能枚舉所有變量,每次隨機找到一個可計算的變量,算出結(jié)果并繼續(xù)。
與之對應(yīng)的是「1 級推理」:通過拓?fù)渑判?,從問題開始反推,確定哪些變量需要計算,然后從葉子節(jié)點開始向上計算,力求「最短解答」。常見的數(shù)學(xué)題解通常采用 1 級推理,不會去計算「不必要的變量」。例如小張比小王多 3 倍的水果,問小張有多少水果,那小李的蘋果數(shù)就是不必要的變量,而小王的蘋果、梨子數(shù)都是必要的。
如圖 3 所示,作者發(fā)現(xiàn),GPT-2 可以學(xué)會 1 級推理,幾乎每次都給出最短解答。這非常不簡單!因為在模型生成第一句話之前,必須已經(jīng)在腦海中完成了整個拓?fù)渑判?—— 否則它怎么知道哪個變量是不必要的?如果模型一開始就生成了「小李的蘋果有 7 個」,那就無法回頭,得不到最短解答。
圖 3
那么,模型是如何學(xué)會「1 級推理」的?為此,作者對模型的內(nèi)部參數(shù)進(jìn)行了探針 probing 研究(見圖 4)。結(jié)論顯示(具體探針方法詳見論文),在模型生成第一句話之前,它已經(jīng)通過心算確定了哪些變量 A 是「必要的」(nece (A)=True)。同時,模型在說每句話之后,也心算出了接下來所有「可計算的」的變量 A(cannext (A)=True)。因此,模型只需對 nece 和 cannext 不斷進(jìn)行邏輯與(AND)運算,就能從葉子節(jié)點開始,一步步給出完整的計算過程。
值得注意的是,這些復(fù)雜的心算能力并沒有顯現(xiàn)在訓(xùn)練集中。模型只接觸過 iGSM 數(shù)據(jù),只見過「語言」部分(題目和答案),但它卻自主學(xué)會了類似人類的思維過程(mental process),并得出了最優(yōu)解!換言之,這項研究反駁了我們一周前在《語言≠思維,大模型學(xué)不了推理:一篇 Nature 讓 AI 社區(qū)炸鍋了》中的報道,用科學(xué)方法證明了大模型通過語言確實能學(xué)會思維。
更神奇的是,模型學(xué)到的不止如此。在圖 4 中,作者還發(fā)現(xiàn)模型會心算許多對解題無用的信息。比如,在變量關(guān)系剛被描述完,甚至在問題尚未提出之前,模型已經(jīng)知道任意兩個變量 A 和 B 之間是否存在遞歸依賴 —— 即使這些變量與解題無關(guān)。對人類來說,我們通常會從問題開始反推,忽略不必要的變量,而 GPT-2 這樣的語言模型則會將整個關(guān)系圖梳理一遍,以應(yīng)對將來可能被問及的任何問題。作者將這種能力稱為「2 級推理」。
雖然「2 級推理」對解題不必須,但它確實是一種更通用的技能。模型利用并行能力,對信息進(jìn)行大量因果梳理。這一能力是語言模型在學(xué)習(xí)解題中自行掌握的,沒有人 (數(shù)據(jù)) 教過它這么做。作者猜測,這或許是通用人工智能(AGI)中「通用」一詞的潛在來源,即語言模型可以超越數(shù)據(jù)集所教的技能,學(xué)會更為通用的能力。
圖 4
接下來,作者研究了模型為何會犯錯??偨Y(jié)來看,在 iGSM 數(shù)據(jù)集上,模型幾乎只會犯兩類錯誤:一是計算不必要的變量,二是計算當(dāng)前不可算的變量,如圖 5 所示。
對于前者,作者發(fā)現(xiàn),如果模型在生成答案之前就心算出錯,誤認(rèn)為某個變量 A 是 「必要的」(nece (A)=True),那么模型在生成答案時很可能會對 A 強行計算,從而產(chǎn)生非最短解答。這一發(fā)現(xiàn)非常有趣,它表明許多錯誤是系統(tǒng)性的,在生成第一個 token 之前,模型還沒張嘴就可以確信它會犯錯(通過探針的方法)。這類錯誤與模型生成過程中的隨機性或 beam search 無關(guān)。
至于后者,作者也將其歸因于心算錯誤,并將用一整篇的后續(xù) Part 2.2 論文,來針對性提高模型的心算能力,以最終提高解題正確率。該論文尚未發(fā)布,我們會在公眾號中繼續(xù)關(guān)注并報道。
圖 5
下一個結(jié)論是,作者反駁了大模型縮放定律(scaling law)中強調(diào)的「唯大獨尊」,即模型的表現(xiàn)只與參數(shù)數(shù)量相關(guān),而與寬度或深度無關(guān)。這一觀點最早由 OpenAI 的縮放定律論文提出,并在后續(xù)幾乎所有研究中得到遵循。
作者通過 iGSM 數(shù)據(jù)集進(jìn)行了一個可控實驗,如圖 6 所示。通過對比更小更深的模型與更大更寬的模型,發(fā)現(xiàn)對于解決 iGSM 中的數(shù)學(xué)題,模型的深度顯然比寬度更為重要。例如,一個 20 層、9 個 head 的模型,表現(xiàn)遠(yuǎn)好于 4 層、30 個 head 的模型,盡管后者有兩倍的參數(shù)。
更進(jìn)一步,作者發(fā)現(xiàn)對深度的依賴源于模型心算的復(fù)雜性。通過對模型不同深度的探針研究,作者發(fā)現(xiàn),對于那些與問題較遠(yuǎn)的變量 A,心算 nece (A) 往往需要更多層數(shù)。具體來說,若變量 A 與問題變量的距離為 t,則需要進(jìn)行 t 步心算才能知道 nece (A)=True。t 越大,模型所需的層數(shù)也越多,如圖 6 所示。
作者強調(diào),模型對深度的依賴無法通過思維鏈(Chain-of-Thought, CoT)來抵消。事實上,iGSM 中的數(shù)學(xué)題解已經(jīng)盡可能地使用了 CoT,即所有計算都被拆解為一步一步。即便如此,模型仍需要通過心算來規(guī)劃 CoT 的第一步該算什么 —— 這個心算過程可能依然需要多個步驟。這解釋了模型對深度依賴的原因。
圖 6
綜上所述,與 99% 以上的研究 LLM 行為過程(behavior process)的論文不同,本文作者另辟蹊徑,揭示了 LLM 在解決數(shù)學(xué)問題時的心理過程(mental process),為理解 LLM 的智能提供了新的視角。
文章最后作者指出,即便是 GPT-4,在 iGSM 數(shù)據(jù)集上也只能進(jìn)行最多 10 步的推理。這表明,即使是當(dāng)前最強的模型,利用了據(jù)稱所有的互聯(lián)網(wǎng)數(shù)據(jù),仍無法精準(zhǔn)地完成超過 10 步推理。這暗示現(xiàn)有大模型使用的預(yù)訓(xùn)練數(shù)據(jù)集(pretrain data)可能還有很大的改進(jìn)空間。通過本文的方法,建立人工合成數(shù)據(jù)來增強模型的推理能力以及信息梳理能力,或許是一種新的可能。