成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICML 2024演講爆火!Meta朱澤園揭秘大模型內(nèi)心世界:不同于人類的2級推理

人工智能 新聞
與 99% 以上的研究 LLM 行為過程(behavior process)的論文不同,本文作者另辟蹊徑,揭示了 LLM 在解決數(shù)學(xué)問題時的心理過程(mental process),為理解 LLM 的智能提供了新的視角。

大語言模型 (LLM) 是如何解數(shù)學(xué)題的?是通過模板記憶,還是真的學(xué)會了推理思維?模型的心算過程是怎樣的?能學(xué)會怎樣的推理技能?與人類相同,還是超越了人類?只學(xué)一種類型的數(shù)學(xué)題,是會對通用智能的發(fā)展產(chǎn)生幫助?LLM 為什么會犯推理錯誤?多大多深的 LLM 才能做推理?

圖片

論文地址:https://arxiv.org/abs/2407.20311

近日,來自 Meta FAIR、CMU 和 MBZUAI 的葉添、徐子誠、李遠(yuǎn)志、朱澤園四人團隊最新公布 arXiv 論文《語言模型物理學(xué) Part 2.1:小學(xué)數(shù)學(xué)與隱藏的推理過程》用可控實驗,巧妙地回答上述問題。推特網(wǎng)友 @xlr8harder 評價,「這一結(jié)果將一勞永逸地平息關(guān)于 LLM 是否具有推理能力,或者只是隨機鸚鵡的爭論?!?/span>

編者注:《語言模型物理學(xué)》全系列受邀于 7 月 22 日在 ICML 2024 國際機器學(xué)習(xí)頂級大會上進(jìn)行了兩小時的專題報告,反響熱烈,據(jù)悉現(xiàn)場掌聲不斷。這里為大家呈現(xiàn)系列中的 Part 2.1。

圖 1

論文詳解

首先,根據(jù)本系列的慣例,作者認(rèn)為不應(yīng)通過與 GPT-4 等大模型對話來猜測其思維方式,這類似于動物行為學(xué),雖可行但不夠嚴(yán)謹(jǐn),無法科學(xué)地揭示 GPT-4 的內(nèi)心思考過程。

此外,從數(shù)據(jù)角度看,只有完全訪問模型的預(yù)訓(xùn)練集(pretrain data),才能明確哪些題目是模型見過的,哪些是通過推理學(xué)會的。即使模型在 GSM8k(包含 8000 道小學(xué)數(shù)學(xué)題的基準(zhǔn)測試集)上獲得高分,也難以判斷它是否見過這些題目的變體(如不同語言或 GPT-4 改寫后的變體)。

為此,作者創(chuàng)建了 iGSM,一個人工合成的、模擬小學(xué)數(shù)學(xué)級別的思維題集,并讓模型從零開始在 iGSM 上預(yù)訓(xùn)練,以控制模型接觸的問題類別。值得注意的是,iGSM 不包含常識信息,只包含 mod 23 范圍內(nèi)的加減乘,并且所有計算都使用 CoT 逐步進(jìn)行。通過 iGSM,可進(jìn)行可控實驗,專門研究模型的推理能力,而忽略了其他因素(如大整數(shù)運算)。圖 2 展示了一個簡單的例題。

圖片圖 2

通過這個數(shù)據(jù)集,作者首先測試了 GPT2(RoPE 版)的表現(xiàn)。用 op 代表解題所需的數(shù)學(xué)運算步數(shù),作者發(fā)現(xiàn),當(dāng)在 op≤21 的題目上進(jìn)行訓(xùn)練時,模型不僅能達(dá)到 99% 正確率,還能在更高難度的題目(如 op=32)上保持 83% 的正確率(見圖 3)。這表明模型學(xué)會了某種推理技能,畢竟它從未見過 op>21 的題。(順帶一提,GPT-4o 在該數(shù)據(jù)集上僅能應(yīng)對 op=10 的題目,超過這個難度就如同盲猜,文末我們會討論這個問題。)

那模型究竟學(xué)會了怎樣的推理技能呢?解決 iGSM 的數(shù)學(xué)題至少有兩種思路。一種是作者稱為「0 級推理」,即「暴力計算能算則算」。由于題目中的變量可能存在復(fù)雜的依賴關(guān)系,有些可以直接計算,有些則需要先算出其他變量 —— 譬如小張比小王多 3 倍的水果,那么就要先算出小王有多少蘋果、梨子并求和,才可以開始計算小張的水果數(shù)?!? 級推理」就是盡可能枚舉所有變量,每次隨機找到一個可計算的變量,算出結(jié)果并繼續(xù)。

與之對應(yīng)的是「1 級推理」:通過拓?fù)渑判?,從問題開始反推,確定哪些變量需要計算,然后從葉子節(jié)點開始向上計算,力求「最短解答」。常見的數(shù)學(xué)題解通常采用 1 級推理,不會去計算「不必要的變量」。例如小張比小王多 3 倍的水果,問小張有多少水果,那小李的蘋果數(shù)就是不必要的變量,而小王的蘋果、梨子數(shù)都是必要的。

如圖 3 所示,作者發(fā)現(xiàn),GPT-2 可以學(xué)會 1 級推理,幾乎每次都給出最短解答。這非常不簡單!因為在模型生成第一句話之前,必須已經(jīng)在腦海中完成了整個拓?fù)渑判?—— 否則它怎么知道哪個變量是不必要的?如果模型一開始就生成了「小李的蘋果有 7 個」,那就無法回頭,得不到最短解答。

圖片圖 3

那么,模型是如何學(xué)會「1 級推理」的?為此,作者對模型的內(nèi)部參數(shù)進(jìn)行了探針 probing 研究(見圖 4)。結(jié)論顯示(具體探針方法詳見論文),在模型生成第一句話之前,它已經(jīng)通過心算確定了哪些變量 A 是「必要的」(nece (A)=True)。同時,模型在說每句話之后,也心算出了接下來所有「可計算的」的變量 A(cannext (A)=True)。因此,模型只需對 nece 和 cannext 不斷進(jìn)行邏輯與(AND)運算,就能從葉子節(jié)點開始,一步步給出完整的計算過程。

值得注意的是,這些復(fù)雜的心算能力并沒有顯現(xiàn)在訓(xùn)練集中。模型只接觸過 iGSM 數(shù)據(jù),只見過「語言」部分(題目和答案),但它卻自主學(xué)會了類似人類的思維過程(mental process),并得出了最優(yōu)解!換言之,這項研究反駁了我們一周前在《語言≠思維,大模型學(xué)不了推理:一篇 Nature 讓 AI 社區(qū)炸鍋了》中的報道,用科學(xué)方法證明了大模型通過語言確實能學(xué)會思維。

更神奇的是,模型學(xué)到的不止如此。在圖 4 中,作者還發(fā)現(xiàn)模型會心算許多對解題無用的信息。比如,在變量關(guān)系剛被描述完,甚至在問題尚未提出之前,模型已經(jīng)知道任意兩個變量 A 和 B 之間是否存在遞歸依賴 —— 即使這些變量與解題無關(guān)。對人類來說,我們通常會從問題開始反推,忽略不必要的變量,而 GPT-2 這樣的語言模型則會將整個關(guān)系圖梳理一遍,以應(yīng)對將來可能被問及的任何問題。作者將這種能力稱為「2 級推理」。

雖然「2 級推理」對解題不必須,但它確實是一種更通用的技能。模型利用并行能力,對信息進(jìn)行大量因果梳理。這一能力是語言模型在學(xué)習(xí)解題中自行掌握的,沒有人 (數(shù)據(jù)) 教過它這么做。作者猜測,這或許是通用人工智能(AGI)中「通用」一詞的潛在來源,即語言模型可以超越數(shù)據(jù)集所教的技能,學(xué)會更為通用的能力。

圖片圖 4

接下來,作者研究了模型為何會犯錯??偨Y(jié)來看,在 iGSM 數(shù)據(jù)集上,模型幾乎只會犯兩類錯誤:一是計算不必要的變量,二是計算當(dāng)前不可算的變量,如圖 5 所示。

對于前者,作者發(fā)現(xiàn),如果模型在生成答案之前就心算出錯,誤認(rèn)為某個變量 A 是 「必要的」(nece (A)=True),那么模型在生成答案時很可能會對 A 強行計算,從而產(chǎn)生非最短解答。這一發(fā)現(xiàn)非常有趣,它表明許多錯誤是系統(tǒng)性的,在生成第一個 token 之前,模型還沒張嘴就可以確信它會犯錯(通過探針的方法)。這類錯誤與模型生成過程中的隨機性或 beam search 無關(guān)。

至于后者,作者也將其歸因于心算錯誤,并將用一整篇的后續(xù) Part 2.2 論文,來針對性提高模型的心算能力,以最終提高解題正確率。該論文尚未發(fā)布,我們會在公眾號中繼續(xù)關(guān)注并報道。

圖片圖 5

下一個結(jié)論是,作者反駁了大模型縮放定律(scaling law)中強調(diào)的「唯大獨尊」,即模型的表現(xiàn)只與參數(shù)數(shù)量相關(guān),而與寬度或深度無關(guān)。這一觀點最早由 OpenAI 的縮放定律論文提出,并在后續(xù)幾乎所有研究中得到遵循。

作者通過 iGSM 數(shù)據(jù)集進(jìn)行了一個可控實驗,如圖 6 所示。通過對比更小更深的模型與更大更寬的模型,發(fā)現(xiàn)對于解決 iGSM 中的數(shù)學(xué)題,模型的深度顯然比寬度更為重要。例如,一個 20 層、9 個 head 的模型,表現(xiàn)遠(yuǎn)好于 4 層、30 個 head 的模型,盡管后者有兩倍的參數(shù)。

更進(jìn)一步,作者發(fā)現(xiàn)對深度的依賴源于模型心算的復(fù)雜性。通過對模型不同深度的探針研究,作者發(fā)現(xiàn),對于那些與問題較遠(yuǎn)的變量 A,心算 nece (A) 往往需要更多層數(shù)。具體來說,若變量 A 與問題變量的距離為 t,則需要進(jìn)行 t 步心算才能知道 nece (A)=True。t 越大,模型所需的層數(shù)也越多,如圖 6 所示。

作者強調(diào),模型對深度的依賴無法通過思維鏈(Chain-of-Thought, CoT)來抵消。事實上,iGSM 中的數(shù)學(xué)題解已經(jīng)盡可能地使用了 CoT,即所有計算都被拆解為一步一步。即便如此,模型仍需要通過心算來規(guī)劃 CoT 的第一步該算什么 —— 這個心算過程可能依然需要多個步驟。這解釋了模型對深度依賴的原因。

圖片圖 6

綜上所述,與 99% 以上的研究 LLM 行為過程(behavior process)的論文不同,本文作者另辟蹊徑,揭示了 LLM 在解決數(shù)學(xué)問題時的心理過程(mental process),為理解 LLM 的智能提供了新的視角。

文章最后作者指出,即便是 GPT-4,在 iGSM 數(shù)據(jù)集上也只能進(jìn)行最多 10 步的推理。這表明,即使是當(dāng)前最強的模型,利用了據(jù)稱所有的互聯(lián)網(wǎng)數(shù)據(jù),仍無法精準(zhǔn)地完成超過 10 步推理。這暗示現(xiàn)有大模型使用的預(yù)訓(xùn)練數(shù)據(jù)集(pretrain data)可能還有很大的改進(jìn)空間。通過本文的方法,建立人工合成數(shù)據(jù)來增強模型的推理能力以及信息梳理能力,或許是一種新的可能。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-09-09 09:00:00

2010-03-01 15:08:05

WCF單向操作

2010-03-11 14:13:20

Python編程

2023-03-27 08:17:48

2025-04-21 08:42:00

模型開源AI

2013-03-20 10:05:01

英特爾逆襲ARM

2023-02-06 14:37:44

LeCun模型

2025-05-21 08:47:00

2016-07-15 10:37:37

云性能云計算

2024-03-07 13:23:20

谷歌模型Sora

2025-01-16 08:40:00

2010-07-22 16:50:00

2025-06-20 09:19:19

2024-02-01 08:34:30

大模型推理框架NVIDIA

2023-11-26 17:54:00

AI科學(xué)

2023-05-25 13:59:12

ChatGPT模型

2020-02-11 17:17:54

RSAC信息安全會議RSA大會

2022-02-13 08:36:46

數(shù)字人民幣支付寶微信錢包

2023-06-15 14:01:00

模型筆記

2022-04-11 15:40:34

機器學(xué)習(xí)研究推理
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲免费片 | 亚洲免费在线 | 久久涩涩| a视频在线 | 亚洲在线 | 精品亚洲一区二区三区 | 欧美精品一区二区三 | 亚洲一区二区免费 | 欧美成人一区二区 | 91精品国产乱码久久久久久久久 | 欧美9999| 亚洲免费在线视频 | 亚洲欧美综合 | 久久国产精品免费一区二区三区 | 一区二区三区四区在线播放 | 亚洲欧美精品 | 国产黄色在线观看 | 日本黄色免费片 | 国产精品中文字幕一区二区三区 | 欧洲精品在线观看 | 亚洲a一区二区 | 日本不卡一区二区三区在线观看 | 成人免费看片又大又黄 | 亚洲国产aⅴ成人精品无吗 亚洲精品久久久一区二区三区 | 日本精品裸体写真集在线观看 | 日本精品视频在线 | 日日干夜夜操 | 久久精品国产亚洲一区二区三区 | 亚洲aⅴ | 中文字幕一区二区三区四区五区 | 精品综合 | 特黄特色大片免费视频观看 | 欧美精品tv | 亚洲另类春色偷拍在线观看 | 亚洲精品一级 | 成人在线精品 | 欧美视频在线免费 | 国产精品一区在线观看 | 欧洲精品一区 | 一区二区三区免费观看 | 日韩第1页 |