大腦分層預測讓大模型更卷!
1000億個神經元,每個神經元有8000個左右的突觸,大腦的復雜結構為人工智能研究帶來啟發。
當前,多數深度學習模型的架構,便是一種受生物大腦神經元啟發的人工神經網絡。
生成式AI大爆發,可以看到深度學習算法在生成、總結、翻譯和分類文本的能力越來越強大。
然而,這些語言模型仍然無法與人類的語言能力相匹配。
恰恰預測編碼理論(Predictive coding)為這種差異提供了一個初步的解釋:
雖然語言模型可以預測附近的詞,但人腦會不斷預測跨越多個時間尺度的表征層次。
為了驗證這一假設,Meta AI的科學家分析了304位聽完短篇故事的人的大腦功能磁共振成像信號。
得出結論是,分層預測編碼在語言處理中發揮至關重要的作用。
與此同時,研究說明了神經科學和人工智能之間的協同作用如何能夠揭示人類認知的計算基礎。
最新研究已發表在Nature子刊Nature Human Behavior上。
論文地址:https://www.nature.com/articles/s41562-022-01516-2
值得一提的是,實驗過程中用上了GPT-2,說不定未來這一研究能夠啟發到OpenAI未開源的模型。
到時候ChatGPT豈不是更強了。
大腦預測編碼分層
不到3年的時間,深度學習在文本生成、翻譯等方面取得重大進展,要歸功于一個訓練有素的算法:根據附近語境預測單詞。
值得注意的是,這些模型的激活已被證明可以線性地映射到大腦對語音和文字的反應上。
此外,這種映射主要取決于算法預測未來單詞的能力,因此表明這一目標足以使它們收斂到類似大腦的計算。
然而,這些算法和大腦之間仍然存在著差距:盡管有大量的訓練數據,但目前的語言模型在長篇故事生成、總結和連貫對話以及信息檢索方面遇到挑戰。
因算法無法捕捉一些句法結構和語義屬性,而且對語言的理解也很膚淺。
比如,算法傾向于將動詞錯誤地分配給嵌套短語中的主語。
「the keys that the man holds ARE here」
同樣,當文本生成只針對下一個詞的預測進行優化時,深度語言模型會生成平淡無奇、不連貫的序列,或者會陷入無限重復的循環中。
當前,預測編碼理論為這一缺陷提供了一個潛在的解釋:
雖然深層語言模型主要是為了預測下一個詞,但這個框架表明,人腦可以在多個時間尺度和皮層層次的表征上進行預測。
此前研究已經證明了大腦中的語音預測,即一個詞或音素,與功能磁共振成像(fMRI),腦電圖,腦磁圖和皮質電圖相關聯。
為預測下一個單詞或音素而訓練的模型,可以將其輸出簡化為一個數字,即下一個符號的概率。
然而,預測表征的性質和時間范圍在很大程度上是未知的。
在這項研究中,研究人員提取了304個人的fMRI信號,讓每個人聽約26分鐘的短篇小說 (Y) ,并且輸入相同內容激活語言算法 (X)。
然后,通過「大腦分數」量化X和Y之間的相似性,即最佳線性映射W后的皮爾遜相關系數(R)。
為了測試添加預測單詞的表示是否改善了這種相關性,將網絡的激活 (黑色矩形 X) 連接到預測窗口 (彩色矩形~X) ,再使用PCA將預測窗口的維數降低到X的維數。
最后F量化了通過通過增強語言算法對該預測窗口的激活而獲得的大腦得分增益。我們用不同的距離窗口重復這個分析(d)。
通過用跨越多個時間尺度的預測,即遠距離預測和分層預測,來增強這些算法,發現可以改善這種大腦映射。
最后,實驗結果發現這些預測是分層組織的:額葉皮層比顳葉皮層預測更高層次、更大范圍和更多的上下文表征。
實驗結果
深度語言模型映射到大腦活動中
科研人員定量了研究輸入內容相同時深度語言模型和大腦之間的相似性。
使用Narratives數據集,分析了304個聽短故事的人的fMRI(功能性磁共振成像)。
對每個體素和每個實驗個體的結果進行獨立的線性嶺回歸,以預測由幾個深度語言模型激活而得到的fMRI信號。
使用保留的數據計算了相應的 「大腦分數」,即fMRI信號和輸入指定語言模型刺激所得的嶺回歸預測結果之間的相關性。
為清晰起見,首先關注GPT-2第八層的激活,這是一個由HuggingFace2提供的12層因果深度神經網絡,最能預測大腦活動。
與以前的研究一致,GPT-2的激活結果準確地映射到一組分布式雙邊大腦區域,大腦分數在聽覺皮層和前顳區和上顳區達到高峰。
Meta團隊接著測試了增強對具有長距離預測功能的語言模型的刺激是否能使其獲得更高的大腦分數。
對于每個詞,研究人員將當前詞的模型激活和一個由未來詞組成「預測窗口」連接起來。預測窗口的表示參數包括表示當前詞和窗口中最后一個未來詞之間距離的d和所串聯詞數量的w。對于每個d,比較有和沒有預測表征時的大腦分數,計算「預測分數」。
結果顯示,d=8時預測分數最高,峰值出現在與語言處理有關的大腦區域。
d=8對應于3.15秒的音頻,即兩個連續的fMRI掃描的時間。預測分數在大腦中呈雙邊分布,除了額葉下部和邊緣上回。
通過補充分析,團隊還得到如下結果:(1)與當前詞距離0到10的每個未來詞都對預測結果有明顯貢獻;(2)預測表征最好用8個左右的詞的窗口大小來捕捉;(3)隨機預測表征不能提高大腦得分;(4)比起真正的未來詞,GPT-2生成的詞能夠取得類似的結果,但得分較低。
預測的時間范圍沿著大腦的層次發生變化
解剖學和功能學研究都表明,大腦皮層分層次的。不同層次的皮層,預測的時間窗口是否相同呢?
研究人員估計了每個體素預測分數的峰值,將其對應的距離表示為d。
結果顯示,前額葉區的預測峰值出現時對應的d平均而言要大于顳葉區(圖2e),顳下回的d就要大于顳上溝。
最佳預測距離沿顳-頂-額軸的變化在大腦兩個半球上基本是對稱的。
對于每個詞及其前文語境,生成十個可能的未來詞,這與真正未來詞的句法相匹配。對于每個可能的未來詞,提取相應的GPT-2激活并取其平均值。這種方法能夠將給定語言模型激活分解為句法成分和語義成分,從而計算其各自的預測分數。
結果顯示,語義預測是長距離的(d = 8),涉及一個分布式網絡,在額葉和頂葉達到峰值,而句法預測的范圍較短(d = 5),集中在上顳區和左額區。
這些結果揭示了大腦中多層次的預測,其中上顳皮層主要預測短期、淺層和句法表征,而下額葉和頂葉區域主要預測長期、上下文、高層和語義表征。
預測的背景沿著大腦層次變得更復雜
仍按照之前的方法計算預測分數,但改變了GPT-2的使用層,為每個體素確定k,即預測分數最大化的深度。
我們的結果表明,最佳預測深度沿著預期的皮質層次而變化,聯想皮層比低級語言區有更深的預測的最佳模型。區域之間的差異雖然平均很小,但在不同的個體中是非常明顯的。
總的來說,額葉皮層的長程預測比低水平腦區的短期預測背景更復雜,水平更高。
將GPT-2調整為預測性編碼結構
將GPT-2的當前詞和未來詞的表征串聯起來可以得到更好的大腦活動模型,特別是在額葉區。
對GPT-2進行微調以預測距離更遠、背景更豐富、層次更高的表征,能否改善這些區域的大腦映射呢?
在調整中,不僅使用了語言建模,還使用了高層次和長距離的目標,這里的高層次目標是預訓練的GPT-2模型的第8層。
結果顯示,用高層次和遠距離建模對進行GPT-2微調最能改善額葉的反應,而聽覺區和較低層次的腦區并沒有從這種高層次的目標中明顯受益,進一步反映了額葉區在預測語言的長程、語境和高層次表征方面的作用。