大腦里也有個Transformer!和「海馬體」機制相同
我不能創造的,我也不理解 ——費曼
想要創造人工智能,首先要理解人類的大腦因何有智能。
隨著神經網絡的誕生及后續的輝煌發展,研究者們一直在為神經網絡尋找生物學上的解釋,生物學上的進展也在啟發AI研究人員開發新模型。
但人工智能領域的研究人員其實還有一個更遠大的追求:利用AI模型來幫助理解大腦。
最近有研究發現,雖然時下最流行的Transformer模型是在完全沒有生物學知識輔助的情況下開發出來的,但其架構卻和人腦海馬結構極其相似。
論文鏈接:https://arxiv.org/pdf/2112.04035.pdf
研究人員給Transformer配備了遞歸位置編碼后,發現模型可以精確復制海馬結構(hippocampal formation)的空間表征。
不過作者也表示,對于這一結果并不驚訝,因為Transformer與目前神經科學中的海馬體模型密切相關,最明顯的就是位置細胞(place cell)和網格細胞(grid cell)。
而且通過實驗發現,Transformer模型相比神經科學版本提供的模型來說有巨大的性能提升。
這項工作將人工神經網絡和大腦網絡的計算結合起來,對海馬體和大腦皮層之間的相互作用提供了新的理解,并暗示了皮層區域如何執行超出目前神經科學模型的更廣泛的復雜任務,如語言理解。
Transformer仿真海馬體?
人類想要了解自己的大腦仍然困難重重,比如研究大腦如何組織和訪問空間信息來解決「我們在哪里,拐角處有什么以及如何到達那里」仍然是一項艱巨的挑戰。
整個過程可能涉及到從數百億個神經元中調用整個記憶網絡和存儲的空間數據,每個神經元都連接到數千個其他神經元。
雖然神經科學家已經確定了幾個關鍵元素,例如網格細胞、映射位置的神經元,但如何進行更深入的研究仍然是未知的:研究人員無法移除和研究人類灰質切片來觀察基于位置的圖像、聲音和氣味記憶如何流動并相互連接。
人工智能模型則提供了另一種途徑來理解人腦,多年來,神經科學家已經利用多種類型的神經網絡來模擬大腦中神經元的發射。
最近有研究表明,海馬體(一個對記憶至關重要的大腦結構)基本上和Transformer模型差不多。
研究人員用新模型以一種與大腦內部運作相似的方式追蹤空間信息,取得了一些顯著的研究成果。
來自牛津大學和斯坦福大學的認知神經科學家James Whittington表示,當我們知道這些大腦模型等同于Transformer時,也就意味著新模型會表現得更好,也更容易訓練。
從Whittington和其他人的研究成果中可以看出,Transformer可以極大地提高神經網絡模型模仿網格細胞和大腦其他部分進行的各種計算的能力。
Whittington表示,這樣的模型可以推動我們對人工神經網絡如何工作的理解,甚至更有可能是對大腦中如何進行計算的理解。
主要從事Transformer模型研究的谷歌大腦計算機科學家David Ha表示,我們并不是要重新創造一個新的大腦,但我們能不能創造一種機制來做大腦可以做的事情?
Transformer在五年前才首次提出,當時是作為人工智能處理自然語言的一種新模型,也是BERT和GPT-3等那些「明星模型」的秘密武器。這些模型可以生成令人信服的歌詞,創作莎士比亞十四行詩,或者做一些人工客服的工作。
Transformer的核心機制就是自注意力,其中每個輸入(例如一個單詞、一個像素、一個序列中的數字)總是與其他的所有輸入相連,而其他常見的神經網絡只是將輸入與某些輸入相連接。
雖然Transformer是專門為自然語言任務而設計的,但后來的研究也證明了Transformer在其他任務中也同樣表現出色,比如對圖像進行分類,以及現在對大腦進行建模。
2020年,由奧地利約翰開普勒林茨大學的計算機科學家Sepp Hochreiter(LSTM論文一作)領導的一個小組,使用一個Transformer來重新調整一個強大的、長期存在的記憶檢索模型Hopfield網絡。
這些網絡在40年前由普林斯頓物理學家John Hopfield首次提出,遵循一個一般規則:在同一時間活躍的神經元相互之間建立了強有力的聯系。
Hochreiter和他的合作者注意到,研究人員一直在尋找更好的記憶檢索模型,他們看到了一類新的Hopfield網絡如何檢索記憶和Transformer如何執行注意力之間的聯系。
這些新的Hopfield網絡由Hopfield和麻省理工學院-IBM沃森人工智能實驗室的Dmitry Krotov開發,與標準的Hopfield網絡相比,具有更有效的連接,可以存儲和檢索更多記憶。
論文鏈接:https://papers.nips.cc/paper/2016/hash/eaae339c4d89fc102edd9dbdb6a28915-Abstract.html
Hochreiter的團隊通過添加一個類似Transformer中的注意力機制的規則來升級這些網絡。
2022年,這篇新論文的進一步調整了Hochreiter的方法,修改了Transformer,使其不再將記憶視為線性序列,而是像句子中的一串單詞,將其編碼為高維空間中的坐標。
研究人員稱這種「扭曲」進一步提高了該模型在神經科學任務中的表現。實驗結果還表明,該模型在數學上等同于神經科學家在fMRI掃描中看到的網格細胞發射模式的模型。
倫敦大學學院的神經科學家Caswell Barry表示,網格細胞具有這種令人興奮的、美麗的、有規律的結構,并且具有引人注目的模式,不太可能隨機出現。
這項新工作顯示了Transformer如何準確地復制了在海馬體中觀察到的那些模式。
他們也認識到,Transformer模型可以根據以前的狀態和它的移動方式弄清楚它在哪里,而且是以一種關鍵的方式進入傳統的網格細胞模型。
近期的一些其他工作也表明,Transformer可以促進我們對其他大腦功能的理解。
去年,麻省理工學院的計算神經科學家Martin Schrimpf分析了43種不同的神經網絡模型,以了解它們對由fMRI和皮質電圖報告的人類神經活動測量結果的預測程度。
他發現Transformer是目前領先的、最先進的神經網絡,幾乎可以預測成像中發現的所有變化。
而David Ha與同為計算機科學家的Yujin Tang最近也設計了一個模型,可以故意給Transformer以隨機、無序的方式輸入大量數據,模仿人體如何向大腦傳輸感官觀察。結果發現Transformer可以像我們的大腦一樣,可以成功地處理無序的信息流。
論文鏈接:https://arxiv.org/abs/2111.14377
Yujin Tang表示,神經網絡是硬接線,只能接收特定的輸入。但在現實生活中,數據集經常快速變化,而大多數人工智能沒有任何辦法調整。未來我們想嘗試一種能夠快速適應的架構。