摩爾定律失效怎么辦?神經(jīng)形態(tài)計(jì)算專家:把重點(diǎn)變成樹突學(xué)習(xí)
?1965 年,戈登?摩爾歸納了一條經(jīng)驗(yàn)之談:集成電路上可以容納的晶體管數(shù)目大約每經(jīng)過(guò) 18 個(gè)月到 24 個(gè)月就會(huì)增加一倍。換言之,處理器的性能大約每?jī)赡攴槐丁?/p>
這條經(jīng)驗(yàn)之談被稱為「摩爾定律」,之后的四十年里,半導(dǎo)體芯片制造工藝確實(shí)以令人目眩的速度成倍提高。但近年來(lái),摩爾定律的加倍效應(yīng)已在放緩,甚至有人預(yù)言在不久的將來(lái)會(huì)失效。
業(yè)界紛紛提出各種方案應(yīng)對(duì)這種發(fā)展瓶頸,來(lái)自斯坦福大學(xué)的神經(jīng)形態(tài)工程師 Kwabena Boahen 最近提出了一種新思路:人工神經(jīng)元應(yīng)該模仿生物神經(jīng)元的樹突,而非突觸。研究論文發(fā)表在《Nature》上。
論文地址:https://www.nature.com/articles/s41586-022-05340-6
當(dāng)前,神經(jīng)形態(tài)計(jì)算旨在通過(guò)模仿構(gòu)成人腦的神經(jīng)元和突觸的機(jī)制來(lái)實(shí)現(xiàn)人工智能(AI)。人工神經(jīng)網(wǎng)絡(luò)反復(fù)調(diào)整連接神經(jīng)元的突觸,以修改每個(gè)突觸的「權(quán)重」,即一個(gè)神經(jīng)元對(duì)另一個(gè)神經(jīng)元的影響強(qiáng)度,然后神經(jīng)網(wǎng)絡(luò)確定由此產(chǎn)生的行為模式是否更善于找到解決方案。隨著時(shí)間的推移,系統(tǒng)會(huì)發(fā)現(xiàn)哪些模式最適合計(jì)算結(jié)果,并采用這些模式作為默認(rèn)模式。
神經(jīng)網(wǎng)絡(luò)通常包含很多層神經(jīng)元,例如 GPT-3 擁有 1750 億個(gè)權(quán)重,連接相當(dāng)于 830 萬(wàn)個(gè)神經(jīng)元,深度為 384 層。隨著神經(jīng)網(wǎng)絡(luò)規(guī)模和功能的不斷增加,它們變得越來(lái)越昂貴和耗能。以 GPT-3 為例,OpenAI 花費(fèi) 460 萬(wàn)美元讓 9200 個(gè) GPU 運(yùn)行兩周來(lái)訓(xùn)練這個(gè)大型模型。Kwabena Boahen 說(shuō):「GPT-3 在訓(xùn)練期間消耗的能量轉(zhuǎn)化為碳排放相當(dāng)于 1300 輛汽車。」
這也是 Boahen 提出神經(jīng)網(wǎng)絡(luò)下一步應(yīng)該嘗試數(shù)圖學(xué)習(xí)的重要原因。模仿神經(jīng)網(wǎng)絡(luò)中的樹突將增加傳輸信號(hào)中傳達(dá)的信息量,讓 AI 系統(tǒng)不再需要 GPU 云中的兆瓦級(jí)功率,在手機(jī)等移動(dòng)設(shè)備上就可以支持運(yùn)行。
樹突可以大量分支,允許一個(gè)神經(jīng)元與許多其他神經(jīng)元連接。已有研究發(fā)現(xiàn),樹突從其分支接收信號(hào)的順序決定了其響應(yīng)的強(qiáng)度。
Boahen 提出的樹突計(jì)算模型只有在接收到來(lái)自神經(jīng)元的精確序列信號(hào)時(shí)才會(huì)做出反應(yīng)。這意味著每個(gè)樹突都可以編碼數(shù)據(jù),而不僅僅是 0/1 這樣簡(jiǎn)單的電信號(hào)。基礎(chǔ)系統(tǒng)將變得更加強(qiáng)大,這取決于它擁有的連接數(shù)量和接收到的信號(hào)序列的長(zhǎng)度。
在實(shí)際構(gòu)建方面,Boahen 提出用鐵電 FET(FeFET)來(lái)模擬樹突,具有 5 個(gè)柵極的 1.5 微米長(zhǎng)的 FeFET 就可以模擬具有 5 個(gè)突觸的 15 微米長(zhǎng)的樹突。Boahen 說(shuō),這種構(gòu)建版本可能會(huì)在「3D 芯片」中實(shí)現(xiàn)。
感興趣的讀者可以閱讀論文原文,了解更多研究細(xì)節(jié)。
參考鏈接:https://spectrum.ieee.org/dendrocentric-learning?