MLP一夜被干掉!MIT加州理工等革命性KAN破記錄,發(fā)現(xiàn)數(shù)學(xué)定理碾壓DeepMind
一夜之間,機(jī)器學(xué)習(xí)范式要變天了!
當(dāng)今,統(tǒng)治深度學(xué)習(xí)領(lǐng)域的基礎(chǔ)架構(gòu)便是,多層感知器(MLP)——將激活函數(shù)放置在神經(jīng)元上。
那么,除此之外,我們是否還有新的路線可走?
就在今天,來自MIT、加州理工、東北大學(xué)等機(jī)構(gòu)的團(tuán)隊(duì)重磅發(fā)布了,全新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——Kolmogorov–Arnold Networks(KAN)。
研究人員對MLP做了一個簡單的改變,即將可學(xué)習(xí)的激活函數(shù)從節(jié)點(diǎn)(神經(jīng)元)移到邊(權(quán)重)上!
論文地址:https://arxiv.org/pdf/2404.19756
這個改變乍一聽似乎毫無根據(jù),但它與數(shù)學(xué)中的「逼近理論」(approximation theories)有著相當(dāng)深刻的聯(lián)系。
事實(shí)證明,Kolmogorov-Arnold表示對應(yīng)兩層網(wǎng)絡(luò),在邊上,而非節(jié)點(diǎn)上,有可學(xué)習(xí)的激活函數(shù)。
正是從表示定理得到啟發(fā),研究人員用神經(jīng)網(wǎng)絡(luò)顯式地,將Kolmogorov-Arnold表示參數(shù)化。
值得一提的是,KAN名字的由來,是為了紀(jì)念兩位偉大的已故數(shù)學(xué)家Andrey Kolmogorov和Vladimir Arnold。
實(shí)驗(yàn)結(jié)果顯示,KAN比傳統(tǒng)的MLP有更加優(yōu)越的性能,提升了神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性和可解釋性。
而最令人意想不到的是,KAN的可視化和交互性,讓其在科學(xué)研究中具有潛在的應(yīng)用價值,能夠幫助科學(xué)家發(fā)現(xiàn)新的數(shù)學(xué)和物理規(guī)律。
研究中,作者用KAN重新發(fā)現(xiàn)了紐結(jié)理論(knot theory)中的數(shù)學(xué)定律!
而且,KAN以更小的網(wǎng)絡(luò)和自動化方式,復(fù)現(xiàn)了DeepMind在2021年的結(jié)果。
在物理方面,KAN可以幫助物理學(xué)家研究Anderson局域化(這是凝聚態(tài)物理中的一種相變)。
對了,順便提一句,研究中KAN的所有示例(除了參數(shù)掃描),在單個CPU上不到10分鐘就可以復(fù)現(xiàn)。
KAN的橫空出世,直接挑戰(zhàn)了一直以來統(tǒng)治機(jī)器學(xué)習(xí)領(lǐng)域的MLP架構(gòu),在全網(wǎng)掀起軒然大波。
機(jī)器學(xué)習(xí)新紀(jì)元開啟
有人直呼,機(jī)器學(xué)習(xí)的新紀(jì)元開始了!
谷歌DeepMind研究科學(xué)家稱,「Kolmogorov-Arnold再次出擊!一個鮮為人知的事實(shí)是:這個定理出現(xiàn)在一篇關(guān)于置換不變神經(jīng)網(wǎng)絡(luò)(深度集)的開創(chuàng)性論文中,展示了這種表示與集合/GNN聚合器構(gòu)建方式(作為特例)之間的復(fù)雜聯(lián)系」。
一個全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)誕生了!KAN將極大地改變?nèi)斯ぶ悄艿挠?xùn)練和微調(diào)方式。
難道是AI進(jìn)入了2.0時代?
還有網(wǎng)友用通俗的語言,將KAN和MLP的區(qū)別,做了一個形象的比喻:
Kolmogorov-Arnold網(wǎng)絡(luò)(KAN)就像一個可以烤任何蛋糕的三層蛋糕配方,而多層感知器(MLP)是一個有不同層數(shù)的定制蛋糕。MLP更復(fù)雜但更通用,而KAN是靜態(tài)的,但針對一項(xiàng)任務(wù)更簡單、更快速。
論文作者,MIT教授Max Tegmark表示,最新論文表明,一種與標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)完全不同的架構(gòu),在處理有趣的物理和數(shù)學(xué)問題時,以更少的參數(shù)實(shí)現(xiàn)了更高的精度。
接下來,一起來看看代表深度學(xué)習(xí)未來的KAN,是如何實(shí)現(xiàn)的?
重回牌桌上的KAN
KAN的理論基礎(chǔ)
柯爾莫哥洛夫-阿諾德定理(Kolmogorov–Arnold representation theorem)指出,如果f是一個定義在有界域上的多變量連續(xù)函數(shù),那么該函數(shù)就可以表示為多個單變量、加法連續(xù)函數(shù)的有限組合。
對于機(jī)器學(xué)習(xí)來說,該問題可以描述為:學(xué)習(xí)高維函數(shù)的過程可以簡化成學(xué)習(xí)多項(xiàng)式數(shù)量的一維函數(shù)。
但這些一維函數(shù)可能是非光滑的,甚至是分形的(fractal),在實(shí)踐中可能無法學(xué)習(xí),也正是由于這種「病態(tài)行為」,柯爾莫哥洛夫-阿諾德表示定理在機(jī)器學(xué)習(xí)領(lǐng)域基本上被判了「死刑」,即理論正確,但實(shí)際無用。
在這篇文章中,研究人員仍然對該定理在機(jī)器學(xué)習(xí)領(lǐng)域的應(yīng)用持樂觀態(tài)度,并提出了兩點(diǎn)改進(jìn):
1、原始方程中,只有兩層非線性和一個隱藏層(2n+1),可以將網(wǎng)絡(luò)泛化到任意寬度和深度;
2、科學(xué)和日常生活中的大多數(shù)函數(shù)大多是光滑的,并且具有稀疏的組合結(jié)構(gòu),可能有助于形成平滑的柯爾莫哥洛夫-阿諾德表示。類似于物理學(xué)家和數(shù)學(xué)家的區(qū)別,物理學(xué)家更關(guān)注典型場景,而數(shù)學(xué)家更關(guān)心最壞情況。
KAN架構(gòu)
柯爾莫哥洛夫-阿諾德網(wǎng)絡(luò)(KAN)設(shè)計(jì)的核心思想是將多變量函數(shù)的逼近問題轉(zhuǎn)化為學(xué)習(xí)一組單變量函數(shù)的問題。在這個框架下,每個單變量函數(shù)可以用B樣條曲線來參數(shù)化,其中B樣條是一種局部的、分段的多項(xiàng)式曲線,其系數(shù)是可學(xué)習(xí)的。
為了把原始定理中的兩層網(wǎng)絡(luò)擴(kuò)展到更深、更寬,研究人員提出了一個更「泛化」的定理版本來支持設(shè)計(jì)KAN:
受MLPs層疊結(jié)構(gòu)來提升網(wǎng)絡(luò)深度的啟發(fā),文中同樣引入了一個類似的概念,KAN層,由一個一維函數(shù)矩陣組成,每個函數(shù)都有可訓(xùn)練的參數(shù)。
根據(jù)柯爾莫哥洛夫-阿諾德定理,原始的KAN層由內(nèi)部函數(shù)和外部函數(shù)組成,分別對應(yīng)于不同的輸入和輸出維度,這種堆疊KAN層的設(shè)計(jì)方法不僅擴(kuò)展了KANs的深度,而且保持了網(wǎng)絡(luò)的可解釋性和表達(dá)能力,其中每個層都是由單變量函數(shù)組成的,可以對函數(shù)進(jìn)行單獨(dú)學(xué)習(xí)和理解。
下式中的f就等價于KAN
實(shí)現(xiàn)細(xì)節(jié)
雖然KAN的設(shè)計(jì)理念看起來簡單,純靠堆疊,但優(yōu)化起來也并不容易,研究人員在訓(xùn)練過程中也摸索到了一些技巧。
1、殘差激活函數(shù):通過引入基函數(shù)b(x)和樣條函數(shù)的組合,使用殘差連接的概念來構(gòu)建激活函數(shù)?(x),有助于訓(xùn)練過程的穩(wěn)定性。
2、初始化尺度(scales):激活函數(shù)的初始化設(shè)置為接近零的樣條函數(shù),權(quán)重w使用Xavier初始化方法,有助于在訓(xùn)練初期保持梯度的穩(wěn)定。
3、更新樣條網(wǎng)格:由于樣條函數(shù)定義在有界區(qū)間內(nèi),而神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中激活值可能會超出這個區(qū)間,因此動態(tài)更新樣條網(wǎng)格可以確保樣條函數(shù)始終在合適的區(qū)間內(nèi)運(yùn)行。
參數(shù)量
1、網(wǎng)絡(luò)深度:L
2、每層的寬度:N
3、每個樣條函數(shù)是基于G個區(qū)間(G+1個網(wǎng)格點(diǎn))定義的,k階(通常k=3)
所以KANs的參數(shù)量約為
作為對比,MLP的參數(shù)量為O(L*N^2),看起來比KAN效率更高,但KANs可以使用更小的層寬度(N),不僅可以提升泛化性能,還能提升可解釋性。
KAN比MLP,勝在了哪?
性能更強(qiáng)
作為合理性檢驗(yàn),研究人員構(gòu)造了五個已知具有平滑KA(柯爾莫哥洛夫-阿諾德)表示的例子作為驗(yàn)證數(shù)據(jù)集,通過每200步增加網(wǎng)格點(diǎn)的方式對KANs進(jìn)行訓(xùn)練,覆蓋G的范圍為{3,5,10,20,50,100,200,500,1000}
使用不同深度和寬度的MLPs作為基線模型,并且KANs和MLPs都使用LBFGS算法總共訓(xùn)練1800步,再用RMSE作為指標(biāo)進(jìn)行對比。
從結(jié)果中可以看到,KAN的曲線更抖,能夠快速收斂,達(dá)到平穩(wěn)狀態(tài);并且比MLP的縮放曲線更好,尤其是在高維的情況下。
還可以看到,三層KAN的性能要遠(yuǎn)遠(yuǎn)強(qiáng)于兩層,表明更深的KANs具有更強(qiáng)的表達(dá)能力,符合預(yù)期。
交互解釋KAN
研究人員設(shè)計(jì)了一個簡單的回歸實(shí)驗(yàn),以展現(xiàn)用戶可以在與KAN的交互過程中,獲得可解釋性最強(qiáng)的結(jié)果。
假設(shè)用戶對于找出符號公式感興趣,總共需要經(jīng)過5個交互步驟。
步驟 1:帶有稀疏化的訓(xùn)練。
從全連接的KAN開始,通過帶有稀疏化正則化的訓(xùn)練可以使網(wǎng)絡(luò)變得更稀疏,從而可以發(fā)現(xiàn)隱藏層中,5個神經(jīng)元中的4個都看起來沒什么作用。
步驟 2:剪枝
自動剪枝后,丟棄掉所有無用的隱藏神經(jīng)元,只留下一個KAN,把激活函數(shù)匹配到已知的符號函數(shù)上。
步驟 3:設(shè)置符號函數(shù)
假設(shè)用戶可以正確地從盯著KAN圖表猜測出這些符號公式,就可以直接設(shè)置
如果用戶沒有領(lǐng)域知識或不知道這些激活函數(shù)可能是哪些符號函數(shù),研究人員提供了一個函數(shù)suggest_symbolic來建議符號候選項(xiàng)。
步驟 4:進(jìn)一步訓(xùn)練
在網(wǎng)絡(luò)中所有的激活函數(shù)都符號化之后,唯一剩下的參數(shù)就是仿射參數(shù);繼續(xù)訓(xùn)練仿射參數(shù),當(dāng)看到損失降到機(jī)器精度(machine precision)時,就能意識到模型已經(jīng)找到了正確的符號表達(dá)式。
步驟 5:輸出符號公式
使用Sympy計(jì)算輸出節(jié)點(diǎn)的符號公式,驗(yàn)證正確答案。
可解釋性驗(yàn)證
研究人員首先在一個有監(jiān)督的玩具數(shù)據(jù)集中,設(shè)計(jì)了六個樣本,展現(xiàn)KAN網(wǎng)絡(luò)在符號公式下的組合結(jié)構(gòu)能力。
可以看到,KAN成功學(xué)習(xí)到了正確的單變量函數(shù),并通過可視化的方式,可解釋地展現(xiàn)出KAN的思考過程。
在無監(jiān)督的設(shè)置下,數(shù)據(jù)集中只包含輸入特征x,通過設(shè)計(jì)某些變量(x1, x2, x3)之間的聯(lián)系,可以測試出KAN模型尋找變量之間依賴關(guān)系的能力。
從結(jié)果來看,KAN模型成功找到了變量之間的函數(shù)依賴性,但作者也指出,目前仍然只是在合成數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),還需要一種更系統(tǒng)、更可控的方法來發(fā)現(xiàn)完整的關(guān)系。
帕累托最優(yōu)
通過擬合特殊函數(shù),作者展示了KAN和MLP在由模型參數(shù)數(shù)量和RMSE損失跨越的平面中的帕累托前沿(Pareto Frontier)。
在所有特殊函數(shù)中,KAN始終比MLP具有更好的帕累托前沿。
求解偏微方程
在求解偏微方程任務(wù)中, 研究人員繪制了預(yù)測解和真實(shí)解之間的L2平方和H1平方損失。
下圖中,前兩個是損失的訓(xùn)練動態(tài),第三和第四是損失函數(shù)數(shù)量的擴(kuò)展定律(Sacling Law)。
如下結(jié)果所示,與MLP相比,KAN的收斂速度更快,損失更低,并且具有更陡峭的擴(kuò)展定律。
持續(xù)學(xué)習(xí),不會發(fā)生災(zāi)難性遺忘
我們都知道,災(zāi)難性遺忘是機(jī)器學(xué)習(xí)中,一個嚴(yán)重的問題。
人工神經(jīng)網(wǎng)絡(luò)和大腦之間的區(qū)別在于,大腦具有放置在空間局部功能的不同模塊。當(dāng)學(xué)習(xí)新任務(wù)時,結(jié)構(gòu)重組僅發(fā)生在負(fù)責(zé)相關(guān)技能的局部區(qū)域,而其他區(qū)域保持不變。
然而,大多數(shù)人工神經(jīng)網(wǎng)絡(luò),包括MLP,卻沒有這種局部性概念,這可能是災(zāi)難性遺忘的原因。
而研究證明了,KAN具有局部可塑性,并且可以利用樣條(splines)局部性,來避免災(zāi)難性遺忘。
這個想法非常簡單,由于樣條是局部的,樣本只會影響一些附近的樣條系數(shù),而遠(yuǎn)處的系數(shù)保持不變。
相比之下,由于MLP通常使用全局激活(如ReLU/Tanh/SiLU),因此,任何局部變化都可能不受控制地傳播到遠(yuǎn)處的區(qū)域,從而破壞存儲在那里的信息。
研究人員采用了一維回歸任務(wù)(由5個高斯峰組成)。每個峰值周圍的數(shù)據(jù)按順序(而不是一次全部)呈現(xiàn)給KAN和MLP。
結(jié)果如下圖所示,KAN僅重構(gòu)當(dāng)前階段存在數(shù)據(jù)的區(qū)域,而使之前的區(qū)域保持不變。
而MLP在看到新的數(shù)據(jù)樣本后會重塑整個區(qū)域,從而導(dǎo)致災(zāi)難性的遺忘。
發(fā)現(xiàn)紐結(jié)理論,結(jié)果超越DeepMind
KAN的誕生對于機(jī)器學(xué)習(xí)未來應(yīng)用,意味著什么?
紐結(jié)理論(Knot theory)是低維拓?fù)鋵W(xué)中的一門學(xué)科,它揭示了三流形和四流形的拓?fù)鋵W(xué)問題,并在生物學(xué)和拓?fù)淞孔佑?jì)算等領(lǐng)域有著廣泛的應(yīng)用。
2021年,DeepMind團(tuán)隊(duì)曾首次用AI證明了紐結(jié)理論(knot theory)登上了Nature。
論文地址:https://www.nature.com/articles/s41586-021-04086-x
這項(xiàng)研究中,通過監(jiān)督學(xué)習(xí)和人類領(lǐng)域?qū)<遥贸隽艘粋€與代數(shù)和幾何結(jié)不變量相關(guān)的新定理。
即梯度顯著性識別出了監(jiān)督問題的關(guān)鍵不變量,這使得領(lǐng)域?qū)<姨岢隽艘粋€猜想,該猜想隨后得到了完善和證明。
對此,作者研究KAN是否可以在同一問題上取得良好的可解釋結(jié)果,從而預(yù)測紐結(jié)的簽名。
在DeepMind實(shí)驗(yàn)中,他們研究紐結(jié)理論數(shù)據(jù)集的主要結(jié)果是:
1 利用網(wǎng)絡(luò)歸因法發(fā)現(xiàn),簽名主要取決于中間距離
和縱向距離λ。
2 人類領(lǐng)域?qū)<液髞戆l(fā)現(xiàn)與斜率有很高的相關(guān)性
并得出
為了研究問題(1),作者將17個紐結(jié)不變量視為輸入,將簽名視為輸出。
與DeepMind中的設(shè)置類似,簽名(偶數(shù))被編碼為一熱向量,并且網(wǎng)絡(luò)通過交叉熵?fù)p失進(jìn)行訓(xùn)練。
結(jié)果發(fā)現(xiàn),一個極小的KAN能夠達(dá)到81.6%的測試精度,而DeepMind的4層寬度300MLP,僅達(dá)到78%的測試精度。
如下表所示,KAN (G = 3, k = 3) 有約200參數(shù),而MLP約有300000參數(shù)量。
值得注意的是,KAN不僅更準(zhǔn)確,而且更準(zhǔn)確。同時比MLP的參數(shù)效率更高。
在可解釋性方面,研究人員根據(jù)每個激活的大小來縮放其透明度,因此無需特征歸因即可立即清楚,哪些輸入變量是重要的。
然后,在三個重要變量上訓(xùn)練KAN,獲得78.2%的測試準(zhǔn)確率。
如下是,通過KAN,作者重新發(fā)現(xiàn)了紐結(jié)數(shù)據(jù)集中的三個數(shù)學(xué)關(guān)系。
物理Anderson局域化有解了
而在物理應(yīng)用中,KAN也發(fā)揮了巨大的價值。
Anderson是一種基本現(xiàn)象,其中量子系統(tǒng)中的無序會導(dǎo)致電子波函數(shù)的局域化,從而使所有傳輸停止。
在一維和二維中,尺度論證表明,對于任何微小的隨機(jī)無序,所有的電子本征態(tài)都呈指數(shù)級局域化。
相比之下,在三維中,一個臨界能量形成了一個相分界,將擴(kuò)展態(tài)和局域態(tài)分開,這被稱為移動性邊緣。
理解這些移動性邊緣對于解釋固體中的金屬-絕緣體轉(zhuǎn)變等各種基本現(xiàn)象至關(guān)重要,以及在光子設(shè)備中光的局域化效應(yīng)。
作者通過研究發(fā)現(xiàn),KANs使得提取移動性邊緣變得非常容易,無論是數(shù)值上的,還是符號上的。
顯然,KAN已然成為科學(xué)家的得力助手、重要的合作者。
總而言之,得益于準(zhǔn)確性、參數(shù)效率和可解釋性的優(yōu)勢,KAN將是AI+Science一個有用的模型/工具。
未來,KAN的進(jìn)一步在科學(xué)領(lǐng)域中的應(yīng)用,還待挖掘。