成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MLP一夜被干掉!MIT加州理工等革命性KAN破記錄,發(fā)現(xiàn)數(shù)學(xué)定理碾壓DeepMind

人工智能 新聞
無需懷念MLP,新網(wǎng)絡(luò)KAN基于柯爾莫哥洛夫-阿諾德定理,帶著更少的參數(shù)、更強(qiáng)的性能、更好的可解釋性來了,深度學(xué)習(xí)架構(gòu)革新進(jìn)入新時代!

一夜之間,機(jī)器學(xué)習(xí)范式要變天了!

當(dāng)今,統(tǒng)治深度學(xué)習(xí)領(lǐng)域的基礎(chǔ)架構(gòu)便是,多層感知器(MLP)——將激活函數(shù)放置在神經(jīng)元上。

那么,除此之外,我們是否還有新的路線可走?

圖片

圖片

就在今天,來自MIT、加州理工、東北大學(xué)等機(jī)構(gòu)的團(tuán)隊(duì)重磅發(fā)布了,全新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——Kolmogorov–Arnold Networks(KAN)。

圖片

研究人員對MLP做了一個簡單的改變,即將可學(xué)習(xí)的激活函數(shù)從節(jié)點(diǎn)(神經(jīng)元)移到邊(權(quán)重)上!

圖片

論文地址:https://arxiv.org/pdf/2404.19756

這個改變乍一聽似乎毫無根據(jù),但它與數(shù)學(xué)中的「逼近理論」(approximation theories)有著相當(dāng)深刻的聯(lián)系。

事實(shí)證明,Kolmogorov-Arnold表示對應(yīng)兩層網(wǎng)絡(luò),在邊上,而非節(jié)點(diǎn)上,有可學(xué)習(xí)的激活函數(shù)。

正是從表示定理得到啟發(fā),研究人員用神經(jīng)網(wǎng)絡(luò)顯式地,將Kolmogorov-Arnold表示參數(shù)化。

值得一提的是,KAN名字的由來,是為了紀(jì)念兩位偉大的已故數(shù)學(xué)家Andrey Kolmogorov和Vladimir Arnold。

圖片

實(shí)驗(yàn)結(jié)果顯示,KAN比傳統(tǒng)的MLP有更加優(yōu)越的性能,提升了神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性和可解釋性。

圖片

而最令人意想不到的是,KAN的可視化和交互性,讓其在科學(xué)研究中具有潛在的應(yīng)用價值,能夠幫助科學(xué)家發(fā)現(xiàn)新的數(shù)學(xué)和物理規(guī)律。

研究中,作者用KAN重新發(fā)現(xiàn)了紐結(jié)理論(knot theory)中的數(shù)學(xué)定律!

而且,KAN以更小的網(wǎng)絡(luò)和自動化方式,復(fù)現(xiàn)了DeepMind在2021年的結(jié)果。

圖片

在物理方面,KAN可以幫助物理學(xué)家研究Anderson局域化(這是凝聚態(tài)物理中的一種相變)。

對了,順便提一句,研究中KAN的所有示例(除了參數(shù)掃描),在單個CPU上不到10分鐘就可以復(fù)現(xiàn)。

圖片

KAN的橫空出世,直接挑戰(zhàn)了一直以來統(tǒng)治機(jī)器學(xué)習(xí)領(lǐng)域的MLP架構(gòu),在全網(wǎng)掀起軒然大波。

機(jī)器學(xué)習(xí)新紀(jì)元開啟

有人直呼,機(jī)器學(xué)習(xí)的新紀(jì)元開始了!

圖片

谷歌DeepMind研究科學(xué)家稱,「Kolmogorov-Arnold再次出擊!一個鮮為人知的事實(shí)是:這個定理出現(xiàn)在一篇關(guān)于置換不變神經(jīng)網(wǎng)絡(luò)(深度集)的開創(chuàng)性論文中,展示了這種表示與集合/GNN聚合器構(gòu)建方式(作為特例)之間的復(fù)雜聯(lián)系」。

圖片

一個全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)誕生了!KAN將極大地改變?nèi)斯ぶ悄艿挠?xùn)練和微調(diào)方式。

圖片

圖片

難道是AI進(jìn)入了2.0時代?

圖片

還有網(wǎng)友用通俗的語言,將KAN和MLP的區(qū)別,做了一個形象的比喻:

Kolmogorov-Arnold網(wǎng)絡(luò)(KAN)就像一個可以烤任何蛋糕的三層蛋糕配方,而多層感知器(MLP)是一個有不同層數(shù)的定制蛋糕。MLP更復(fù)雜但更通用,而KAN是靜態(tài)的,但針對一項(xiàng)任務(wù)更簡單、更快速。

圖片

論文作者,MIT教授Max Tegmark表示,最新論文表明,一種與標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)完全不同的架構(gòu),在處理有趣的物理和數(shù)學(xué)問題時,以更少的參數(shù)實(shí)現(xiàn)了更高的精度。

圖片

接下來,一起來看看代表深度學(xué)習(xí)未來的KAN,是如何實(shí)現(xiàn)的?

重回牌桌上的KAN

KAN的理論基礎(chǔ)

柯爾莫哥洛夫-阿諾德定理(Kolmogorov–Arnold representation theorem)指出,如果f是一個定義在有界域上的多變量連續(xù)函數(shù),那么該函數(shù)就可以表示為多個單變量、加法連續(xù)函數(shù)的有限組合。

圖片

對于機(jī)器學(xué)習(xí)來說,該問題可以描述為:學(xué)習(xí)高維函數(shù)的過程可以簡化成學(xué)習(xí)多項(xiàng)式數(shù)量的一維函數(shù)。

但這些一維函數(shù)可能是非光滑的,甚至是分形的(fractal),在實(shí)踐中可能無法學(xué)習(xí),也正是由于這種「病態(tài)行為」,柯爾莫哥洛夫-阿諾德表示定理在機(jī)器學(xué)習(xí)領(lǐng)域基本上被判了「死刑」,即理論正確,但實(shí)際無用。

在這篇文章中,研究人員仍然對該定理在機(jī)器學(xué)習(xí)領(lǐng)域的應(yīng)用持樂觀態(tài)度,并提出了兩點(diǎn)改進(jìn):

1、原始方程中,只有兩層非線性和一個隱藏層(2n+1),可以將網(wǎng)絡(luò)泛化到任意寬度和深度;

2、科學(xué)和日常生活中的大多數(shù)函數(shù)大多是光滑的,并且具有稀疏的組合結(jié)構(gòu),可能有助于形成平滑的柯爾莫哥洛夫-阿諾德表示。類似于物理學(xué)家和數(shù)學(xué)家的區(qū)別,物理學(xué)家更關(guān)注典型場景,而數(shù)學(xué)家更關(guān)心最壞情況。

KAN架構(gòu)

柯爾莫哥洛夫-阿諾德網(wǎng)絡(luò)(KAN)設(shè)計(jì)的核心思想是將多變量函數(shù)的逼近問題轉(zhuǎn)化為學(xué)習(xí)一組單變量函數(shù)的問題。在這個框架下,每個單變量函數(shù)可以用B樣條曲線來參數(shù)化,其中B樣條是一種局部的、分段的多項(xiàng)式曲線,其系數(shù)是可學(xué)習(xí)的。

為了把原始定理中的兩層網(wǎng)絡(luò)擴(kuò)展到更深、更寬,研究人員提出了一個更「泛化」的定理版本來支持設(shè)計(jì)KAN:

受MLPs層疊結(jié)構(gòu)來提升網(wǎng)絡(luò)深度的啟發(fā),文中同樣引入了一個類似的概念,KAN層,由一個一維函數(shù)矩陣組成,每個函數(shù)都有可訓(xùn)練的參數(shù)。

圖片

根據(jù)柯爾莫哥洛夫-阿諾德定理,原始的KAN層由內(nèi)部函數(shù)和外部函數(shù)組成,分別對應(yīng)于不同的輸入和輸出維度,這種堆疊KAN層的設(shè)計(jì)方法不僅擴(kuò)展了KANs的深度,而且保持了網(wǎng)絡(luò)的可解釋性和表達(dá)能力,其中每個層都是由單變量函數(shù)組成的,可以對函數(shù)進(jìn)行單獨(dú)學(xué)習(xí)和理解。

下式中的f就等價于KAN

圖片

實(shí)現(xiàn)細(xì)節(jié)

雖然KAN的設(shè)計(jì)理念看起來簡單,純靠堆疊,但優(yōu)化起來也并不容易,研究人員在訓(xùn)練過程中也摸索到了一些技巧。

1、殘差激活函數(shù):通過引入基函數(shù)b(x)和樣條函數(shù)的組合,使用殘差連接的概念來構(gòu)建激活函數(shù)?(x),有助于訓(xùn)練過程的穩(wěn)定性。

圖片

2、初始化尺度(scales):激活函數(shù)的初始化設(shè)置為接近零的樣條函數(shù),權(quán)重w使用Xavier初始化方法,有助于在訓(xùn)練初期保持梯度的穩(wěn)定。

3、更新樣條網(wǎng)格:由于樣條函數(shù)定義在有界區(qū)間內(nèi),而神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中激活值可能會超出這個區(qū)間,因此動態(tài)更新樣條網(wǎng)格可以確保樣條函數(shù)始終在合適的區(qū)間內(nèi)運(yùn)行。

參數(shù)量

1、網(wǎng)絡(luò)深度:L

2、每層的寬度:N

3、每個樣條函數(shù)是基于G個區(qū)間(G+1個網(wǎng)格點(diǎn))定義的,k階(通常k=3)

所以KANs的參數(shù)量約為圖片

作為對比,MLP的參數(shù)量為O(L*N^2),看起來比KAN效率更高,但KANs可以使用更小的層寬度(N),不僅可以提升泛化性能,還能提升可解釋性。

KAN比MLP,勝在了哪?

性能更強(qiáng)

作為合理性檢驗(yàn),研究人員構(gòu)造了五個已知具有平滑KA(柯爾莫哥洛夫-阿諾德)表示的例子作為驗(yàn)證數(shù)據(jù)集,通過每200步增加網(wǎng)格點(diǎn)的方式對KANs進(jìn)行訓(xùn)練,覆蓋G的范圍為{3,5,10,20,50,100,200,500,1000}

使用不同深度和寬度的MLPs作為基線模型,并且KANs和MLPs都使用LBFGS算法總共訓(xùn)練1800步,再用RMSE作為指標(biāo)進(jìn)行對比。

圖片

從結(jié)果中可以看到,KAN的曲線更抖,能夠快速收斂,達(dá)到平穩(wěn)狀態(tài);并且比MLP的縮放曲線更好,尤其是在高維的情況下。

還可以看到,三層KAN的性能要遠(yuǎn)遠(yuǎn)強(qiáng)于兩層,表明更深的KANs具有更強(qiáng)的表達(dá)能力,符合預(yù)期。

交互解釋KAN

研究人員設(shè)計(jì)了一個簡單的回歸實(shí)驗(yàn),以展現(xiàn)用戶可以在與KAN的交互過程中,獲得可解釋性最強(qiáng)的結(jié)果。

圖片

假設(shè)用戶對于找出符號公式感興趣,總共需要經(jīng)過5個交互步驟。

步驟 1:帶有稀疏化的訓(xùn)練。

從全連接的KAN開始,通過帶有稀疏化正則化的訓(xùn)練可以使網(wǎng)絡(luò)變得更稀疏,從而可以發(fā)現(xiàn)隱藏層中,5個神經(jīng)元中的4個都看起來沒什么作用。

步驟 2:剪枝

自動剪枝后,丟棄掉所有無用的隱藏神經(jīng)元,只留下一個KAN,把激活函數(shù)匹配到已知的符號函數(shù)上。

步驟 3:設(shè)置符號函數(shù)

假設(shè)用戶可以正確地從盯著KAN圖表猜測出這些符號公式,就可以直接設(shè)置

圖片

如果用戶沒有領(lǐng)域知識或不知道這些激活函數(shù)可能是哪些符號函數(shù),研究人員提供了一個函數(shù)suggest_symbolic來建議符號候選項(xiàng)。

步驟 4:進(jìn)一步訓(xùn)練

在網(wǎng)絡(luò)中所有的激活函數(shù)都符號化之后,唯一剩下的參數(shù)就是仿射參數(shù);繼續(xù)訓(xùn)練仿射參數(shù),當(dāng)看到損失降到機(jī)器精度(machine precision)時,就能意識到模型已經(jīng)找到了正確的符號表達(dá)式。

步驟 5:輸出符號公式

使用Sympy計(jì)算輸出節(jié)點(diǎn)的符號公式,驗(yàn)證正確答案。

可解釋性驗(yàn)證

研究人員首先在一個有監(jiān)督的玩具數(shù)據(jù)集中,設(shè)計(jì)了六個樣本,展現(xiàn)KAN網(wǎng)絡(luò)在符號公式下的組合結(jié)構(gòu)能力。

可以看到,KAN成功學(xué)習(xí)到了正確的單變量函數(shù),并通過可視化的方式,可解釋地展現(xiàn)出KAN的思考過程。

在無監(jiān)督的設(shè)置下,數(shù)據(jù)集中只包含輸入特征x,通過設(shè)計(jì)某些變量(x1, x2, x3)之間的聯(lián)系,可以測試出KAN模型尋找變量之間依賴關(guān)系的能力。

圖片

從結(jié)果來看,KAN模型成功找到了變量之間的函數(shù)依賴性,但作者也指出,目前仍然只是在合成數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),還需要一種更系統(tǒng)、更可控的方法來發(fā)現(xiàn)完整的關(guān)系。

帕累托最優(yōu)

通過擬合特殊函數(shù),作者展示了KAN和MLP在由模型參數(shù)數(shù)量和RMSE損失跨越的平面中的帕累托前沿(Pareto Frontier)。

在所有特殊函數(shù)中,KAN始終比MLP具有更好的帕累托前沿。

求解偏微方程

在求解偏微方程任務(wù)中, 研究人員繪制了預(yù)測解和真實(shí)解之間的L2平方和H1平方損失。

下圖中,前兩個是損失的訓(xùn)練動態(tài),第三和第四是損失函數(shù)數(shù)量的擴(kuò)展定律(Sacling Law)。

如下結(jié)果所示,與MLP相比,KAN的收斂速度更快,損失更低,并且具有更陡峭的擴(kuò)展定律。

圖片

持續(xù)學(xué)習(xí),不會發(fā)生災(zāi)難性遺忘

我們都知道,災(zāi)難性遺忘是機(jī)器學(xué)習(xí)中,一個嚴(yán)重的問題。

人工神經(jīng)網(wǎng)絡(luò)和大腦之間的區(qū)別在于,大腦具有放置在空間局部功能的不同模塊。當(dāng)學(xué)習(xí)新任務(wù)時,結(jié)構(gòu)重組僅發(fā)生在負(fù)責(zé)相關(guān)技能的局部區(qū)域,而其他區(qū)域保持不變。

然而,大多數(shù)人工神經(jīng)網(wǎng)絡(luò),包括MLP,卻沒有這種局部性概念,這可能是災(zāi)難性遺忘的原因。

而研究證明了,KAN具有局部可塑性,并且可以利用樣條(splines)局部性,來避免災(zāi)難性遺忘。

這個想法非常簡單,由于樣條是局部的,樣本只會影響一些附近的樣條系數(shù),而遠(yuǎn)處的系數(shù)保持不變。

相比之下,由于MLP通常使用全局激活(如ReLU/Tanh/SiLU),因此,任何局部變化都可能不受控制地傳播到遠(yuǎn)處的區(qū)域,從而破壞存儲在那里的信息。

研究人員采用了一維回歸任務(wù)(由5個高斯峰組成)。每個峰值周圍的數(shù)據(jù)按順序(而不是一次全部)呈現(xiàn)給KAN和MLP。

結(jié)果如下圖所示,KAN僅重構(gòu)當(dāng)前階段存在數(shù)據(jù)的區(qū)域,而使之前的區(qū)域保持不變。

而MLP在看到新的數(shù)據(jù)樣本后會重塑整個區(qū)域,從而導(dǎo)致災(zāi)難性的遺忘。

發(fā)現(xiàn)紐結(jié)理論,結(jié)果超越DeepMind

KAN的誕生對于機(jī)器學(xué)習(xí)未來應(yīng)用,意味著什么?

紐結(jié)理論(Knot theory)是低維拓?fù)鋵W(xué)中的一門學(xué)科,它揭示了三流形和四流形的拓?fù)鋵W(xué)問題,并在生物學(xué)和拓?fù)淞孔佑?jì)算等領(lǐng)域有著廣泛的應(yīng)用。

2021年,DeepMind團(tuán)隊(duì)曾首次用AI證明了紐結(jié)理論(knot theory)登上了Nature。

圖片

論文地址:https://www.nature.com/articles/s41586-021-04086-x

這項(xiàng)研究中,通過監(jiān)督學(xué)習(xí)和人類領(lǐng)域?qū)<遥贸隽艘粋€與代數(shù)和幾何結(jié)不變量相關(guān)的新定理。

即梯度顯著性識別出了監(jiān)督問題的關(guān)鍵不變量,這使得領(lǐng)域?qū)<姨岢隽艘粋€猜想,該猜想隨后得到了完善和證明。

對此,作者研究KAN是否可以在同一問題上取得良好的可解釋結(jié)果,從而預(yù)測紐結(jié)的簽名。

在DeepMind實(shí)驗(yàn)中,他們研究紐結(jié)理論數(shù)據(jù)集的主要結(jié)果是:

1  利用網(wǎng)絡(luò)歸因法發(fā)現(xiàn),簽名圖片主要取決于中間距離圖片和縱向距離λ。

2 人類領(lǐng)域?qū)<液髞戆l(fā)現(xiàn)圖片與斜率有很高的相關(guān)性圖片并得出圖片

為了研究問題(1),作者將17個紐結(jié)不變量視為輸入,將簽名視為輸出。

與DeepMind中的設(shè)置類似,簽名(偶數(shù))被編碼為一熱向量,并且網(wǎng)絡(luò)通過交叉熵?fù)p失進(jìn)行訓(xùn)練。

結(jié)果發(fā)現(xiàn),一個極小的KAN能夠達(dá)到81.6%的測試精度,而DeepMind的4層寬度300MLP,僅達(dá)到78%的測試精度。

如下表所示,KAN (G = 3, k = 3) 有約200參數(shù),而MLP約有300000參數(shù)量。

圖片

值得注意的是,KAN不僅更準(zhǔn)確,而且更準(zhǔn)確。同時比MLP的參數(shù)效率更高。

在可解釋性方面,研究人員根據(jù)每個激活的大小來縮放其透明度,因此無需特征歸因即可立即清楚,哪些輸入變量是重要的。

然后,在三個重要變量上訓(xùn)練KAN,獲得78.2%的測試準(zhǔn)確率。

圖片

如下是,通過KAN,作者重新發(fā)現(xiàn)了紐結(jié)數(shù)據(jù)集中的三個數(shù)學(xué)關(guān)系。

圖片

物理Anderson局域化有解了

而在物理應(yīng)用中,KAN也發(fā)揮了巨大的價值。

Anderson是一種基本現(xiàn)象,其中量子系統(tǒng)中的無序會導(dǎo)致電子波函數(shù)的局域化,從而使所有傳輸停止。

在一維和二維中,尺度論證表明,對于任何微小的隨機(jī)無序,所有的電子本征態(tài)都呈指數(shù)級局域化。

相比之下,在三維中,一個臨界能量形成了一個相分界,將擴(kuò)展態(tài)和局域態(tài)分開,這被稱為移動性邊緣。

理解這些移動性邊緣對于解釋固體中的金屬-絕緣體轉(zhuǎn)變等各種基本現(xiàn)象至關(guān)重要,以及在光子設(shè)備中光的局域化效應(yīng)。

作者通過研究發(fā)現(xiàn),KANs使得提取移動性邊緣變得非常容易,無論是數(shù)值上的,還是符號上的。

圖片

圖片

顯然,KAN已然成為科學(xué)家的得力助手、重要的合作者。

總而言之,得益于準(zhǔn)確性、參數(shù)效率和可解釋性的優(yōu)勢,KAN將是AI+Science一個有用的模型/工具。

未來,KAN的進(jìn)一步在科學(xué)領(lǐng)域中的應(yīng)用,還待挖掘。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-05-07 13:07:18

模型訓(xùn)練

2024-05-20 08:35:00

模型定理

2024-08-21 13:24:21

2024-06-17 08:05:00

2024-09-18 08:05:00

機(jī)器學(xué)習(xí)AI網(wǎng)絡(luò)

2019-01-21 10:12:58

拼多多漏洞黑灰產(chǎn)

2018-05-31 21:07:14

工業(yè)4.0工業(yè)物聯(lián)網(wǎng)IIoT

2012-03-07 09:10:49

Windows 8微軟

2020-12-08 17:15:27

數(shù)據(jù)中心云計(jì)算IT

2012-03-07 14:36:09

2024-04-01 00:35:00

AI數(shù)據(jù)

2021-07-02 17:24:41

科學(xué)黑洞技術(shù)

2012-10-19 09:31:22

2021-08-17 15:05:40

邊緣計(jì)算物聯(lián)網(wǎng)IOT

2012-02-09 10:00:27

蘋果App Store反剽竊

2024-01-19 21:07:22

C++20Concepts函數(shù)

2025-05-19 00:00:06

AI域名工具

2015-07-14 11:39:08

Docker容器DevOps虛擬機(jī)

2018-05-23 11:43:59

數(shù)據(jù)庫

2020-04-01 23:19:56

聯(lián)網(wǎng)汽車物聯(lián)網(wǎng)IOT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 美女在线视频一区二区三区 | 国产午夜精品理论片a大结局 | www..com18午夜观看| 黄色毛片在线观看 | 亚洲日本视频 | 国产免费让你躁在线视频 | 在线日韩视频 | 欧美一级片中文字幕 | 久久亚洲一区二区三区四区 | 免费看的黄网站 | 国产欧美综合在线 | 午夜av成人 | 欧美一级电影免费观看 | 久久精品这里精品 | 精品国产精品一区二区夜夜嗨 | 福利网址| 日本a视频| av天天干 | 成人在线视 | 亚洲精品在线观看视频 | 欧美精品区 | 亚洲36d大奶网 | 一a一片一级一片啪啪 | 91精品免费 | 久久人操| 在线播放亚洲 | 久久大陆 | 午夜网| 极品电影院 | 最新午夜综合福利视频 | 久久久综合精品 | 日韩精品一区在线观看 | 一区二区三区在线免费 | 精品国产一区久久 | 久久精品亚洲精品 | 亚洲精品视频网站在线观看 | 国产成人在线视频播放 | 二区在线视频 | 久久国产一区二区三区 | h视频在线免费看 | 欧美日韩一区二区三区四区五区 |