成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<ol id="lqucx"><pre id="lqucx"></pre></ol>

<blockquote id="lqucx"></blockquote>

<abbr id="lqucx"></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

MLP一夜被干掉！MIT加州理工等革命性KAN破記錄，發(fā)現(xiàn)數(shù)學(xué)定理碾壓DeepMind

作者：新智元 2024-05-06 08:18:00

人工智能新聞

無需懷念MLP，新網(wǎng)絡(luò)KAN基于柯爾莫哥洛夫-阿諾德定理，帶著更少的參數(shù)、更強(qiáng)的性能、更好的可解釋性來了，深度學(xué)習(xí)架構(gòu)革新進(jìn)入新時代！

一夜之間，機(jī)器學(xué)習(xí)范式要變天了！

當(dāng)今，統(tǒng)治深度學(xué)習(xí)領(lǐng)域的基礎(chǔ)架構(gòu)便是，多層感知器（MLP）——將激活函數(shù)放置在神經(jīng)元上。

那么，除此之外，我們是否還有新的路線可走？

就在今天，來自MIT、加州理工、東北大學(xué)等機(jī)構(gòu)的團(tuán)隊(duì)重磅發(fā)布了，全新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——Kolmogorov–Arnold Networks（KAN）。

研究人員對MLP做了一個簡單的改變，即將可學(xué)習(xí)的激活函數(shù)從節(jié)點(diǎn)（神經(jīng)元）移到邊（權(quán)重）上！

論文地址：https://arxiv.org/pdf/2404.19756

這個改變乍一聽似乎毫無根據(jù)，但它與數(shù)學(xué)中的「逼近理論」（approximation theories）有著相當(dāng)深刻的聯(lián)系。

事實(shí)證明，Kolmogorov-Arnold表示對應(yīng)兩層網(wǎng)絡(luò)，在邊上，而非節(jié)點(diǎn)上，有可學(xué)習(xí)的激活函數(shù)。

正是從表示定理得到啟發(fā)，研究人員用神經(jīng)網(wǎng)絡(luò)顯式地，將Kolmogorov-Arnold表示參數(shù)化。

值得一提的是，KAN名字的由來，是為了紀(jì)念兩位偉大的已故數(shù)學(xué)家Andrey Kolmogorov和Vladimir Arnold。

實(shí)驗(yàn)結(jié)果顯示，KAN比傳統(tǒng)的MLP有更加優(yōu)越的性能，提升了神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性和可解釋性。

而最令人意想不到的是，KAN的可視化和交互性，讓其在科學(xué)研究中具有潛在的應(yīng)用價值，能夠幫助科學(xué)家發(fā)現(xiàn)新的數(shù)學(xué)和物理規(guī)律。

研究中，作者用KAN重新發(fā)現(xiàn)了紐結(jié)理論（knot theory）中的數(shù)學(xué)定律！

而且，KAN以更小的網(wǎng)絡(luò)和自動化方式，復(fù)現(xiàn)了DeepMind在2021年的結(jié)果。

在物理方面，KAN可以幫助物理學(xué)家研究Anderson局域化（這是凝聚態(tài)物理中的一種相變）。

對了，順便提一句，研究中KAN的所有示例（除了參數(shù)掃描），在單個CPU上不到10分鐘就可以復(fù)現(xiàn)。

KAN的橫空出世，直接挑戰(zhàn)了一直以來統(tǒng)治機(jī)器學(xué)習(xí)領(lǐng)域的MLP架構(gòu)，在全網(wǎng)掀起軒然大波。

機(jī)器學(xué)習(xí)新紀(jì)元開啟

有人直呼，機(jī)器學(xué)習(xí)的新紀(jì)元開始了！

谷歌DeepMind研究科學(xué)家稱，「Kolmogorov-Arnold再次出擊！一個鮮為人知的事實(shí)是：這個定理出現(xiàn)在一篇關(guān)于置換不變神經(jīng)網(wǎng)絡(luò)（深度集）的開創(chuàng)性論文中，展示了這種表示與集合/GNN聚合器構(gòu)建方式（作為特例）之間的復(fù)雜聯(lián)系」。

一個全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)誕生了！KAN將極大地改變?nèi)斯ぶ悄艿挠?xùn)練和微調(diào)方式。

難道是AI進(jìn)入了2.0時代？

還有網(wǎng)友用通俗的語言，將KAN和MLP的區(qū)別，做了一個形象的比喻：

Kolmogorov-Arnold網(wǎng)絡(luò)（KAN）就像一個可以烤任何蛋糕的三層蛋糕配方，而多層感知器（MLP）是一個有不同層數(shù)的定制蛋糕。MLP更復(fù)雜但更通用，而KAN是靜態(tài)的，但針對一項(xiàng)任務(wù)更簡單、更快速。

論文作者，MIT教授Max Tegmark表示，最新論文表明，一種與標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)完全不同的架構(gòu)，在處理有趣的物理和數(shù)學(xué)問題時，以更少的參數(shù)實(shí)現(xiàn)了更高的精度。

接下來，一起來看看代表深度學(xué)習(xí)未來的KAN，是如何實(shí)現(xiàn)的？

重回牌桌上的KAN

KAN的理論基礎(chǔ)

柯爾莫哥洛夫-阿諾德定理（Kolmogorov–Arnold representation theorem）指出，如果f是一個定義在有界域上的多變量連續(xù)函數(shù)，那么該函數(shù)就可以表示為多個單變量、加法連續(xù)函數(shù)的有限組合。

對于機(jī)器學(xué)習(xí)來說，該問題可以描述為：學(xué)習(xí)高維函數(shù)的過程可以簡化成學(xué)習(xí)多項(xiàng)式數(shù)量的一維函數(shù)。

但這些一維函數(shù)可能是非光滑的，甚至是分形的（fractal），在實(shí)踐中可能無法學(xué)習(xí)，也正是由于這種「病態(tài)行為」，柯爾莫哥洛夫-阿諾德表示定理在機(jī)器學(xué)習(xí)領(lǐng)域基本上被判了「死刑」，即理論正確，但實(shí)際無用。

在這篇文章中，研究人員仍然對該定理在機(jī)器學(xué)習(xí)領(lǐng)域的應(yīng)用持樂觀態(tài)度，并提出了兩點(diǎn)改進(jìn)：

1、原始方程中，只有兩層非線性和一個隱藏層（2n+1），可以將網(wǎng)絡(luò)泛化到任意寬度和深度；

2、科學(xué)和日常生活中的大多數(shù)函數(shù)大多是光滑的，并且具有稀疏的組合結(jié)構(gòu)，可能有助于形成平滑的柯爾莫哥洛夫-阿諾德表示。類似于物理學(xué)家和數(shù)學(xué)家的區(qū)別，物理學(xué)家更關(guān)注典型場景，而數(shù)學(xué)家更關(guān)心最壞情況。

KAN架構(gòu)

柯爾莫哥洛夫-阿諾德網(wǎng)絡(luò)（KAN）設(shè)計(jì)的核心思想是將多變量函數(shù)的逼近問題轉(zhuǎn)化為學(xué)習(xí)一組單變量函數(shù)的問題。在這個框架下，每個單變量函數(shù)可以用B樣條曲線來參數(shù)化，其中B樣條是一種局部的、分段的多項(xiàng)式曲線，其系數(shù)是可學(xué)習(xí)的。

為了把原始定理中的兩層網(wǎng)絡(luò)擴(kuò)展到更深、更寬，研究人員提出了一個更「泛化」的定理版本來支持設(shè)計(jì)KAN：

受MLPs層疊結(jié)構(gòu)來提升網(wǎng)絡(luò)深度的啟發(fā)，文中同樣引入了一個類似的概念，KAN層，由一個一維函數(shù)矩陣組成，每個函數(shù)都有可訓(xùn)練的參數(shù)。

根據(jù)柯爾莫哥洛夫-阿諾德定理，原始的KAN層由內(nèi)部函數(shù)和外部函數(shù)組成，分別對應(yīng)于不同的輸入和輸出維度，這種堆疊KAN層的設(shè)計(jì)方法不僅擴(kuò)展了KANs的深度，而且保持了網(wǎng)絡(luò)的可解釋性和表達(dá)能力，其中每個層都是由單變量函數(shù)組成的，可以對函數(shù)進(jìn)行單獨(dú)學(xué)習(xí)和理解。

下式中的f就等價于KAN

實(shí)現(xiàn)細(xì)節(jié)

雖然KAN的設(shè)計(jì)理念看起來簡單，純靠堆疊，但優(yōu)化起來也并不容易，研究人員在訓(xùn)練過程中也摸索到了一些技巧。

1、殘差激活函數(shù)：通過引入基函數(shù)b(x)和樣條函數(shù)的組合，使用殘差連接的概念來構(gòu)建激活函數(shù)?(x)，有助于訓(xùn)練過程的穩(wěn)定性。

2、初始化尺度（scales）：激活函數(shù)的初始化設(shè)置為接近零的樣條函數(shù)，權(quán)重w使用Xavier初始化方法，有助于在訓(xùn)練初期保持梯度的穩(wěn)定。

3、更新樣條網(wǎng)格：由于樣條函數(shù)定義在有界區(qū)間內(nèi)，而神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中激活值可能會超出這個區(qū)間，因此動態(tài)更新樣條網(wǎng)格可以確保樣條函數(shù)始終在合適的區(qū)間內(nèi)運(yùn)行。

參數(shù)量

1、網(wǎng)絡(luò)深度：L

2、每層的寬度：N

3、每個樣條函數(shù)是基于G個區(qū)間（G+1個網(wǎng)格點(diǎn)）定義的，k階（通常k=3）

所以KANs的參數(shù)量約為

作為對比，MLP的參數(shù)量為O(L*N^2)，看起來比KAN效率更高，但KANs可以使用更小的層寬度（N），不僅可以提升泛化性能，還能提升可解釋性。

KAN比MLP，勝在了哪？

性能更強(qiáng)

作為合理性檢驗(yàn)，研究人員構(gòu)造了五個已知具有平滑KA（柯爾莫哥洛夫-阿諾德）表示的例子作為驗(yàn)證數(shù)據(jù)集，通過每200步增加網(wǎng)格點(diǎn)的方式對KANs進(jìn)行訓(xùn)練，覆蓋G的范圍為{3,5,10,20,50,100,200,500,1000}

使用不同深度和寬度的MLPs作為基線模型，并且KANs和MLPs都使用LBFGS算法總共訓(xùn)練1800步，再用RMSE作為指標(biāo)進(jìn)行對比。

從結(jié)果中可以看到，KAN的曲線更抖，能夠快速收斂，達(dá)到平穩(wěn)狀態(tài)；并且比MLP的縮放曲線更好，尤其是在高維的情況下。

還可以看到，三層KAN的性能要遠(yuǎn)遠(yuǎn)強(qiáng)于兩層，表明更深的KANs具有更強(qiáng)的表達(dá)能力，符合預(yù)期。

交互解釋KAN

研究人員設(shè)計(jì)了一個簡單的回歸實(shí)驗(yàn)，以展現(xiàn)用戶可以在與KAN的交互過程中，獲得可解釋性最強(qiáng)的結(jié)果。

假設(shè)用戶對于找出符號公式感興趣，總共需要經(jīng)過5個交互步驟。

步驟 1：帶有稀疏化的訓(xùn)練。

從全連接的KAN開始，通過帶有稀疏化正則化的訓(xùn)練可以使網(wǎng)絡(luò)變得更稀疏，從而可以發(fā)現(xiàn)隱藏層中，5個神經(jīng)元中的4個都看起來沒什么作用。

步驟 2：剪枝

自動剪枝后，丟棄掉所有無用的隱藏神經(jīng)元，只留下一個KAN，把激活函數(shù)匹配到已知的符號函數(shù)上。

步驟 3：設(shè)置符號函數(shù)

假設(shè)用戶可以正確地從盯著KAN圖表猜測出這些符號公式，就可以直接設(shè)置

如果用戶沒有領(lǐng)域知識或不知道這些激活函數(shù)可能是哪些符號函數(shù)，研究人員提供了一個函數(shù)suggest_symbolic來建議符號候選項(xiàng)。

步驟 4：進(jìn)一步訓(xùn)練

在網(wǎng)絡(luò)中所有的激活函數(shù)都符號化之后，唯一剩下的參數(shù)就是仿射參數(shù)；繼續(xù)訓(xùn)練仿射參數(shù)，當(dāng)看到損失降到機(jī)器精度（machine precision）時，就能意識到模型已經(jīng)找到了正確的符號表達(dá)式。

步驟 5：輸出符號公式

使用Sympy計(jì)算輸出節(jié)點(diǎn)的符號公式，驗(yàn)證正確答案。

可解釋性驗(yàn)證

研究人員首先在一個有監(jiān)督的玩具數(shù)據(jù)集中，設(shè)計(jì)了六個樣本，展現(xiàn)KAN網(wǎng)絡(luò)在符號公式下的組合結(jié)構(gòu)能力。

可以看到，KAN成功學(xué)習(xí)到了正確的單變量函數(shù)，并通過可視化的方式，可解釋地展現(xiàn)出KAN的思考過程。

在無監(jiān)督的設(shè)置下，數(shù)據(jù)集中只包含輸入特征x，通過設(shè)計(jì)某些變量（x1, x2, x3）之間的聯(lián)系，可以測試出KAN模型尋找變量之間依賴關(guān)系的能力。

從結(jié)果來看，KAN模型成功找到了變量之間的函數(shù)依賴性，但作者也指出，目前仍然只是在合成數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)，還需要一種更系統(tǒng)、更可控的方法來發(fā)現(xiàn)完整的關(guān)系。

帕累托最優(yōu)

通過擬合特殊函數(shù)，作者展示了KAN和MLP在由模型參數(shù)數(shù)量和RMSE損失跨越的平面中的帕累托前沿（Pareto Frontier）。

在所有特殊函數(shù)中，KAN始終比MLP具有更好的帕累托前沿。

求解偏微方程

在求解偏微方程任務(wù)中，研究人員繪制了預(yù)測解和真實(shí)解之間的L2平方和H1平方損失。

下圖中，前兩個是損失的訓(xùn)練動態(tài)，第三和第四是損失函數(shù)數(shù)量的擴(kuò)展定律（Sacling Law）。

如下結(jié)果所示，與MLP相比，KAN的收斂速度更快，損失更低，并且具有更陡峭的擴(kuò)展定律。

持續(xù)學(xué)習(xí)，不會發(fā)生災(zāi)難性遺忘

我們都知道，災(zāi)難性遺忘是機(jī)器學(xué)習(xí)中，一個嚴(yán)重的問題。

人工神經(jīng)網(wǎng)絡(luò)和大腦之間的區(qū)別在于，大腦具有放置在空間局部功能的不同模塊。當(dāng)學(xué)習(xí)新任務(wù)時，結(jié)構(gòu)重組僅發(fā)生在負(fù)責(zé)相關(guān)技能的局部區(qū)域，而其他區(qū)域保持不變。

然而，大多數(shù)人工神經(jīng)網(wǎng)絡(luò)，包括MLP，卻沒有這種局部性概念，這可能是災(zāi)難性遺忘的原因。

而研究證明了，KAN具有局部可塑性，并且可以利用樣條（splines）局部性，來避免災(zāi)難性遺忘。

這個想法非常簡單，由于樣條是局部的，樣本只會影響一些附近的樣條系數(shù)，而遠(yuǎn)處的系數(shù)保持不變。

相比之下，由于MLP通常使用全局激活（如ReLU/Tanh/SiLU），因此，任何局部變化都可能不受控制地傳播到遠(yuǎn)處的區(qū)域，從而破壞存儲在那里的信息。

研究人員采用了一維回歸任務(wù)（由5個高斯峰組成）。每個峰值周圍的數(shù)據(jù)按順序（而不是一次全部）呈現(xiàn)給KAN和MLP。

結(jié)果如下圖所示，KAN僅重構(gòu)當(dāng)前階段存在數(shù)據(jù)的區(qū)域，而使之前的區(qū)域保持不變。

而MLP在看到新的數(shù)據(jù)樣本后會重塑整個區(qū)域，從而導(dǎo)致災(zāi)難性的遺忘。

發(fā)現(xiàn)紐結(jié)理論，結(jié)果超越DeepMind

KAN的誕生對于機(jī)器學(xué)習(xí)未來應(yīng)用，意味著什么？

紐結(jié)理論（Knot theory）是低維拓?fù)鋵W(xué)中的一門學(xué)科，它揭示了三流形和四流形的拓?fù)鋵W(xué)問題，并在生物學(xué)和拓?fù)淞孔佑?jì)算等領(lǐng)域有著廣泛的應(yīng)用。

2021年，DeepMind團(tuán)隊(duì)曾首次用AI證明了紐結(jié)理論（knot theory）登上了Nature。

論文地址：https://www.nature.com/articles/s41586-021-04086-x

這項(xiàng)研究中，通過監(jiān)督學(xué)習(xí)和人類領(lǐng)域?qū)＜遥贸隽艘粋€與代數(shù)和幾何結(jié)不變量相關(guān)的新定理。

即梯度顯著性識別出了監(jiān)督問題的關(guān)鍵不變量，這使得領(lǐng)域?qū)＜姨岢隽艘粋€猜想，該猜想隨后得到了完善和證明。

對此，作者研究KAN是否可以在同一問題上取得良好的可解釋結(jié)果，從而預(yù)測紐結(jié)的簽名。

在DeepMind實(shí)驗(yàn)中，他們研究紐結(jié)理論數(shù)據(jù)集的主要結(jié)果是：

1 利用網(wǎng)絡(luò)歸因法發(fā)現(xiàn)，簽名主要取決于中間距離和縱向距離λ。

2 人類領(lǐng)域?qū)＜液髞戆l(fā)現(xiàn)與斜率有很高的相關(guān)性并得出

為了研究問題（1），作者將17個紐結(jié)不變量視為輸入，將簽名視為輸出。

與DeepMind中的設(shè)置類似，簽名（偶數(shù)）被編碼為一熱向量，并且網(wǎng)絡(luò)通過交叉熵?fù)p失進(jìn)行訓(xùn)練。

結(jié)果發(fā)現(xiàn)，一個極小的KAN能夠達(dá)到81.6%的測試精度，而DeepMind的4層寬度300MLP，僅達(dá)到78%的測試精度。

如下表所示，KAN (G = 3, k = 3) 有約200參數(shù)，而MLP約有300000參數(shù)量。

值得注意的是，KAN不僅更準(zhǔn)確，而且更準(zhǔn)確。同時比MLP的參數(shù)效率更高。

在可解釋性方面，研究人員根據(jù)每個激活的大小來縮放其透明度，因此無需特征歸因即可立即清楚，哪些輸入變量是重要的。

然后，在三個重要變量上訓(xùn)練KAN，獲得78.2%的測試準(zhǔn)確率。

如下是，通過KAN，作者重新發(fā)現(xiàn)了紐結(jié)數(shù)據(jù)集中的三個數(shù)學(xué)關(guān)系。

物理Anderson局域化有解了

而在物理應(yīng)用中，KAN也發(fā)揮了巨大的價值。

Anderson是一種基本現(xiàn)象，其中量子系統(tǒng)中的無序會導(dǎo)致電子波函數(shù)的局域化，從而使所有傳輸停止。

在一維和二維中，尺度論證表明，對于任何微小的隨機(jī)無序，所有的電子本征態(tài)都呈指數(shù)級局域化。

相比之下，在三維中，一個臨界能量形成了一個相分界，將擴(kuò)展態(tài)和局域態(tài)分開，這被稱為移動性邊緣。

理解這些移動性邊緣對于解釋固體中的金屬-絕緣體轉(zhuǎn)變等各種基本現(xiàn)象至關(guān)重要，以及在光子設(shè)備中光的局域化效應(yīng)。

作者通過研究發(fā)現(xiàn)，KANs使得提取移動性邊緣變得非常容易，無論是數(shù)值上的，還是符號上的。

顯然，KAN已然成為科學(xué)家的得力助手、重要的合作者。

總而言之，得益于準(zhǔn)確性、參數(shù)效率和可解釋性的優(yōu)勢，KAN將是AI+Science一個有用的模型/工具。

未來，KAN的進(jìn)一步在科學(xué)領(lǐng)域中的應(yīng)用，還待挖掘。

責(zé)任編輯：張燕妮來源：新智元

AI 數(shù)學(xué)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：美女在线视频一区二区三区 | 国产午夜精品理论片a大结局 | www..com18午夜观看| 黄色毛片在线观看 | 亚洲日本视频 | 国产免费让你躁在线视频 | 在线日韩视频 | 欧美一级片中文字幕 | 久久亚洲一区二区三区四区 | 免费看的黄网站 | 国产欧美综合在线 | 午夜av成人 | 欧美一级电影免费观看 | 久久精品这里精品 | 精品国产精品一区二区夜夜嗨 | 福利网址| 日本a视频| av天天干 | 成人在线视 | 亚洲精品在线观看视频 | 欧美精品区 | 亚洲36d大奶网 | 一a一片一级一片啪啪 | 91精品免费 | 久久人操| 在线播放亚洲 | 久久大陆 | 午夜网| 极品电影院 | 最新午夜综合福利视频 | 久久久综合精品 | 日韩精品一区在线观看 | 一区二区三区在线免费 | 精品国产一区久久 | 久久精品亚洲精品 | 亚洲精品视频网站在线观看 | 国产成人在线视频播放 | 二区在线视频 | 久久国产一区二区三区 | h视频在线免费看 | 欧美日韩一区二区三区四区五区 |

<span id="patqw"></span>

<label id="patqw"></label>

<blockquote id="patqw"></blockquote>

<strike id="patqw"></strike>