成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

經典ReLU回歸!重大缺陷「死亡ReLU問題」已被解決

人工智能 新聞
不用換模型、不用堆參數,靠 SUGAR 模型性能大增!

在深度學習領域中,對激活函數的探討已成為一個獨立的研究方向。例如 GELU、SELU 和 SiLU 等函數憑借其平滑梯度與卓越的收斂特性,已成為熱門選擇。

盡管這一趨勢盛行,經典 ReLU 函數仍因其簡潔性、固有稀疏性及其他優勢拓撲特性而廣受青睞。

然而 ReLU 單元易陷入所謂的「死亡 ReLU 問題」, 一旦某個神經元在訓練中輸出恒為 0,其梯度也為 0,無法再恢復。 這一現象最終制約了其整體效能,也是 ReLU 網絡的重大缺陷。

正是死亡 ReLU 問題催生了大量改進的線性單元函數,包括但不限于:LeakyReLU、PReLU、GELU、SELU、SiLU/Swish 以及 ELU。這些函數通過為負預激活值引入非零激活,提供了不同的權衡。

本文,來自德國呂貝克大學等機構的研究者引入了一種新穎的方法:SUGAR(Surrogate Gradient for ReLU),在不犧牲 ReLU 優勢的情況下解決了 ReLU 的局限性。即前向傳播仍使用標準 ReLU(保持其稀疏性和簡單性),反向傳播時替換 ReLU 的導數為一個非零、連續的替代梯度函數(surrogate gradient)。

這樣可以讓 ReLU 在保持原始前向行為的同時,避免梯度為零的問題,從而復活死神經元。 

基于此,本文還設計了兩種新型替代梯度函數:B-SiLU(Bounded SiLU)、 NeLU(Negative slope Linear Unit),可以無縫集成到各種模型中。

本研究的進一步貢獻如下:

  • 本文對 VGG-16 和 ResNet-18 進行了全面的實驗,表明 SUGAR 顯著增強了這兩種架構的泛化能力。
  • 本文在 Swin Transformer 和 Conv2NeXt 等現代架構上對 SUGAR 進行了評估,展示了其適應性和有效性。
  • 對 VGG-16 層激活的深入分析表明,當應用 SUGAR 時,激活分布發生了明顯的變化,為其在緩解消亡 ReLU 問題中的作用提供了直觀證據,同時促進了更稀疏的表示。

SUGAR 方法易于實現,并在前向傳播中始終采用 ReLU 激活函數。與所提出的 B-SiLU 替代函數結合使用時,VGG-16 在 CIFAR-10 和 CIFAR-100 數據集上的測試準確率分別提升了 10 個百分點和 16 個百分點,而 ResNet-18 與未使用 SUGAR 的最佳模型相比,分別提升了 9 個百分點和 7 個百分點。

image.png

  • 論文標題: The Resurrection of the ReLU 
  • 論文鏈接:https://arxiv.org/pdf/2505.22074

SUGAR 介紹

本文提出的方法將 FGI ( Forward gradient injection )應用于具有平滑替代函數的 ReLU 網絡中。在 SUGAR 框架下, FGI 可以表示為:

image.png

該公式實現了梯度注入,并確保即使對于負激活也能進行梯度傳播。具體來說,利用 [34] 中的乘法技巧,替代梯度函數的直接注入如下:

image.png

替代函數的選擇具有靈活性,可兼容當前最先進的各類激活函數,例如 ELU、GELU、SiLU、SELU 以及 Leaky ReLU(見圖 8)。

image.png

關鍵區別在于,與 ReLU 不同,這些候選替代函數均具有一個共同特征:對負輸入(x < 0)能產生非零梯度。雖然這些函數為負激活提供了梯度流通路徑,但前向傳播及后續損失計算仍嚴格依賴 x > 0 時的激活輸出。

在初步研究中,本文意識到需要調整當前的激活函數以適應 SUGAR 的特定用途。因此,接下來本文提出了兩個與這些設置良好匹配的新替代函數。

 B-SiLU:引入了一種名為 B-SiLU(Bounded Sigmoid Linear Unit) 的新型激活函數,它結合了自門控特性和可調下限參數。從數學上講,該函數可以表示為:

image.png

B-SiLU 激活函數的導數為:

image.png

圖 8 中可視化了 B-SiLU 及其導數。

NeLU:本文進一步引入了 NeLU(Negative slope Linear Unit),作為 ReLU 的平滑導數替代品。

image.png

最終的梯度如圖 1 所示。

image.png

實驗

總體而言,與 ReLU 基線相比,SUGAR 結合 ELU、SELU 以及特別是 B-SiLU 獲得了最大的提升,而 LeakyReLU 和 NeLU 則始終表現不佳(見圖 2)。在 CIFAR-10 數據集上使用 ResNet-18 作為骨干網絡時,B-SiLU 的性能從 76.76% 提升到 86.42%,得益于 SUGAR。VGG-16 也表現出類似的效果:B-SiLU 將測試精度提高了近 10 個百分點(從 78.50% 提升到 88.35%)。

image.png

在 CIFAR-100 數據集上,SUGAR 結合 B-SiLU 的優勢更加明顯:ResNet-18 的準確率從 48.99% 躍升至 56.51%,VGG-16 的準確率從 48.73% 提升至 64.47%(見圖 3)。同樣,Leaky ReLU 和 NeLU 僅顯示出微小的甚至是負的提升(例如 ResNet-18 上的 43.67% → 43.41%)。

總的來說,B-SiLU 在不同架構和數據集上均優于其他替代激活函數,ELU 和 SELU 能夠提供可靠的改進,而在這種設置下,SUGAR 從 Leaky ReLU 和 NeLU 中并未獲得有意義的益處。

image.png

當應用于 Conv2NeXt 時,如表 1 所示,SUGAR 在前向和反向傳播過程中均始終優于使用 GELU 的基礎模型。

image.png

了解更多內容,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-07-03 10:39:46

算法研究

2020-12-09 06:19:39

ReLU神經網絡深度學習

2023-09-20 08:52:57

Google模型

2024-05-08 16:44:40

TCPRST網絡協議

2017-10-11 23:07:00

神經網絡激活函數可視化

2017-08-24 13:44:28

牛頓法Logistic回歸Python

2019-08-29 10:10:52

神經網絡激活函數人工智能

2024-05-15 07:26:50

RedisBigKey優化

2016-12-07 09:38:53

SparkMapReduce

2023-12-27 14:17:11

深度學習人工智能激活函數

2012-06-01 10:10:36

2009-12-22 15:57:51

2009-10-26 14:36:33

VB.NET數據自增

2010-05-18 18:47:31

2021-12-06 14:05:57

區塊鏈算法技術

2021-03-05 16:19:43

人工智能機器學習技術

2024-01-02 12:50:12

數據模型

2024-08-15 14:15:00

數據安全

2024-08-05 14:40:00

2023-10-22 14:21:21

模型LLM數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 无毛av| 国产福利视频 | 丝袜久久| 色婷婷久久 | 在线视频一区二区三区 | 亚洲精品乱码久久久久久9色 | 韩国理论电影在线 | 久久久高清| 亚洲精品一区二区三区中文字幕 | 99视频入口 | 一区二区手机在线 | 精品福利在线 | 国产一区二区三区四区在线观看 | 日韩中文字幕网 | 少妇av片 | 亚洲久视频 | 亚洲精品电影在线观看 | 久久91精品久久久久久9鸭 | 青青草一区二区 | 精品国产18久久久久久二百 | 91精品中文字幕一区二区三区 | 妞干网福利视频 | 国产成人精品亚洲日本在线观看 | 色综合久久天天综合网 | 99久久久久国产精品免费 | 欧美日韩不卡在线 | 欧美视频 | 亚洲成人天堂 | 欧美日韩大陆 | 蜜桃在线播放 | 日本精品视频 | 在线观看免费av网 | 久久这里只有精品首页 | 色综合美女 | 久久国产综合 | 国产亚洲精品久久情网 | 97国产精品视频 | 欧美成人一区二区 | 日本不卡一区二区三区在线观看 | 日本久久网 | 蜜桃黄网 |