成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Adam又要“退休”了?耶魯大學團隊提出AdaBelief

新聞 人工智能
近日NeurIPS 2020收錄論文提出的一個優化器,在深度學習社區成為焦點,引起廣泛討論。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

要挑戰Adam地位的優化器又多了一個。

近日NeurIPS 2020收錄論文提出的一個優化器,在深度學習社區成為焦點,引起廣泛討論。

這就是由耶魯大學團隊提出的AdaBelief。團隊在論文中表示,該優化器兼具Adam的快速收斂特性和SGD的良好泛化性。

Adam又要“退休”了?耶魯大學團隊提出AdaBelief

所謂AdaBelief,是指根據梯度方向上的“信念”(Belief)來調整訓練的步長。它和Adam在算法上的差別并不大。

二者差別在下面的算法實現上可以輕易看出。

Adam又要“退休”了?耶魯大學團隊提出AdaBelief

相比Adam,AdaBelief沒有引入任何其他新參數,只是在最后一步更新時有差異,已在上圖中用藍色標出。

Adam的更新方向是

Adam又要“退休”了?耶魯大學團隊提出AdaBelief

而AdaBelief的更新方向是

Adam又要“退休”了?耶魯大學團隊提出AdaBelief

vt和st的差別在于,后者是

Adam又要“退休”了?耶魯大學團隊提出AdaBelief

的指數移動平均(EMA)。

mt可以看做是gt的預測值,當實際值與預測值相差不大時,分母

Adam又要“退休”了?耶魯大學團隊提出AdaBelief

較小,步長較大,權重放心大膽邁開步子更新。

而實際值與預測值相差很大時,AdaBelief傾向于“不相信”當前梯度,此時分母較大,更新步長較短。

為什么AdaBelief更好

只做在最后一步做了了一個小小的改變,未審核會產生如此之大的影響呢?

這主要是因為AdaBelief考慮了兩點。

1、損失函數的曲率問題

理想的優化器應該考慮損失函數的曲線,而不是簡單地在梯度較大的地方下采取較大的步長。

Adam又要“退休”了?耶魯大學團隊提出AdaBelief

在“大梯度、小曲率”(圖中區域3)情況下|gt-gt-1|和|st|很小,優化器應增加其步長。

2、分母中的梯度符號

Adam又要“退休”了?耶魯大學團隊提出AdaBelief

在上圖損失函數為

Adam又要“退休”了?耶魯大學團隊提出AdaBelief

的情況下,藍色矢量代表梯度,十字叉代表最優解。

Adam優化器在y方向上振蕩,并在x方向上保持前進。這是由于

Adam又要“退休”了?耶魯大學團隊提出AdaBelief

在低方差情況下,Adam中的更新方向接近“符號下降”。

而在AdaBelief中,

Adam又要“退休”了?耶魯大學團隊提出AdaBelief

因此AdaBelief在x方向上走了一大步,在y方向上只會走一小步,防止振蕩產生。

實驗結果

在簡單的幾種3維損失函數曲面上,AdamBelief展現出了優秀的性能。

Adam又要“退休”了?耶魯大學團隊提出AdaBelief
Adam又要“退休”了?耶魯大學團隊提出AdaBelief

圖像分類

在CIFAR-10和CIFAR-100數據集上,用VGG11、ResNet34和DenseNet121三種網絡進行訓練,AdaBelief都顯示出更好的收斂結果。

而且在ImageNet數據上,AdaBelief在Top-1準確率上僅次于SGD。

Adam又要“退休”了?耶魯大學團隊提出AdaBelief

時間序列建模

在Penn TreeBank數據集上,用LSTM進行實驗,AdaBelief都實現了最低的困惑度。

Adam又要“退休”了?耶魯大學團隊提出AdaBelief

GAN

在WGAN和WGAN-GP上的實驗表明,經AdaBelief訓練的結果都得到了最低的FID。

Adam又要“退休”了?耶魯大學團隊提出AdaBelief

網友質疑

雖然AdaBelief在多個任務上取得了不錯的效果,但該方法還是遭到不少網友質疑。

因為這些年來號稱取代Adam的優化器不計其數,但最終獲得時間檢驗的卻寥寥無幾。

網友首先質疑的是實驗baseline的選取問題。

有人認為,在CIFAR上,很難相信2020年SOTA模型的準確率低于96%,因此AdaBelief論文最終在選取baseline時有可能是選擇了與不太好的結果進行比較。

在ImageNet測試的表2里,為什么要使用ResNet18代替更標準的ResNet50?而且AdaBelief不是最優結果,卻用加粗方式標出,容易讓人產生誤解。絕妙的技巧是將提出的方法的得分加粗。

另外,還有人在作者未測試的NLP任務上進行實驗,很快AdaBelief就“崩潰”了,而SGD能夠很好地收斂。

Adam又要“退休”了?耶魯大學團隊提出AdaBelief

AdaBelief不會是最后一個意圖取代Adam的優化器,它的泛化能力究竟如何,還有待更多研究者進一步地檢驗。

項目地址:
https://juntang-zhuang.github.io/adabelief/

論文地址:
https://arxiv.org/abs/2010.07468

代碼地址:
https://github.com/juntang-zhuang/Adabelief-Optimizer

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-02-11 10:01:19

2025-05-23 11:07:54

2012-09-27 09:49:50

華為耶魯大學電信

2025-06-16 08:25:00

2011-04-12 14:34:20

2023-11-13 18:19:54

模型訓練

2023-03-31 13:50:15

計算機NLP

2018-09-07 23:06:18

量子計算機架構開發

2009-04-22 15:12:17

埃里森EllisonOracle

2024-12-23 13:50:00

數據訓練模型

2025-04-24 09:16:00

2019-10-31 15:13:11

Python

2021-04-27 05:57:12

ReadWriteLo容器

2012-06-11 09:23:41

云計算云服務

2020-09-17 09:42:26

TikTok

2025-04-08 09:16:00

推理模型AI

2021-06-29 12:27:19

Spring BootCAS 登錄

2010-02-06 09:36:46

gPadChrome

2010-12-03 11:17:12

2011-12-31 09:11:08

OracleAMD
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 香蕉一区 | 伊人伊人| 午夜视频在线免费观看 | 亚洲日本欧美日韩高观看 | 亚洲人成网亚洲欧洲无码 | 日韩av在线中文字幕 | 久久久www成人免费精品 | 九九精品在线 | 国产精品视频久久久 | 久久精品国产久精国产 | 综合九九 | 黑人久久| 能看的av网站 | 精品一区久久 | 亚洲免费在线观看av | 亚洲欧美日韩精品久久亚洲区 | 亚洲精品久久久一区二区三区 | 午夜丁香视频在线观看 | 午夜影视在线观看 | 黄色香蕉视频在线观看 | 国产美女精品视频 | 久久国产精品亚洲 | 久久久精品网站 | 91在线中文字幕 | 久久亚洲国产 | 一级大片网站 | 亚洲精品一区二区冲田杏梨 | 中文字幕第十页 | 精品一区二区三区在线观看 | 五月免费视频 | 久久99精品国产自在现线小黄鸭 | 神马久久久久久久久久 | 日韩高清www | 91视频进入 | 日韩人体视频 | 久久国产电影 | 雨宫琴音一区二区在线 | 国产欧美精品在线观看 | 欧美日韩视频网站 | 久久一区二区三区四区 | 给我免费的视频在线观看 |