成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經網絡的訓練更加高效

發布于 2024-5-10 09:39
瀏覽
0收藏

本論文作者趙博是加州大學圣地亞哥分校的三年級在讀博士,其導師為 Rose Yu。她的主要研究方向為神經網絡參數空間中的對稱性,及其對優化、泛化和損失函數地貌的影響。她曾獲 DeepMind 獎學金,并且是高通創新獎學金的決賽入圍者。


眾多神經網絡模型中都會有一個有趣的現象:不同的參數值可以得到相同的損失值。這種現象可以通過參數空間對稱性來解釋,即某些參數的變換不會影響損失函數的結果。基于這一發現,傳送算法(teleportation)被設計出來,它利用這些對稱變換來加速尋找最優參數的過程。盡管傳送算法在實踐中表現出了加速優化的潛力,但其背后的確切機制尚不清楚。


近日,來自加州大學圣地亞哥分校、Flatiron Institute、美國東北大學等機構的研究人員發布的《Improving Convergence and Generalization Using Parameter Symmetries》論文中,展示了傳送不僅能在短期內加快優化過程,而且能總體上縮短收斂時間。此外,研究還發現,傳送到具有不同曲率的最小值可以改善模型的泛化能力,這意味著最小值的曲率與泛化能力之間存在聯系。研究者們進一步將傳送技術與多種優化算法以及基于優化的元學習相結合,這些結果充分展示了在優化過程中融入參數空間對稱性的潛力。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經網絡的訓練更加高效-AI.x社區


  • 論文鏈接:https://openreview.net/forum?id=L0r0GphlIL
  • 代碼鏈接:https://github.com/Rose-STL-Lab/Teleportation-Optimization
  • 作者主頁:https://b-zhao.github.io/


背景:對稱性和傳送算法


參數空間對稱性(parameter space symmetry)是群 G 在參數空間(Param)上的一個作用,該作用使得損失函數 L 的值保持不變:


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經網絡的訓練更加高效-AI.x社區


對稱傳送算法(symmetry teleportation)在損失函數水平集中尋找更陡峭的點以加速梯度下降:


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經網絡的訓練更加高效-AI.x社區


傳送后,損失值不會改變。然而,梯度和之后的訓練軌跡會有所不同。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經網絡的訓練更加高效-AI.x社區


傳送對收斂速度的提高


論文第一部分提供了對傳送提高收斂速度的理論證明。


通過傳送,隨機梯度下降(SGD)會收斂到一個包含多個靜止點的盆地,其中通過傳送可達的每個點都是靜止的。圖 1 中的定理提供了損失函數梯度期望值的上限。相比之下,普通 SGD 只能保證存在一個點 wt,使得梯度最終會很小。加入傳送后,對于群作用軌道上所有的點,梯度都將很小。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經網絡的訓練更加高效-AI.x社區

圖 1:該定理提供了損失函數梯度期望值的上限


此外,在進行一次傳送后,梯度下降的方向與牛頓法(Newton’s method)方向相同。因此,收斂速度具有一個二次收縮項,這是二階方法的典型特征。相反,如果在相同的假設下省略傳送步驟,算法的收斂速度將僅呈現線性收斂。圖 2 中的定理展示了傳送導致的線性和二次收斂的混合。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經網絡的訓練更加高效-AI.x社區

圖 2:該定理展示了傳送導致的線性和二次收斂的混合


通過傳送改善泛化能力


在探索機器學習模型優化的過程中,「傳送」這一概念最初被提出是為了加速收斂并提高算法的效率。然而,在該論文的第二部分,研究者們將視野擴展到了一個新的目標 —— 提升模型的泛化能力。


泛化能力通常與模型在訓練過程中達到的極小值的「銳度」(sharpness) 相關。為了深入理解這一點,研究者們引入了一個新的概念 ——「極小值曲率」(curvature),并討論其對泛化的影響。通過觀察極小值的銳度、曲率與泛化能力之間的關聯,研究者們提出了一種新的方法,將銳度和曲率納入傳送的目標中來提升模型的泛化性能。 


圖 3 通過可視化的方式展示了一個梯度流 L (w) 和一條極小值上的曲線(γ),這兩條曲線的曲率對應著極小值的銳度和曲率。此外,表中還顯示了測試集上的損失與銳度或曲率之間的 Pearson 相關性。在三個數據集中,銳度與驗證損失呈強正相關,而極小值的曲率則與驗證損失呈負相關。這些發現表明,具有較小銳度或較大曲率的極小值,可能會帶來更好的泛化效果。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經網絡的訓練更加高效-AI.x社區

圖 3:展示了一個梯度流 L (w) 和一條極小值上的曲線(γ)


這些相關性的一種解釋來源于損失地形(loss landscape)在不同數據分布上的變化。當數據分布發生變化導致損失地形變化時,尖銳的極小值損失增加較大(如圖 4 右側所示)。在圖 4 中,曲率較大的極小值與變化后的極小值距離更遠(如圖 4 左側所示)。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經網絡的訓練更加高效-AI.x社區

圖 4


取得了極小值的屬性與泛化能力的相關性后,該研究人員將參數傳送到具有不同銳度和曲率的區域,以提高模型的泛化能力。圖 5 為在 CIFAR-10 上 SGD 的訓練曲線,其中在第 20 個 epoch 進行了一次傳送。實線代表平均測試損失,虛線代表平均訓練損失。

ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經網絡的訓練更加高效-AI.x社區

圖 5


傳送到更平坦的點略微改善了驗證損失。通過傳送改變曲率對泛化能力有更顯著的影響。傳送到曲率較大的點有助于找到具有較低驗證損失的極小值,而傳送到曲率較小的點則產生相反的效果。這表明至少在局部,曲率與泛化相關。


傳送和其他優化器的結合


標準優化器


傳送不僅有助于 SGD 的收斂速度。為了展示傳送與其他標準優化器的良好兼容性,研究者們使用不同的優化器在 MNIST 上訓練了一個三層神經網絡,并進行了帶傳送和不帶傳送的訓練。如圖 6 所示,在使用 AdaGrad、帶動量的 SGD、RMSProp 和 Adam 時,傳送提高了這些算法的收斂速度。

ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經網絡的訓練更加高效-AI.x社區

圖 6:在使用 AdaGrad、帶動量的 SGD、RMSProp 和 Adam 時,傳送提高了這些算法的收斂速度


學習傳送


受條件編程(conditional programming)和基于優化的元學習(meta-learning)的啟發,研究者們還提出了一個元優化器,用于學習在損失水平集中移動參數的位置。這種方法避免了在群流形上優化的計算成本,并改進了現有的僅限于局部更新的元學習方法。


圖 7 總結了訓練算法。研究人員使用了兩個 LSTM 元優化器 (m1, m2) 來學習局部更新 ft 和傳送中使用的群元素 gt。在兩層 LeakyReLU 神經網絡上的實驗中,他們使用了不同初始化創建的多個梯度下降軌跡上訓練元優化器,并在訓練中未見過的新初始值上測試收斂速度。

ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經網絡的訓練更加高效-AI.x社區

圖 7:總結了訓練算法


與基線相比,同時學習兩種更新類型(LSTM (update,tele))比單獨學習它們(LSTM (update) 、LSTM (lr,tele))能夠實現更好的收斂速率。


總結


該論文的主要貢獻包括傳送加速 SGD 收斂的理論保證、極小值曲率的量化及其與泛化相關性的證據、基于傳送的改善泛化的算法以及學習傳送位置的元學習算法。


傳送廣泛適用于在損失水平集中搜索具有優秀屬性的參數。對稱性與優化之間的密切關系開啟了許多激動人心的機會。探索傳送中的其他目標是一個有潛力的未來方向。其他可能的應用包括將傳送擴展到不同的架構,如卷積或圖神經網絡,以及不同的算法,如基于采樣的優化。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/IK9ZIez7hVYuT4yM5OyG4A??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 综合激情av | 国产精品一区二区视频 | 久久精品亚洲一区 | 亚洲视频精品在线 | 国产视频日韩 | 国产高清精品在线 | 中文字幕人成乱码在线观看 | 日韩成人在线一区 | 男女网站免费 | 亚洲第一女人av | 亚洲视频中文 | 国产精品国产精品 | 亚洲啪啪 | 久久久久久99 | 精品久久九 | 九九精品在线 | 久久久精品视频一区二区三区 | 99精品国产一区二区三区 | 欧美日韩一区二区三区四区五区 | 精品一区二区久久久久久久网站 | 国产精品久久久久久久久久免费 | 九九热国产精品视频 | 日韩一级精品视频在线观看 | 羞羞视频免费在线 | 久草热在线| 黄色一级免费 | 91久久久www播放日本观看 | 久久久久久国产精品 | 欧美在线日韩 | 激情一区 | 一区二区三区不卡视频 | 欧美人成在线视频 | 性做久久久久久免费观看欧美 | 亚洲欧美精品在线 | 狠狠色综合欧美激情 | 亚洲一二三区精品 | 日韩电影免费在线观看中文字幕 | 久久免费精品视频 | 久草免费在线视频 | 国产天天操 | 秋霞av国产精品一区 |