成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

蘋果發(fā)布高效雙EMA梯度優(yōu)化方法,適配Transformer、Mamba模型

發(fā)布于 2024-11-4 09:59
瀏覽
0收藏

在訓(xùn)練深度學(xué)習(xí)模型時(shí),優(yōu)化復(fù)雜的非凸損失函數(shù)是一個(gè)非常難的挑戰(zhàn)。目前廣泛使用的優(yōu)化器是Adam、AdamW等,主要依賴于EMA(指數(shù)移動(dòng)平均)來累積梯度信息,但這種方法存在一些局限性。


例如,在訓(xùn)練超大規(guī)模數(shù)據(jù)集和復(fù)雜架構(gòu)模型時(shí),EMA 可能無法有效地捕捉到梯度的變化趨勢,可能會(huì)忽略掉一些重要的局部信息,導(dǎo)致模型在訓(xùn)練過程中陷入局部優(yōu)解,而無法找到全局最優(yōu)解。


為了解決這一難題,蘋果和瑞士洛桑聯(lián)邦理工學(xué)院的研究人員提出了AdEMAMix 優(yōu)化器,通過混合了兩個(gè)EMA一個(gè)對近期梯度敏感,另一個(gè)能整合更久遠(yuǎn)梯度的信息實(shí)現(xiàn)局部和全局的優(yōu)化。


論文地址:https://arxiv.org/abs/2409.03137

蘋果發(fā)布高效雙EMA梯度優(yōu)化方法,適配Transformer、Mamba模型-AI.x社區(qū)

AdEMAMix優(yōu)化器的創(chuàng)新在于對動(dòng)量估計(jì)的重新思考。在傳統(tǒng)的Adam優(yōu)化器中,動(dòng)量是通過指數(shù)移動(dòng)平均(EMA)來實(shí)現(xiàn)的,這種方法雖然在實(shí)踐中被證明是有效的,但它在處理歷史梯度信息時(shí)存在很大局限性。


這是因?yàn)閱我坏腅MA在給予近期梯度較高權(quán)重的同時(shí),很難為早期的梯度保留足夠的影響力,在一定程度上限制了優(yōu)化器利用歷史信息的能力,尤其是在那些需要長期依賴歷史數(shù)據(jù)的任務(wù)中。


而AdEMAMix優(yōu)化器引入了兩種不同速率的EMA。第一種是快速變化的EMA,它對近期的梯度變化反應(yīng)靈敏,能夠快速調(diào)整優(yōu)化方向以適應(yīng)損失景觀的局部變化。

蘋果發(fā)布高效雙EMA梯度優(yōu)化方法,適配Transformer、Mamba模型-AI.x社區(qū)

第二種則是慢速變化的EMA,它對歷史梯度給予更高的權(quán)重,使得優(yōu)化器能夠在長時(shí)間內(nèi)保持對早期信息的記憶。通過這種雙EMA的結(jié)構(gòu),使AdEMAMix優(yōu)化器能夠在保持對近期變化敏感的同時(shí),有效地利用長期積累的歷史信息。

蘋果發(fā)布高效雙EMA梯度優(yōu)化方法,適配Transformer、Mamba模型-AI.x社區(qū)

平衡這兩種EMA的權(quán)重也是一個(gè)關(guān)鍵點(diǎn),AdEMAMix引入了一個(gè)參數(shù),用于調(diào)節(jié)慢速EMA在最終更新中的貢獻(xiàn)。通過精心設(shè)計(jì)的調(diào)度策略,使參數(shù)的值會(huì)隨著訓(xùn)練的進(jìn)行而動(dòng)態(tài)調(diào)整,從而在訓(xùn)練初期避免過大的更新,同時(shí)在后期逐漸增加對歷史信息的利用。


此外,AdEMAMix還對傳統(tǒng)的動(dòng)量更新規(guī)則進(jìn)行了改進(jìn)。在每次迭代中,優(yōu)化器會(huì)計(jì)算一個(gè)結(jié)合了兩種EMA的更新向量,并通過這個(gè)向量來調(diào)整模型參數(shù)。


這樣不僅考慮了梯度的方向和大小,還考慮了梯度的歷史信息,使得優(yōu)化器能夠在復(fù)雜的損失景觀中更加有效地尋找最優(yōu)解。

蘋果發(fā)布高效雙EMA梯度優(yōu)化方法,適配Transformer、Mamba模型-AI.x社區(qū)

為了評估AdEMAMix優(yōu)化器的性能,研究人員對Transformer、Mamba和VIT三種不同架構(gòu)的大模型進(jìn)行了綜合測試。


在 Transformer 模型的測試中,研究人員分別對 110M、335M 和 1.3B 三種不同規(guī)模的模型進(jìn)行了實(shí)驗(yàn)。例如,在相同的訓(xùn)練條件下,對于 110M 參數(shù)的模型,傳統(tǒng)的優(yōu)化器可能需要更多的迭代次數(shù)和訓(xùn)練時(shí)間才能達(dá)到一定性能,而AdEMAMix 優(yōu)化器的時(shí)間大大減少性能也獲得提升。

蘋果發(fā)布高效雙EMA梯度優(yōu)化方法,適配Transformer、Mamba模型-AI.x社區(qū)

在 Mamba 模型的測試中,研究人員使用了 168M 參數(shù)的 Mamba 模型和 FineWeb 數(shù)據(jù)集。AdEMAMix同樣獲得了非常好的成績,也證明了該方法可以擴(kuò)展到不同類型的模型中。

蘋果發(fā)布高效雙EMA梯度優(yōu)化方法,適配Transformer、Mamba模型-AI.x社區(qū)

在 VIT 模型的測試中,研究人員使用了 ImageNet 的兩個(gè)子集進(jìn)行多次 epoch 的訓(xùn)練。例如,在訓(xùn)練 24M 參數(shù)模型在 11M 圖像上進(jìn)行 37 個(gè)epoch 時(shí),AdEMAMix 能夠很容易地找到優(yōu)于傳統(tǒng)優(yōu)化器的參數(shù)設(shè)置,從而降低訓(xùn)練損失。當(dāng)模型參數(shù)增加到 86M時(shí),AdEMAMix 仍能較容易地找到優(yōu)于基線的參數(shù)。


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/1fcDph5Rr74cLBwzOb_FJw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 成人免费淫片aa视频免费 | 国产精品欧美一区二区三区不卡 | 综合一区 | 亚洲精品视频三区 | 成人在线观看中文字幕 | 久久草在线视频 | 人操人人| 亚洲精品一区二区 | 国产午夜精品一区二区三区嫩草 | 中文字幕av亚洲精品一部二部 | www久| 亚洲国产精品一区二区第一页 | caoporn地址| 国产精品视频一二三区 | 久久久久久久久久久久久9999 | 日韩精品国产精品 | 国产乱码精品一区二区三区中文 | 久久久久久毛片免费观看 | 人人看人人搞 | 99久久婷婷国产综合精品 | 美女日皮网站 | 一区二区国产精品 | 精品真实国产乱文在线 | 亚洲一区国产精品 | 中文字幕在线欧美 | 永久免费在线观看 | 久久99精品久久 | av影音| 亚洲精选久久 | 在线日韩| 中文字幕视频在线免费 | 中文精品一区二区 | 国产乱肥老妇国产一区二 | 久久成人精品视频 | www.嫩草 | 国产日韩欧美一区二区 | 华丽的挑战在线观看 | 欧美高清视频在线观看 | 91一区| 全免费a级毛片免费看视频免费下 | 精品乱人伦一区二区三区 |