成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

馬騰宇團隊新出大模型預訓練優化器,比Adam快2倍,成本減半

人工智能 新聞
本文提出了一種簡單的可擴展的二階優化器 Sophia,在與 Adam 比較中,Sophia 在減少了 50% step 數量的情況下實現了與 Adam 相同的驗證預訓練損失。

鑒于語言模型預訓練成本巨大,因而研究者一直在尋找減少訓練時間和成本的新方向。Adam 及其變體多年來一直被奉為最先進的優化器,但其會產生過多的開銷。本文提出了一種簡單的可擴展的二階優化器 Sophia,在與 Adam 比較中,Sophia 在減少了 50% step 數量的情況下實現了與 Adam 相同的驗證預訓練損失。

大語言模型(LLM)的能力隨著其規模的增長而取得了顯著的進展。然而,由于龐大的數據集和模型規模,預訓練 LLM 非常耗時,需要進行數十萬次的模型參數更新。例如,PaLM 在 6144 個 TPU 上進行了為期兩個月的訓練,總共耗費大約 1000 萬美元。因此,提高預訓練效率是擴展 LLM 規模的一個主要瓶頸。

本文來自斯坦福大學的研究者撰文《 Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training 》,文中提出了 Sophia(Second-order Clipped Stochastic Optimization)輕量級二階優化器,旨在通過更快的優化器提高預訓練效率,從而減少達到相同預訓練損失所需的時間和成本,或者在相同預算下實現更好的預訓練損失。

圖片

論文地址:https://arxiv.org/pdf/2305.14342.pdf

Sophia 優化器使用隨機估計作為 Hessian 矩陣對角線的 pre-conditioner,并采用剪切(clipping)機制來控制最壞情況下的參數大小更新。在像 GPT-2 這樣的預訓練語言模型上,Sophia 與 Adam 相比,在減少了 50% step 數量的情況下實現了相同的驗證預訓練損失。

由于 Sophia 可以維持每個 step 內的的內存和所用時間,這相當于總計算量減少了 50%,wall-clock 時間減少了 50%(參見圖 1 (a) 和 (b))。此外,根據擴展定律(從模型大小的角度),在 125M 到 770M 的模型上,Sophia 相對于 Adam 更具優勢,并且隨著模型大小的增加,Sophia 和 Adam 差距也在增加(在 100K step 內)(圖 1(c))。特別的,在 540M 參數模型上(100K step),Sophia 和具有 770M 參數模型上的 Adam 實現了相同的驗證損失。需要注意的是,后者需要多 達40%的訓練時間和 40%的推理成本。

圖片

這項研究也得到了大家的認可。英偉達人工智能科學家 Jim Fan 表示:「多年來,有無數論文推翻了 Adam 優化器,不知道 Sophia 會不會是保留到最后的那個,這是一個可擴展的二階優化器, 其偽代碼只有 13 行,在 GPT-2 (預訓練)上比 Adam 快了 2 倍,我很想試試這個優化器!」

圖片

論文作者之一、斯坦福大學助理教授馬騰宇表示:「(從發布之初,)Adam 可以說是一個 9 歲的優化器,是訓練 LLM 的首選,如 GPT-3、OPT、 LLAMA 等。而我們的新研究 Sophia 是一個嶄新的優化器,在 LLM 上比 Adam 快了 2 倍。只需要你多寫幾行代碼,你的成本就能從 200 萬美元降至 100 萬美元(如果擴展定律成立的話)。」

圖片

下面我們看看該優化器具體是如何實現的。

方法介紹

至于該研究的動機,作者表示 Adam 對于異構曲率(heterogeneous curvatures)的適應性不足。另一方面,vanilla Newton 方法在凸函數中具有最優的 pre-conditioner,但對于負曲率和 Hessian 的快速變化容易受到影響。基于這些見解,該研究設計了一種新的優化器 Sophia,它比 Adam 更適應異構曲率,比 Newton 方法更能抵抗非凸性和 Hessian 的快速變化,并且還使用了成本較低的 pre-conditioner。

圖片

方法理論方面,在時間步長 t 上,該研究用 θ_t 表示參數。在每個 step 上,該研究從數據分布中采樣一個小批次,計算小批次損失,并用 L_t (θ_t) 表示。g_t 表示 L_t (θ_t) 的梯度,即圖片。設 m_t 為 EMA( exponential moving average )的梯度,則更新的分子為 m_t ← β_1m_t?1 + (1 ? β_1) g_t 。

Sophia 使用基于對角 Hessian 的 pre-conditioner,根據參數維度的曲率直接調整更新的大小。為了減少開銷,該研究僅在每 k 個step內(現實中 k = 10)估計一次 Hessian。在時間步 t 上,估計器返回小批次損失的 Hessian 對角線的估計圖片。每 k 個step更新一次 EMA,得到對角 Hessian 估計的以下更新規則:

圖片

該研究只考慮對角 Hessian 的正項,并在更新中引入按坐標裁剪,更新規則改寫為:

圖片

對角 Hessian 估計器

該研究引入了兩個對角 Hessian 估計器,它們的內存和運行時間成本都與計算梯度相似。估計器分別為 Hutchinson 無偏估計器以及 GNB( Gauss-Newton-Bartlett ) 估計器。偽代碼如下所示:

圖片

實驗 

研究將使用 Hutchinson 估計器和 GNB 估計器的算法分別稱為 Sophia-H 和 SophiaG。本文用 GPT-2 評估了 Sophia 的自回歸語言建模,模型尺寸從 125M 到 770M 不等。結果表明,Sophia 在 step、總計算量和所有模型大小的 wall-clock 時間方面比 AdamW 和 Lion 快 2 倍。此外,擴展定律更有利于 Sophia 而不是 AdamW。

實驗語言建模設置

該實驗在 OpenWebText 上訓練自回歸模型。遵循 GPT-2 的標準協議,將上下文長度設置為 1024。使用只有解碼器的 Transformer,模型參數量分別為 125M (小型)、355M (中型) 和 770M (大型)。

基線:研究主要比較 Sophia 和 Adam。Adam 采用解耦權重衰減 (AdamW),這是語言建模任務中主要使用的優化器,而 Lion 是通過符號搜索發現的一階自適應優化器。所有優化器都進行了很好的調整。權重衰減被設置為 0.1,β_1 = 0.9, β_2 = 0.95。對于 Lion,使用 β_1 = 0.95 和 β_2 = 0.98。125M 和 355M 模型是在 10 個 A5000 GPU 上訓練的,而 770M 模型是在 8 個 A100 GPU 上訓練的。

評估:研究人員使用每個優化器對模型進行 100K、200K 或 400K 個step的預訓練評估,以比較速度。值得注意的是,與標準一樣,LR 調度取決于預先指定的總目標step 數,如圖 5 (a) 所示。這使得同一優化器的損失曲線在不同的 step 數下是不同的,因為總 step 數較少的 LR 調度會更早地衰減 LR。本文主要評估了這些模型在 OpenWebText 上的 log 困惑度,并繪制了損失曲線。此外,該研究還報告了 SuperGLUE 上的上下文學習結果,然后對 5 個提示的結果取平均值。

實驗結果

圖 4 展示了相同 step 數 (100K) 下 OpenWebText 上的驗證損失曲線 (token 級 log 困惑度)。與 AdamW 和 Lion 方法相比,本文所提出來的方法獲得了更好的驗證損失。隨著模型大小的增加,Sophia 和基線之間的差距也變得更大。Sophia-H 和 Sophia-G 在 355M 模型上的驗證損失都小 0.04 (圖 4 (b))。

圖片

同樣 100K step,Sophia-H 在 770M 模型上的驗證損失小了 0.05 (圖 4,(c))。可以看出,這是個明顯的改進,因為根據該機制中的擴展定律和圖 5 中的結果,損失 0.05 的改進相當于實現相同驗證損失的 step 數或總計算量的改進的雙倍。

Sophia 在 step 數、總計算時間和 wall-clock 時間方面快了兩倍。Sophia 對驗證損失的改進在于減少 step 數或總計算量。在圖 1 (a) 和 (b) 和圖 5 中,通過比較達到相同驗證損失水平所需的 step 數或總計算量來評估優化器。從圖 1 (a) 和 (b) 中可以看出,與 AdamW 和 Lion 相比,Sophia-H 和 Sophia-G 在不同的模型尺寸下實現了 2 倍的加速。

圖片

擴展定律更有利于 Sophia-H 而不是 AdamW。在圖 1 (c) 中,該研究繪制了預訓練 100K step 的不同大小模型的驗證損失。Sophia 和 AdamW 之間的差距隨著模型的擴大而增大。此外,Sophia-H 訓練的 540M 模型比 AdamW 訓練的 770M 模型的損失更小。Sophia-H 訓練的 355M 模型與 AdamW 訓練的 540M 模型的損失相當。

評估下游任務的小樣本 (SuperGLUE)。如圖 6 所示,驗證損失的改善也使得下游任務準確率的提高。在預訓練 step 數相同的情況下,使用 Sophia 預訓練的 GPT-2 medium 和 GPT-2 large 在大多數子任務上具有更好的少樣本準確率。此外,用 Sophia-H 預訓練的模型與用 AdamW 預訓練的模型具有相當的小樣本準確率。

圖片

分析

比較 wall-clock 時間與計算量。表 1 比較了每一個 step 的總計算量 (TFLOPs) 和 A100 GPU 上的 wall-clock 時間。本文報告了每個 step 的平均時間,Hessian 計算花費的時間的總計算。較小的批量大小,即每 10 個 step 以計算對角 Hessian 估計,Hessian 計算占總計算量的 6%,與 AdamW 相比,整體 wall-clock 時間開銷小于 5%。在內存使用方面,優化器 m 和 h 兩個狀態,這導致了與 AdamW 相同的內存開銷。

圖片

在 30M 模型上,執行網格搜索來測試 Sophia-H 對超參數的敏感性 (圖 7 (c))。所有組合的性能相近,但 β_2 = 0.99 和 ρ = 0.1 的性能最好。此外,這種超參數選擇可以跨模型大小遷移。對于 125M、355M 和 770M 的所有實驗,都使用了 30M 模型上搜索超參數 ρ = 0.01, β_2 = 0.99。

圖片

訓練穩定性。與 AdamW 和 Lion 相比,Sophia-H 在預訓練中具有更好的穩定性。梯度裁剪 (by norm) 是語言模型預訓練中的一項重要技術。在實踐中,梯度裁剪觸發的頻率與訓練的穩定性有關 —— 如果梯度被頻繁裁剪,迭代可能處于非常不穩定的狀態。圖 7 (a) 比較了 GPT-2  (125M) 觸發梯度裁剪的 step 比例。盡管所有方法都使用相同的裁剪閾值 1.0,但 Sophia-H 很少觸發梯度裁剪,而 AdamW 和 Lion 在超過 10% 的 step 中觸發梯度裁剪。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-09-27 10:31:22

2023-11-22 11:40:00

Meta模型

2023-02-20 14:59:42

模型訓練

2024-04-16 12:15:42

AI模型

2024-08-08 17:48:56

2024-11-02 10:28:03

2023-06-21 13:20:14

系統模型

2025-02-27 10:00:00

2024-11-27 14:30:00

模型訓練

2024-11-04 00:24:56

2024-11-07 15:10:00

2021-05-06 16:06:20

Google AI技術

2022-10-27 08:31:31

架構

2022-11-09 13:53:45

AI圖像

2023-07-12 10:04:20

模型訓練

2024-03-26 10:13:54

日志引擎SigLens

2014-09-16 10:52:38

瀏覽器

2024-01-03 18:53:13

語言模型LLM

2009-07-01 09:47:10

FireFox 3.5瀏覽
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕国产 | 国产一区| 亚洲人在线观看视频 | 国产精品久久久久久久久久妇女 | 久久久91精品国产一区二区三区 | 成人在线免费观看视频 | av毛片在线播放 | 九一在线 | 日韩免费视频 | 国产精品久久 | 国产精品一区二区久久久久 | 91精品国产乱码久久久久久久久 | 欧美成人一区二区三区 | 国产成人精品一区二区三区视频 | 99精品久久| 亚洲香蕉| 精品欧美激情精品一区 | 成人精品国产一区二区4080 | 国产欧美久久一区二区三区 | 成人av色| 91精品国产乱码久久久久久久久 | av一二三区| 福利精品在线观看 | 91不卡在线 | 日韩成人免费av | 天天操天天射综合网 | 日韩中文在线观看 | 亚洲国产成人在线视频 | 在线免费观看日本 | 天堂视频一区 | 亚洲国产成人精 | 中文字幕一区在线观看视频 | 久久国产综合 | 91视频.com | 亚洲欧美国产精品久久 | 久久久久久99 | 精品亚洲91 | 精品国产一区探花在线观看 | 免费观看一级毛片 | 国产一区二区三区色淫影院 | 免费一区二区 |