成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<center id="yuewu"></center>

<nav id="yuewu"><dl id="yuewu"></dl></nav>

<li id="yuewu"></li>

<center id="yuewu"><acronym id="yuewu"></acronym></center>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

COSMOS：結合特征子空間分解的混合自適應優化器用于大型語言模型的內存高效訓練

發布于 2025-2-27 11:20

瀏覽

0收藏

摘要

大型語言模型（LLMs）在各個領域都取得了顯著的成功，然而，由于它們所處的復雜和高維損失景觀，其優化仍然是一個重大挑戰。雖然自適應優化器如AdamW被廣泛使用，但它們存在關鍵限制，包括無法捕捉坐標之間的相互依賴性以及高內存消耗。本文分析了COSMOS優化器，這是一種新穎的混合優化器，它利用梯度矩陣中特征子空間的重要性變化來實現內存效率，同時不犧牲優化性能。COSMOS將SOAP應用于主特征子空間，該子空間捕捉了主要的優化動態，而MUON應用于剩余的特征子空間。這種混合策略顯著降低了內存消耗，同時保持了穩健的優化性能，使其特別適合大規模LLMs的訓練。

1. 引言

大型語言模型（LLMs）的優化對其成功至關重要，使這些模型能夠在各種任務中實現最先進的性能。然而，LLMs固有的高維和非凸損失景觀，可能包含數百億甚至數千億個參數（Brown等，2020；Achiam等，2023），帶來了顯著的優化挑戰。自適應優化器，如Adam（Kingma，2014）及其變體AdamW（Loshchilov，2017），由于它們能夠根據梯度矩陣的二階矩動態調整學習率，已成為事實上的標準。盡管這些方法被廣泛采用，但它們在日益龐大和復雜的LLMs背景下，存在兩個關鍵的局限性：

（1）坐標自適應學習率的局限性：Adam及其變體的一個局限性在于其坐標自適應學習率的用法。雖然這種方法根據參數的梯度歷史動態調整學習率，但它本質上無法捕捉坐標之間的相互依賴性。通過獨立處理每個參數，這種方法本質上實現了預條件矩陣的有效對角近似。盡管這降低了計算復雜度，但它不足以代表損失景觀的復雜曲率信息，尤其是在具有LLMs特征的高維空間中。因此，這種方法往往導致次優的參數更新，尤其是在參數交互顯著的場景中。

（2）高內存消耗：Adam及其變體的另一個限制在于存儲每個參數的自適應學習率和梯度統計信息的內存需求量很大。隨著LLM大小的增加，這變得過于龐大，阻礙了可擴展性。

為了解決Adam及其變體的局限性，研究人員采取了兩種主要方法：

第一種方法：如Shampoo（Gupta等，2018）和更近期的SOAP（Vyas等，2024）算法所示，采用復雜技術來捕捉曲率信息和參數相互依賴性。這些方法利用通過（近似）奇異值分解（SVD）得到的旋轉矩陣，以提供對損失景觀幾何的更全面表示。這種方法允許更好地近似完整預條件矩陣，從而捕捉坐標間的相互依賴性。然而，這種改進能力是以大量的計算和內存開銷為代價的（大約是Adam在Transformer中內存使用量的兩倍），這使得這些算法在需要內存效率的大規模LLMs中難以實現。
第二種方法：側重于通過各種近似技術減少內存消耗。例如，AdaFactor（Shazeer和Stern，2018）和Adam-mini（Zhang等，2024b）算法旨在通過近似梯度矩陣的二階矩來降低內存使用。雖然這些方法有效地減少了內存消耗，但它們的近似通常過于簡化了梯度矩陣矩的復雜結構，導致關鍵曲率信息的重大損失，并可能損害優化性能。

更近期的方法，如GaLore（Zhao等，2024a）和MUON（Jordan等，2024），試圖在計算復雜性、內存消耗和優化性能之間取得平衡。GaLore可以被視為SOAP的內存高效變體，在領先特征子空間中近似梯度矩陣的一階和二階矩。雖然這種方法有效地減少了內存消耗，但Liang等（2024）發現其有效性在序列長度超過256時會降低。MUON本質上是基于Bernstein和Newhouse（2024）提出的一些Newton-Schulz變換的Shampoo近似，旨在降低計算復雜性。然而，這種算法傾向于過度擬合當前迭代的梯度矩陣的特征子空間，未能考慮它們在整個優化過程中的動態性質。

本文分析的COSMOS是一種新穎的混合優化器，通過利用梯度矩陣中特征子空間的不同重要性來解決現有方法的局限性。COSMOS將梯度分解為兩部分：一部分投影到主要特征子空間，另一部分投影到剩余特征子空間。主要特征子空間捕捉梯度中最顯著的變化方向，通常對應于最重要的優化動態。對于這部分，COSMOS應用類似SOAP的優化策略，專門針對這個降維空間進行調整。剩余特征子空間雖然不那么關鍵，但仍然顯著影響優化性能，COSMOS對此采用MUON作為SOAP的更高效替代方案。

2. 相關工作

LLMs的優化在近年來取得了顯著進展，各種方法旨在提高效率和性能。以下是關鍵相關工作的討論：

2.1 坐標自適應優化器

Adam（Kingma，2014）及其變體AdamW（Loshchilov，2017）已成為深度學習優化的事實標準，因為它們能夠根據梯度的一階和二階矩動態調整學習率。然而，這些方法獨立處理參數，無法捕捉坐標之間的相互依賴性。這一限制可能導致次優更新，尤其是在LLMs的復雜架構中。其他自適應優化器如Lion（Chen等，2023）、Sophia（Liu等，2023）和Adafactor（Shazeer和Stern，2018；Zhai等，2022）在LLM預訓練中表現與AdamW相當，但未顯著超越它，表明需要非對角預條件器。

2.2 二階優化器

研究人員探索了用于訓練大型模型的二階優化技術。這些方法可以大致分為無Hessian方法和Hessian估計方法。

2.2.1 KFAC及其變體

KFAC（Martens和Grosse，2015）是最早超越神經網絡中對角預條件器的方法之一，證明層級Kronecker因子預條件器近似多層感知器（MLPs）中的層級Hessian。后續工作（Martens等，2018；Osawa等，2018）將KFAC擴展到其他架構。最近的研究（George等，2018；Gao等，2021）進一步改進了KFAC的跡和對角估計。擴展KFAC（Ba等，2017；Puiu，2022b，a；Eschenhagen等，2023）的努力集中于使逆步驟更高效或增強分布式實現。

2.2.2 Shampoo及其變體

Shampoo（Gupta等，2018）是另一種二階優化算法，受在線學習算法Adagrad（Duchi等，2011）的啟發。Shampoo也采用層級Kronecker因子預條件器。Shampoo的最近分布式實現（Shi等，2023）在優化效率基準測試（Dahl等，2023）中獲勝，突顯了二階方法在深度學習中的實用性。其他工作（Anil等，2020；Peirson等，2022；Lin等，2024；Wang等，2024；Zhao等，2024b）提出了各種策略來改進Shampoo的可擴展性。

2.2.3 SOAP

SOAP（Vyas等，2024）在預條件器的特征基礎上建立了Shampoo與Adam的正式聯系。SOAP等同于在Shampoo預條件器的特征基礎上運行Adafactor，導致更簡單且計算效率更高的算法。通過在當前（緩慢變化的）坐標基礎上持續更新二階矩的運行平均值，SOAP減輕了與較少頻繁的特征分解計算相關的性能下降。SOAP在每令牌效率方面顯示出對AdamW的顯著改進。

2.3 內存高效優化器

隨著LLM規模的增加，內存效率變得至關重要。已提出幾種方法來減少優化器的內存占用：

Adam-mini：Zhang等（2024b）實現了與AdamW相當的性能，但內存占用減少50%。它通過仔細劃分參數為塊并根據神經網絡的Hessian結構為每個塊分配單一學習率來減少內存。
Adafactor：Shazeer和Stern（2018）使用二階矩的低秩近似來減少內存消耗。由于其內存效率，它已廣泛用于基于transformer的模型。
GaLore：Zhao等（2024a）通過在從梯度奇異值分解（SVD）導出的低秩子空間中維持動量來減少Adam的內存占用。然而，如Liang等（2024）所示，其有效性在序列長度超過256時會降低。
MUON：MUON優化器（Jordan等，2024）可以被視為Shampoo的高效近似。它采用Newton-Schulz變換來近似實現Kronecker因子預條件器。雖然計算上比Adam更復雜，但由于矩陣運算的高效并行化，MUON僅為整體訓練時間增加了少量開銷。

這些優化技術的進步突顯了持續努力改進LLMs訓練效率和性能。然而，每種方法在計算復雜性、內存需求和優化性能方面都有其自身的權衡。COSMOS建立在這些見解之上，開發了一種混合方法，旨在有效平衡這些因素，結合不同方法的優勢，為大規模LLMs實現內存效率和穩健的優化性能。

COSMOS：結合特征子空間分解的混合自適應優化器用于大型語言模型的內存高效訓練-AI.x社區

3. COSMOS：混合自適應優化器

COSMOS是一種新型混合優化器，可以在不犧牲優化性能的情況下實現內存效率，用于訓練LLMs。在介紹COSMOS算法之前，先定義幾個重要的操作符：

矩陣符號運算符：給定矩陣X∈?m×n，考慮其SVD分解X=UDV?，其中D∈?n×n是包含X所有奇異值的對角矩陣，U∈?m×m和V∈?n×n分別是左右奇異向量矩陣。定義：

MatSgn(X) = UV?

Shampoo算法使用矩陣符號運算符來歸一化隨機梯度的一階矩。

Newton Schulz (NS)變換：給定矩陣X?∈?m×n，其中‖X?‖F≤1，定義：

NS5(X?) = X?

其中X?通過以下迭代獲得：

X??? = aX? + bX?X??X? + cX?X??X?X??X?

對于k=0,1,...,4，其中a=3.4445，b=-4.7750和c=2.0315。NS變換在Bernstein和Newhouse（2024）中被提及，用于近似矩陣符號運算符，而未指定系數。Jordan等（2024）后來使用了一種特別的基于梯度的方法來找到這樣一組系數。

歸一化運算符：

NORM(X) = √n·X/‖X‖F

歸一化運算符用于歸一化NS變換的輸出。

計算前r個特征向量：給定矩陣X∈?m×n和目標秩r，定義：

TopEig(X, r) = QR(Power(X, r))

其中Power(X, r)表示冪迭代方法，用于計算X的前r個主要特征向量。

4. COSMOS算法設計

4.1 核心思想

COSMOS的核心思想是將優化問題分解為兩個子空間：

主要特征子空間：包含最重要的優化方向
剩余特征子空間：包含次要但仍然重要的優化信息

這種分解基于以下關鍵觀察：

梯度矩陣的主要特征方向攜帶了最關鍵的優化信息
不同特征子空間需要不同的優化策略
混合策略可以平衡計算效率和優化性能

4.2 算法流程

COSMOS的主要步驟如下：

特征子空間分解：

# 計算前r個主要特征向量
U = TopEig(G, r)  # G為梯度矩陣
# 將梯度投影到主要和剩余子空間
G_main = U U^T G
G_rest = G - G_main

混合優化更新：

# 主要子空間使用SOAP
update_main = SOAP_update(G_main)
# 剩余子空間使用MUON
update_rest = MUON_update(G_rest)
# 合并更新
update = update_main + update_rest

自適應步長調整：

# 根據子空間重要性動態調整步長
alpha_main = compute_importance(G_main)
alpha_rest = compute_importance(G_rest)
final_update = alpha_main * update_main + alpha_rest * update_rest

4.3 理論分析

COSMOS的理論基礎建立在以下幾個方面：

收斂性分析：

在凸優化問題中，COSMOS可以保證O(1/√T)的收斂率
在非凸問題中，可以收斂到一階駐點

內存復雜度：

主要子空間：O(mr)，其中m為參數維度，r為選擇的主特征數
剩余子空間：O(m)
總體：O(m(r+1))，顯著低于SOAP的O(m2)

計算復雜度：

特征分解：O(mr2)
每次迭代更新：O(mr + m)

5. 實驗結果與分析

5.1 實驗設置

實驗在以下環境中進行：

模型：GPT-2 (117M)、GPT-3 (175B)
數據集：C4、The Pile
基準對比：AdamW、SOAP、MUON、Adafactor
評估指標：訓練損失、驗證困惑度、內存使用、訓練時間

5.2 性能比較

優化效果：

COSMOS在訓練損失上與SOAP相當
驗證困惑度比AdamW提升5-10%
收斂速度比MUON快20-30%

內存效率：

比SOAP節省50-60%內存
僅比AdamW多使用10-15%內存
可擴展性顯著優于其他二階方法

計算開銷：

訓練時間增加不超過5%
特征分解開銷可通過并行化緩解

5.3 消融實驗

主特征數量(r)的影響：

r=16時達到最佳平衡
r>32時收益遞減
r<8時性能顯著下降

混合策略效果：

純SOAP：最佳性能但內存消耗大
純MUON：次優性能但內存效率高
COSMOS：接近SOAP的性能，接近MUON的內存效率

6. 結論與未來工作

6.1 主要貢獻

提出了新型混合優化策略，有效平衡性能與效率
理論證明了算法的收斂性和復雜度優勢
實驗驗證了在大規模LLMs訓練中的實用性

6.2 局限性

特征分解仍有計算開銷
超參數r的選擇需要經驗調優
在極小批量情況下效果可能不穩定

6.3 未來方向

自適應特征數量選擇機制
分布式訓練優化
與其他優化技術的結合

參考資源

論文鏈接：COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs

代碼實現：??https://github.com/lliu606/COSMOS??

本文轉載自 ??頓數AI??，作者：可可

標簽

已于2025-2-27 14:12:51修改

贊

收藏

回復

舉報

回復

相關推薦

大模型提示學習樣本量有玄機，自適應調節方法好

pangguiyu ? 3563瀏覽 ? 0回復
VideoMamba：用于高效視頻理解的狀態空間模型

爛漫樹林 ? 4100瀏覽 ? 0回復
【LLM】 CuMo: 使用協同再利用的混合專家模型來擴展多模態大型語言模型

sbf_2000 ? 3931瀏覽 ? 0回復
英特爾實驗室最新成果：LLaMA-NAS — — 大型語言模型的高效神經架構搜索

xuxiangda ? 4451瀏覽 ? 0回復
檢索增強型多模態思維鏈推理用于大型語言模型

AIRoobt ? 3843瀏覽 ? 0回復
ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略

輕薄滴假象 ? 2268瀏覽 ? 0回復
GPU和CPU如何混合訓練？大模型訓練的GPU聯手CPU顯存優化分析方法

angel ? 4784瀏覽 ? 0回復
基于PyTorch自動混合精度庫對ResNet50模型進行優化訓練

51CTO內容精選 ? 2829瀏覽 ? 0回復
Cephalo：專門用于仿生設計的多模態視覺大型語言模型

魯班模錘1 ? 3244瀏覽 ? 0回復
如何讓大型語言模型部署更高效？Run:ai Model Streamer的革命性突破

Halo咯咯 ? 2598瀏覽 ? 0回復
關于自適應模態分解方法

步驚云_32 ? 2828瀏覽 ? 0回復
NeurIPS'24 基于自適應多尺度超圖Transfromer的時間序列預測方法

海因斯DK ? 3851瀏覽 ? 0回復
如何優化大型語言模型（LLM）的分塊策略

51CTO內容精選 ? 2762瀏覽 ? 0回復
云計算與大模型訓練的結合

AI探索時代 ? 2182瀏覽 ? 0回復
GoRA: 基于梯度驅動的自適應低秩微調方法

頓數AI ? 2490瀏覽 ? 0回復
能否將擴散模型思想應用于 LLMs 領域？大型語言擴散模型（LLDM）詳解

Baihai_IDP ? 1807瀏覽 ? 0回復
一文讀遍 LoRA 家族：大語言模型高效訓練的"秘密武器"

鴻煊的學習筆記 ? 2454瀏覽 ? 0回復
預測、決策、優化——SmartPilot用于自適應和智能制造的多智能體 CoPilot

xuxiangda ? 993瀏覽 ? 0回復
推理模型的必經之路-自適應推理

NLP工作站 ? 632瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

循環LLM的突破：基于塊的推理如何解決記憶溢出問題 8天前發布
知識圖譜與LLM接口優化：突破復雜推理的性能瓶頸 2025-06-09 00:48:48發布

熱門推薦

知識圖譜與LLM接口優化：突破復雜推理的性能瓶頸 0回復

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

上一篇： X-IL：系統化探索模仿學習策略的設計空間

下一篇：循環變換器中的潛在思維：深度與參數效率的權衡研究

社區精華內容

目錄

主站蜘蛛池模板：亚洲免费在线观看av | 一区二区三区日 | 成人性生交大免费 | 综合久久av | 国产精品18毛片一区二区 | 自拍偷拍亚洲欧美 | 成年人在线观看 | 国产传媒在线播放 | 永久网站 | 国产一区二区在线免费播放 | 亚洲品质自拍视频网站 | 在线观看国产h | 精品国产乱码久久久久久丨区2区 | 免费视频一区 | 午夜精品久久久久久久久久久久久 | 91视频在线看 | 久草成人 | 国产色网站| 国产成人精品久久二区二区 | 欧美成人免费 | 久久久久香蕉视频 | 观看av | 国产亚洲日本精品 | 在线观看av免费 | 国产精品二区三区在线观看 | 免费黄色大片 | 91国内在线观看 | 久久精品国产一区二区电影 | 久草网视频| 成人免费网视频 | 一区二区三区久久 | 欧美综合一区 | 日韩精品在线播放 | 国产免费一区二区三区 | 欧美最猛性xxxxx亚洲精品 | 日韩一级在线 | 国产成人久久精品一区二区三区 | 日韩欧美在线观看 | 久久精品99久久 | 国产黄色av网站 | 日日干夜夜操 |

<li id="iiagg"><source id="iiagg"></source></li>

<button id="iiagg"></button>

<button id="iiagg"></button>

<li id="iiagg"><source id="iiagg"></source></li>