成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

配置不同的學習率，LoRA還能再漲一點？

發布于 2024-3-27 20:37

瀏覽

0收藏

LoRA(Low-Rank Adaptation)是當前 LLM 的參數高效微調手段之一，此前我們在《梯度視角下的LoRA：簡介、分析、猜測及推廣》也有過簡單討論。這篇文章我們來學習 LoRA 的一個新結論：

給 LoRA 的兩個矩陣分配不同的學習率，LoRA 的效果還能進一步提升。

該結論出自最近的論文《LoRA+: Efficient Low Rank Adaptation of Large Models》[1](下稱“LoRA+”)。咋看之下，該結論似乎沒有什么特別的，因為配置不同的學習率相當于引入了新的超參數，通常來說只要引入并精調超參數都會有提升。

“LoRA+”的特別之處在于，它從理論角度肯定了這個必要性，并且斷定最優解必然是右矩陣的學習率大于左矩陣的學習率。簡而言之，“LoRA+”稱得上是理論指導訓練并且在實踐中確實有效的經典例子，值得仔細學習一番。

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

結論簡析

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

“LoRA+”的結論是：為了使 LoRA 的效果盡可能接近最優，權重 B 的學習率應該要大于權重A的學習率。

注意，為了使初始模型等價于原始預訓練模型，LoRA 通常會將 A,B 之一全零初始化。筆者一開始以為，該結論是由于全零初始化導致的，所以應該依賴于全零初始化的位置，但仔細閱讀后發現，“LoRA+”所聲稱的結論跟全零初始化無關，也就是說，表面上 A,B 是對稱的，但實際上它們有著固有的不對稱性，以至于不管選擇 A 還是 B 來全零初始化，結論都是 B 的學習率要大于 A。這就有意思起來了。

不得不說。“LoRA+”原文的推導寫得相當讓人費解，下面筆者盡量用自己的思路來完成推導。大體上，它基于兩點假設：1. 數值穩定：模型每一層的輸出值都應該是數值穩定的，跟網絡寬度無關;2. 貢獻相當：為了使 LoRA 最優，A,B 兩個矩陣對效果應該有同等程度的貢獻。接下來我們逐一分析并量化這兩點假設。

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

數值穩定

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

單看前向傳播來說，XA 的數值穩定性確實不是必要的。但如果 XA 數值不穩定同時 XAB 數值穩定的話，那么有兩種情況：XA 數值偏大、B 數值偏小，根據求導公式，這將導致 A 的梯度偏小、B 的梯度偏大;反過來，XA 數值偏小、B 數值偏大，這將導致 A 的梯度偏大、B 的梯度偏小。

總而言之，XA 的數值不穩定會導致 A,B 的梯度不穩定，從而增加優化難度，所以還是加上 XA 的數值穩定性為條件比較好。

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

貢獻相當

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

這里使用了一階線性近似，其中是 A,B 的梯度，是(Frobenius)內積運算，右端兩項就可以理解為 A,B 對效果的分別貢獻。但注意線性近似的有效性取決于增量是小量，但對于訓練好的權重，它對于原始權重的增量還真未必是小量。

所以退而求其次，我們將“貢獻相當”假設改為“A,B 在每一步更新中應該對效果有同等程度上的貢獻”，由于單步更新的量通常很小，因此線性近似能比較好地滿足。

既然要考慮每一步的更新量，那么就引導我們到了優化器的方向上。當前預訓練和微調的主流優化器都是 Adam，那么我們就以 Adam 為主要分析對象。

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

其中是各自的學習率，“LoRA+”的結論就是。

將 SignSGD 的增量(2)代回式(1)，那么就得到

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

快速推導

進一步的分析需要求出梯度的具體形式。再次設 Y=XAB，那么可以求出：

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

但是還沒完，我們要檢查一下結果是否自洽，因為我們用到的條件之一是“前向的數值穩定性”，至今為止還只是一個理想的假設。如何讓假設盡可能成立呢?戰勝一個假設的方法是引入另一個假設：

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

根據 Adam 的近似式(2)，每步增量的數量級確實正比于學習率，但總的更新結果又不完全是每一步簡單疊加，所以這個假設給人的感覺就是“看上去有點道理，但又不完全有道理”。但不要緊，假設通常都是這樣子的，有點道理就行，剩下的就只能靠信仰了。

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

配置不同的學習率，LoRA還能再漲一點？-AI.x社區

文章小結

這篇文章中，我們介紹并推導了一個名為“LoRA+”的結果，它支持 LoRA 的兩個低秩矩陣 A,B 存在固有的不對稱性，不管將哪個矩陣全零初始化，都應該將 B 的學習率設置得大于 A，以達到更優的效果。

本文轉載自 ??PaperWeekly??，作者：蘇劍林

原文鏈接：??https://mp.weixin.qq.com/s/OsyG71leU9OdJu7y0lppVA??

標簽

已于2024-3-27 20:51:53修改

贊

收藏

回復

舉報

回復

相關推薦

不同數據集有不同的Scaling law？而你可用一個壓縮算法來預測它

輕薄滴假象 ? 2453瀏覽 ? 0回復
LLM微調技術LoRA圖解

51CTO內容精選 ? 3314瀏覽 ? 0回復
【創新一夏學習季】熱浪升溫，創新一夏，釋放開發潛能

AI.x社區官方賬號 ? 52.9w瀏覽 ? 39回復
無限生成視頻，還能規劃決策，擴散強制整合下一token預測與全序列擴散

輕薄滴假象 ? 2357瀏覽 ? 0回復
相同的 LLM 在「不同 GPU 上」會產生不同輸出？為什么？

Baihai_IDP ? 4201瀏覽 ? 3回復
三個臭皮匠與一個諸葛亮：覆蓋率與正確率的博弈

魯班模錘1 ? 2226瀏覽 ? 0回復
一文匯總：長周期時序預測有哪些優化點？

海因斯DK ? 4526瀏覽 ? 0回復
大模型榜單還能信嗎？一個假模型就能登頂排行榜

大語言模型論文跟蹤 ? 2859瀏覽 ? 0回復
你的LoRA需要更新了！科大訊飛等提出MiLoRA：新穎且高效的LoRA變體

angel ? 3015瀏覽 ? 0回復
優雅談大模型：一文讀懂LoRA/DoRA/MoRA

魯班模錘1 ? 4002瀏覽 ? 0回復
ChunkRAG：比CRAG提升10個點準確率

大語言模型論文跟蹤 ? 2437瀏覽 ? 0回復
LazyGrapgRAG：與GraphRAG完全不同的方法

PyTorch研習社 ? 2924瀏覽 ? 0回復
我們一起聊聊快速傅里葉變換暴力漲點！基于時頻特征融合的高創新時間序列分類模型

Tang_Lan ? 2639瀏覽 ? 0回復
基于深度強化學習的投資組合配置動態優化

靈度智能 ? 3863瀏覽 ? 0回復
不同神經網絡之間的區別，僅僅只是網絡結構的不同，明白了這個你才能知道應該怎么學習神經網絡

AI探索時代 ? 2080瀏覽 ? 0回復
高效學習神經網絡技術——以具體的任務類型為切入點

AI探索時代 ? 1545瀏覽 ? 0回復
【AIGC】AI、大數據、機器學習、深度學習、神經網絡之間的關系詳解：你必須知道的五個關鍵點！

唐克 ? 1574瀏覽 ? 0回復
超詳細的Dify知識庫配置全攻略

AI博物院 ? 1.6w瀏覽 ? 0回復
一文讀遍 LoRA 家族：大語言模型高效訓練的"秘密武器"

鴻煊的學習筆記 ? 2443瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

ICLR 2024 | 脈沖神經網絡的meta架構設計：啟發下一代神經形態芯片設計 2024-03-27 21:07:42發布
調研120+模型！騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述 2024-03-27 20:58:09發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好

下一篇： ?ICLR 2024 | UTS提出全新聯邦推薦算法：從全面個性化過渡到加性個性化

社區精華內容

目錄

主站蜘蛛池模板：狠狠综合网| 国产99久久精品一区二区永久免费 | 在线午夜 | 国产二区av | 毛片99| 亚洲国产精品一区二区三区 | 国产乱人伦精品一区二区 | 亚洲夜射| 午夜精品一区二区三区免费视频 | 一区二区三区四区日韩 | 777zyz色资源站在线观看 | 色狠狠桃花综合 | 久久精品这里精品 | 国产美女永久免费无遮挡 | 在线一区二区三区 | 天天艹日日干 | 国产精品99久久久久久久久久久久 | 做a视频| 综合久久色 | 青青久久 | 日韩欧美在线一区 | 久久精品这里精品 | 99在线资源 | 激情一区二区三区 | 中文字幕精品一区二区三区精品 | 精品三区 | 国产一区二区三区高清 | 中文字幕免费视频 | www国产成人免费观看视频,深夜成人网 | 精品一区二区三区在线观看国产 | 国内精品久久精品 | 毛片免费看的 | 国产精品久久av | 久久一区二区三区四区 | 日韩资源 | 日韩欧美网 | 国产精品夜色一区二区三区 | 九九热在线视频观看这里只有精品 | 激情一区二区三区 | 国产精品久久久久免费 | 一级日批片 |