成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!

發布于 2024-8-5 09:49
瀏覽
0收藏

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

文章鏈接:https://arxiv.org/pdf/2407.05000

亮點直擊

  • 提出了LoRA-GA,一種新穎的 LoRA 初始化方法,通過近似低秩矩陣的梯度與全權重矩陣的梯度來加速收斂
  • 確定了在非零初始化下的縮放因子,該因子確保適配器輸出的方差不受適配器的秩和輸入維度的影響。
  • 通過廣泛的實驗驗證了 LoRA-GA,證明了與原版 LoRA 相比,其性能顯著提升且收斂速度更快。具體而言,LoRA-GA 在 T5-Base 的 GLUE 子集上比 LoRA 提高了 5.69%,在 Llama 2-7B 上在 MT-bench、GSM8K 和 HumanEval 上分別提高了 0.34%、11.52% 和 5.05%,同時實現了高達 2-4 倍的收斂速度提升。


微調大規模預訓練模型在計算和內存成本方面是非常昂貴的。LoRA 作為最流行的參數高效微調 (PEFT) 方法之一,通過微調一個參數顯著更少的輔助低秩模型,提供了一種成本有效的替代方案。盡管 LoRA 顯著減少了每次迭代的計算和內存需求,但大量實證證據表明,與完全微調相比,它的收斂速度明顯較慢,最終導致總體計算增加且測試性能往往較差。本文對 LoRA 的初始化方法進行了深入研究,并表明細致的初始化(不改變架構和訓練算法)可以顯著提高效率和性能。本文引入了一種新穎的初始化方法,LoRA-GA(帶梯度近似的低秩適應),該方法在第一步將低秩矩陣乘積的梯度與完全微調的梯度對齊。廣泛實驗表明,LoRA-GA 達到了與完全微調相當的收斂速度(因此顯著快于原版 LoRA 及其他各種最新改進方法),同時達到相當或更好的性能。例如,在 T5-Base 的 GLUE 數據集子集上,LoRA-GA 平均比 LoRA 提高了 5.69%。在更大的模型如 Llama 2-7B 上,LoRA-GA 在 MT-bench、GSM8K 和 Human-eval 上分別表現出 0.34%、11.52% 和 5.05% 的性能提升。此外,與原版 LoRA 相比,收斂速度提高了 2-4 倍,驗證了其在加速收斂和提升模型性能方面的有效性。

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

方法

本節分析了 LoRA 的初始化并介紹了LoRA-GA。它包括兩個關鍵組件,分別檢查每個組件,并介紹它們在 LoRA-GA 中的整合。

  1. 近似全微調的梯度方向
  2. 確保初始化過程中的秩和Scale穩定性。

原版 LoRA 回顧

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區


梯度近似

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

Scale穩定性

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

LoRA-GA 初始化

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

實驗

本節中,評估了 LoRA-GA 在各種基準數據集上的性能。首先,使用 T5-Base 模型 在 GLUE 數據集 的一個子集上評估自然語言理解 (NLU) 能力。隨后,使用 Llama 2-7B 模型評估對話、數學推理和編碼能力。最后,進行消融研究以證明本文方法的有效性。


Baselines 將 LoRA-GA 與幾個基線進行比較,以展示其有效性:

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

自然語言理解實驗

模型與數據集 在 GLUE 基準的多個數據集上微調 T5-Base 模型,包括 MNLI、SST-2、CoLA、QNLI 和 MRPC。使用準確率作為主要指標,在開發集上評估性能。


實現細節 使用提示微調 (prompt tuning) 方法對 T5-Base 模型進行 GLUE 基準的微調。這涉及將標簽轉換為令牌(例如,“positive” 或 “negative”),并使用這些令牌的歸一化概率作為分類的預測標簽概率。每個實驗使用 3 個不同的隨機種子進行,并報告平均性能。


結果如下表 1 所示,LoRA-GA 一直優于原版 LoRA 和其他基線方法,取得了與完全微調相當的性能。特別是,LoRA-GA 在較小的數據集如 CoLA 和 MRPC 上表現突出,展示了其在有限訓練數據下更快收斂和有效利用的能力。

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

大語言模型實驗

模型與數據集 為了評估 LoRA-GA 的可擴展性,在三個任務上訓練了 Llama 2-7B 模型:對話、數學和代碼。

  1. 對話 (Chat):在 WizardLM的 52k 子集上訓練模型,過濾掉以“作為 AI”或“對不起”開頭的回應。在 MT-Bench 數據集上測試模型,該數據集由 80 個多輪問題組成,旨在評估大語言模型的多個方面。回答的質量由 GPT-4 進行評判,報告第一次回答的得分。
  2. 數學 (Math):在 MetaMathQA 的 100k 子集上訓練模型,這個數據集從其他數學指令調整數據集(如 GSM8K和 MATH)中引導而來,具有更高的復雜性和多樣性。選擇從 GSM8K 訓練集中引導的數據并應用過濾。準確率在 GSM8K 評估集上報告。
  3. 代碼 (Code):在 Code-Feedback的 100k 子集上訓練模型,這是一個高質量的代碼指令數據集,去除代碼塊后的解釋。模型在 HumanEval上進行測試,該數據集包含 180 個 Python 任務,報告 PASS@1 指標。


實現細節 本文的模型使用標準的監督學習進行語言建模訓練。輸入提示的損失設置為零。每個實驗使用 3 個不同的隨機種子進行,并報告這些運行的平均性能。


結果 結果如下表 2 所示,表明 LoRA-GA 優于或與其他方法相當,包括完全微調。具體而言,LoRA-GA 在 GSM8K 和 Human-eval 數據集上表現出色,突顯了其在處理具有更高復雜性和多樣性的任務方面的有效性。在 MT-Bench 上,LoRA-GA 也展現了競爭力的性能,盡管略微落后于 DoRA。然而,LoRA-GA 在參數較少且大約僅需 DoRA 70% 的訓練時間的情況下實現了這些性能。此外,如下圖 2(左)所示,本文的方法在收斂速率上顯著快于原版 LoRA,其收斂速率與完全微調相當。

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

影響秩

將 GSM8K 和 Human-eval 數據集上的性能差異(與完全微調相比)主要歸因于低秩近似所帶來的表示限制。為了解決這個問題,嘗試了更高的秩設置,具體為秩=32 和秩=128。發現表明,LoRA-GA 在不同秩設置下保持穩定,并且在某些情況下,甚至超越了完全微調的性能。如圖 2(左)所示,初始化方法下更高的秩也導致了與完全微調相似的損失曲線。

消融研究

研究者們進行了消融研究,以評估 LoRA-GA 中非零初始化、穩定輸出和梯度近似的貢獻,使用了五種不同的實驗設置。每個設置的詳細信息見下表 3。

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

消融結果

結果如下表 4 和表 6 所示。對于小型和大型模型,觀察到,僅將 LoRA 的初始化更改為高斯初始化并未帶來性能提升,甚至可能導致輕微的性能下降。然而,當與“+SO”(穩定輸出)或“+GA”(梯度近似)結合使用時,性能優于 LoRA。LoRA-GA,結合了這兩種技術,表現優于其他方法。如上圖 2(左)和下圖 4 所示,+SO 和 +GA 也提高了收斂速度,并且當兩者結合時,訓練損失曲線甚至更接近完全微調的曲線。這表明,輸出穩定性和梯度近似都對 LoRA 的改進有所貢獻,各自解決了模型性能的不同方面。

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

內存成本和運行時間

研究者們在單個 RTX 3090 24GB GPU、128 核 CPU 和 256GB RAM 上對 LoRA-GA 進行了基準測試。如下表 5 所示,本文的新方法的內存消耗不超過 LoRA 訓練時的內存消耗,表明沒有額外的內存需求。此外,與后續的微調過程相比,這項操作的時間成本相對微不足道。例如,在 Code-Feedback 任務中,訓練過程大約花費了 10 小時,而初始化僅需約 1 分鐘,這一時間差異可以忽略不計。

如何拯救LoRA初始化?LoRA-GA:性能顯著提升+收斂速度更快!-AI.x社區

結論

本文提出了一種用于LoRA的新初始化方案,旨在加速其收斂。通過研究 LoRA 的初始化方法和更新過程,開發了一種新初始化方法——LoRA-GA,該方法從第一步起就將低秩矩陣乘積的梯度近似為完全微調的梯度。


通過大量實驗,展示了 LoRA-GA 能夠實現與完全微調相當的收斂速度,同時提供類似或更優的性能。由于 LoRA-GA 僅修改了 LoRA 的初始化,而未改變架構或訓練算法,它提供了一種高效且易于實施的方法。此外,它還可以與其他 LoRA 變體結合使用。例如,ReLoRA 定期將適配器合并到凍結權重 W 中,這可能使 LoRA-GA 在更多步驟中展現其優勢。將此作為一個有趣的未來研究方向。


本文轉自 AI生成未來 ,作者:Shaowen Wang


原文鏈接:??https://mp.weixin.qq.com/s/JfgiVue2-oSZPQb3Qu72WQ??


已于2024-8-5 09:50:34修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 免费高潮视频95在线观看网站 | 在线视频一区二区三区 | 国产欧美一区二区三区久久 | 成人免费在线观看 | 久久黄色网 | 在线一区视频 | 久久尤物免费一区二区三区 | 国产精品一区二区不卡 | 99久久免费精品视频 | 精品日韩欧美一区二区 | 99热碰| 人人玩人人干 | 91麻豆精品国产91久久久久久久久 | 日韩av美女电影 | 日韩在线电影 | 欧美激情黄色 | 中文字幕一区二区视频 | 久久久性色精品国产免费观看 | 青青久久av北条麻妃海外网 | 婷婷国产一区二区三区 | 亚洲精品黄色 | 影音av| 成人国产免费视频 | 亚洲人在线 | 国产精品一区二区三区在线 | 亚洲人成人一区二区在线观看 | 国产成人免费视频 | 亚洲国产91 | 色毛片| 91九色视频 | 欧美日韩国产一区二区三区不卡 | 国产69精品久久久久777 | 天堂资源视频 | 国产免费一区二区三区最新6 | 95国产精品 | 免费1区2区3区| 日韩和的一区二区 | 国产精品一区一区 | 日本a∨精品中文字幕在线 亚洲91视频 | 国产精品免费一区二区三区四区 | cao视频|