成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LoRA、完全微調到底有何不同?MIT 21頁論文講明白了

人工智能 新聞
本文旨在了解兩種微調大型語言模型方法之間的差異:完全微調和低秩自適應 (LoRA)。這兩種方法都用于將預訓練模型適應特定的下游任務,但它們卻有所不同。

微調(Fine-tuning)是將經過預訓練的大語言模型應用于下游任務的關鍵范例。最近,低秩自適應 (LoRA) 等方法已被證明可以在各種任務上達到完全微調模型的性能,同時可訓練參數的數量卻大大減少。

這就提出一個問題,即它們學到的解決方案真的等效嗎?

帶著這一疑問,來自 MIT 的研究者在論文《 LORA VS FULL FINE-TUNING: AN ILLUSION OF EQUIVALENCE 》中進行了深入探討。

圖片

論文地址:https://arxiv.org/pdf/2410.21228v1

作者通過分析預訓練模型權重矩陣的光譜特性來研究不同的微調方法如何改變模型。

研究發現,完全微調與 LoRA 產生的權重矩陣奇異值分解結構有顯著不同,并且經過微調后的模型在面對超出適應任務分布的測試時也顯示出不同的泛化行為。

特別是,LoRA 訓練的權重矩陣中出現了稱為「侵入維度(intruder dimensions)」的新的高秩奇異向量,而在完全微調中則不會出現這種情況。

這些結果表明,即使在微調分布上表現相同,但使用 LoRA 和完全微調更新的模型訪問參數空間的不同部分。

作者通過研究 LoRA 微調模型中出現侵入維度的原因、它們為什么不受歡迎,以及如何最小化這些效果來展開研究。

最后,作者給出了以下幾點觀察:

首先,LoRA 和完全微調在結構上產生不同的參數更新,這種差異由侵入維度的存在產生的。這些侵入維度是奇異向量,具有較大的奇異值,并且與預訓練權重矩陣中的奇異向量近似正交。相比之下,完全微調模型在光譜上與預訓練模型保持相似,不包含侵入維度。

其次, 從行為上看,與完全微調相比,具有侵入維度的 LoRA 微調模型會忘記更多的預訓練分布,并且表現出較差的穩健連續學習能力:具有侵入維度的 LoRA 微調模型在適應任務分布之外不如完全微調模型,盡管分布準確度相當。

最后, 即使在目標任務上低秩 LoRA 表現良好,但更高秩的參數化可能仍然是可取的。低秩 LoRA(r ≤ 8)適合下游任務分布,完全微調和高秩 LoRA(r = 64)讓模型泛化能力更強、自適應能力更加魯棒。然而,為了利用更高的秩,LoRA 更新模型必須是秩穩定的。

沃頓商學院副教授 Ethan Mollick 對此評論道:事實證明,使用 LoRA 定制通用 LLM(Apple 調優其設備內置模型的方式),對 LLM 的限制遠大于微調,因為它們失去了一些泛化能力。原因是 LoRA 增加了不祥的侵入維度。

圖片

LORA 和完全微調模型的差異

本文采用神經網絡參數的奇異值分解 SVD 來理解微調對預訓練權值的變化。

特別是,本文測量了用 LoRA 微調過的權重矩陣中的奇異向量或完全微調過的權重矩陣中奇異向量映射到預訓練權重中的奇異向量的程度,使用它們的余弦相似性。這些關系如圖 1 和圖 3 所示,顏色表示預訓練和微調奇異向量之間的余弦相似度。

圖片


圖片

圖 2 (b) 中觀察到,LoRA 和完全微調的奇異向量與預訓練奇異向量的相似度非常不同:與完全微調相比,使用 LoRA 微調的模型的奇異向量與預訓練奇異向量的平均余弦相似度似乎要低得多。

圖片

圖 2 (b) 中左下角有一個唯一的紅點,作者將這些新維度命名為侵入維度,其正式定義如下:

圖片

LoRA 微調模型包含高秩侵入維度,而完全微調的模型則不包含。為了量化特定權重矩陣的侵入維度集的大小,作者使用圖 4 所示的算法。

圖片

即使在 LoRA 微調模型學習效果不如完全微調的任務中,侵入維度也存在。

觀察圖 5b、5c 和 5d,我們可以清楚地看到,即使 LoRA 的 r=256,高秩奇異向量集中仍出現侵入維度。重要的是,當 r=2048 時沒有侵入維度,而是展示了與完全微調非常相似的曲線。這支持了早先的發現:隨著秩增加超過一個閾值,侵入維度會消失,LoRA 開始趨向于與完全微調相似。 

即使使用滿秩矩陣執行 LoRA,完全微調更新也比 LoRA 更新具有更高的有效秩。如圖 6 所示,可以觀察到完全微調解決方案的有效秩明顯高于通過 LoRA 學習到的解決方案的有效秩,即使 LoRA 具有更高的秩。

圖片

LORA 和完全微調之間的行為差異

在較低秩,LoRA 在持續學習過程中的適應能力較差,會忘記更多之前的任務。該研究在多個任務上按順序訓練 RoBERTa,并測量學習新任務時性能的變化程度。

該研究使用與之前相同的訓練方案、數據集,但在持續學習環境中使用以下數據集(按順序)進行微調:MNLI、QQP、SST-2、SIQA、Winogrande、FEVER。在序列中某個數據集上進行訓練后,將 LoRA 權重合并到模型中,并在下一個任務訓練之前重新初始化,以便不受之前任務的影響。

在對特定任務進行訓練后,該研究對所有任務進行測試,對于每個任務,在測試測試集之前分別重新訓練分類頭。這能夠檢查模型在這些任務上表現如何,而無需實際更改模型本身。

結果如圖 8 所示。雖然 LoRA 最初與完全微調的性能相當,但較小的 LoRA 秩在持續學習過程中始終表現出更大的性能下降。特別是,對于前三個訓練數據集,當 r = 1 時 LoRA 的性能下降到預訓練基線以下。隨著 LoRA 秩的提高,我們可以看到這種遺忘行為減少,并且更接近于完全微調,甚至在完成持續學習后在 MNLI 上的遺忘也更少。

整體情況是微妙的:雖然在某些情況下,LoRA 似乎忘記得較少,但對于某些任務(以及某些秩)事實上,LoRA 可能會忘記更多。

對于微調到等效測試精度的 LoRA 模型,可以看到一條 U 形曲線,該曲線標識了適合下游任務的最佳等級,同時最小程度的忘記了預訓練分布。

圖 9 報告了測量的偽損失分數??梢钥吹酵耆⒄{和 r = 768 時的 LoRA 之間呈現 U 形趨勢。

相對于完全微調,低秩(r = 1)和高秩(r = 768)都會導致預訓練分布的遺忘更大,而對于 r = 64,遺忘較少。也就是說:當 r = 1 時,使用 LoRA 微調的模型受到侵入維度的影響,并且似乎比沒有侵入維度的 r = 64 有更多的遺忘。然而,當 r = 768 時,使用 LoRA 微調的模型也表現出更糟糕的遺忘,這表明由于過度參數化,它們對適應任務過度擬合。當 r = 8 和 r = 64 時,遺忘量少于完全微調。

圖片

了解更多內容,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2016-05-06 15:59:41

2017-01-13 16:26:56

開發

2013-07-24 09:29:35

云就緒應用DevOps工具分布式網絡

2012-02-29 09:50:52

云計算虛擬化

2015-08-10 09:47:24

SDS存儲虛擬化

2012-12-20 09:58:07

2018-01-05 09:43:54

ROMRAM存儲

2015-12-07 10:33:36

UbuntuUnity 8 Windows Con

2018-11-26 09:10:04

WIFI無線局域網通信技術

2016-05-26 22:38:29

2018-06-26 14:29:44

LinuxUnix不同

2019-12-09 11:11:52

LoRaWi-Fi頻段

2018-08-28 16:10:36

2018-10-22 14:33:19

2022-03-27 20:32:28

Knative容器事件模型

2021-06-13 12:03:46

SaaS軟件即服務

2021-10-09 00:02:04

DevOps敏捷開發

2024-12-04 07:00:00

2019-06-25 09:49:01

5G承載網網絡

2017-02-14 14:00:05

5G4G好處
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 蜜臀久久99精品久久久久野外 | 午夜激情在线 | 精品久久久久国产 | 中文字幕一区二区三区不卡在线 | 一区二区在线免费播放 | 久久久久国产一区二区三区四区 | 欧美一区精品 | 精品久久香蕉国产线看观看亚洲 | 亚洲精品一区二区另类图片 | 黄色三级免费 | 日韩一区二 | 国产美女自拍视频 | 97超碰人人草| 国产欧美精品 | 精品久| 国产成人免费视频网站高清观看视频 | 久草免费视| 国产精品久久久久久久久图文区 | 天天拍天天操 | 久久99精品久久久久久噜噜 | 亚洲精品视频一区 | 久久一| 黄免费在线 | 国产精品69久久久久水密桃 | 日韩精品在线一区二区 | 亚洲av毛片成人精品 | 国产91精品网站 | 日韩三级一区 | 国产精品一区二区三区四区五区 | 久久精品亚洲 | 天天躁日日躁狠狠躁2018小说 | 久久久久久久久久久久91 | 九一视频在线播放 | 精品日韩一区二区 | 日韩欧美综合在线视频 | 性欧美hd| 亚洲国产成人av | 日韩一级黄色片 | 亚洲精品永久免费 | 日一区二区| 成人精品一区二区三区中文字幕 |