成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

參數少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微調框架FLoRA

人工智能 新聞
以視覺任務為例,FLoRA能在比LoRA少80%參數的情況下,取得與之一致的效果。

為了讓大模型在特定任務、場景下發(fā)揮更大作用,LoRA這樣能夠平衡性能和算力資源的方法正在受到研究者們的青睞。

然而,以LoRA為代表的眾多低秩微調方法(包括DoRA, MoRA, AdaLoRA等衍生方法)仍存在一個問題:

它們通常通常都更適合Linear層,Embedding層這類“直入直出”的低維度張量,忽略了對更高維度甚至N維張量的考慮。

盡管這些方法可以通過一定方式將高維度張量轉化為2D張量來微調參數,如LoRA將Conv2D卷積層參數所具有的四維張量圖片轉化為二維張量圖片。但其存在兩方面的挑戰(zhàn):

  1. 這種將卷積核圖片拆開分別reshape到圖片圖片維度上的方法雖然避免了參數的大規(guī)模增加,但是破壞了卷積核本身的結構特性。這對于密集預測類任務所需要的局部歸納偏置是一種負向影響。
  2. 隨著張量維度的升高,reshape為二維的方式會造成急劇的參數量增加,背離了參數高效微調方法的初衷。

圖片

為了解決以上兩個問題,來自上海交通大學、上海AI Lab的研究人員提出了FLoRA方法(flora意為植物群,具有廣泛的寓意)

以視覺任務為例,FLoRA能在比LoRA少80%參數的情況下,取得與之一致的效果。

圖片

作者認為,各維度參數的調整應該通過一個全局的低秩核心空間的子空間來進行,低秩核心空間本身則保留了原參數不同維度之間存在的拓撲關系以及交互性

具體來說,作者通過應用Tucker分解來實現對低秩核心空間的構建,完成了以統(tǒng)一視角來推導N維張量低秩微調方法的適配,使得低秩微調方法擴大到如Conv2D層, Embedding層,Linear層等各類常見層上。同時,作者發(fā)現通過調整不同的參數,FLoRA可以退化為多個不同的低秩微調方法。

適合N維張量的參數高效微調

當前LoRA類方法為什么會破壞結構

卷積具有局部學習的歸納偏置。若設置一個圖片圖片圖片的卷積層,其參數形狀應該為[10,1,3,3],后兩維[3,3]構成了一個具有正方形結構的濾波器。

在按照圖片方式進行拆分過程中,既有permute的操作,也有reshape的操作,此時原本相鄰的濾波器被打散。這增加了可學習參數來建模出原本的局部特性的難度。

為什么LoRA不把參數拆成圖片來避免破壞結構?

在卷積結構中,一層網絡的參數圖片具有四個維度。

若按照圖片方式將參數拆成對應LoRA中AB的形式,則應該為圖片以及圖片

若按照圖片方式將參數拆成對應LoRA中AB的形式,則應該為圖片圖片

前者參數量為圖片,后者參數量為圖片

圖片時,分別為圖片圖片,一般而言,圖片>>圖片圖片方式會引入超大量的參數。因此轉而使用后者是一種以結構完整性換參數量的折中。

Tucker分解實現N維張量的低秩微調

Tucker分解是一種矩陣分解方法。對于具有N維的張量圖片, Tucker分解可以將其表示為一個核張量(Core Tensor)與沿著每一維度得到的矩陣圖片的乘積,其中Jn為第n維的通道大小。可以寫為:

圖片

其中圖片為模乘,表示一個張量(tensor)和一個矩陣(matrix)的乘法。

在Tucker分解中,核張量代表了不同維度之間的交互,而矩陣圖片則類似于每一個維度的主成分。通過這種形式,依靠核張量去學習不同維度之間的關系,依靠各維度矩陣學習本維度的內在特性,可以在保留N維張量拓撲結構的基礎上更好的優(yōu)化學習過程。

基于以上對Tucker分解的介紹,作者便將這種分解方式引入到參數高效微調中。具體來說,相比于LoRA中

圖片

其中圖片

FLoRA將N維張量分解統(tǒng)一設計為:

圖片

其中圖片為核張量,s為可調的scale系數,圖片為第n維的低秩矩陣,這里的Jn就是低秩r,且Jn<<In

對應于具有4個維度的卷積核參數圖片,則有

圖片

其中圖片圖片圖片以及圖片

r3和r4一般取相同的比卷積核大小k更小的值。根據上式,作者認為在卷積參數微調中具有一個卷積核心(Convolution Core),而FLoRA負責找到了這個核心的值并且配置了不同維度的權重值。與LoRA相比,在相近參數量上FLoRA允許設置更大的秩r,在同等秩的情況下,FLoRA大大降低了參數量。

舉例:若k=3,r3=r4=2, r1=r2=r=32, din=256, dout=512,

FLoRA的參數量為:

圖片

LoRA的參數量為:圖片

若FLoRA達到與LoRA相同的參數量,則r=70。

對應于具有2個維度的線性層參數圖片,則有

圖片

其中圖片圖片圖片。與4維的卷積核參數類比,這里的G便是對應的線性核心。

參考上邊的例子,同等r的情況下,FLoRA參數量為圖片,相比LoRA僅多出圖片% 的參數,對應該例子為4.17%。

在實際應用中,由于核張量的存在,等效的r1r2可以小于LoRA的r,從而實現同等規(guī)模甚至更少的參數量情況下,效果與LoRA一致甚至更好。

在LoRA中,s的取值由r和另一超參r_alpha決定,通常固定s=2。

在FLoRA中,該值以超參形式設定為一個固定值,不需要引入r_alpha,本質上s代替了r_alpha,因此相比LoRA沒有引入額外數量的超參。

對于s的選取,作者在實驗過程中發(fā)現對于不同大小規(guī)模的參數量以及不同類型的模型(即不同維度的參數空間),取值不一,但呈現出了一定的特點。對于卷積模型來說,s的取值在一定范圍內越大越好,在以ConvNext-L為backbone來微調時設置為4;對于線性模型來說,s的取值盡量較小,在微調InternViT-6B和LLaVA-7B時,s的值設置為0.04。

實驗

作者分別在視覺任務,語言任務,多模態(tài)任務上做了實驗,涵蓋了2種類型模型(Conv與ViT),4種參數規(guī)模(DeBERTav3-base: 184M,ConvNeXt-large: 196M, InternViT-6B, LLava-v1.5-7B),涉及18個數據集。

實驗結果表明,FLoRA在各種視覺任務上都取得了明顯的性能提升,甚至在比LoRA少80%參數的情況下,依然可以取得和LoRA一致的效果。實驗結果說明了通過引入核張量來建模維度關系,從而避免破壞拓撲結構的方式是利于多維度參數微調的,并且可以取得很好的效果。

圖片

在語言任務上作者也相應的做了一些實驗,并且在所有的可調參數規(guī)模下都實現了明顯的性能增長。

圖片

在多模態(tài)任務上作者也基于llava-v1.5-7b做了visual instruct tuning的測評。同樣顯示出了比LoRA更好的效果。

圖片

作者也做了擴散模型的微調,并給出了生成結果的對比。

圖片

對于FLoRA和LoRA相比在訓練時間與顯存開銷上的區(qū)別,作者也給出了數據說明。

圖片

更多內容可以查看論文原文,作者反饋:核心實現代碼以及不同任務完整代碼也即將于近期陸續(xù)開源。

論文地址:

https://arxiv.org/abs/2405.14739

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-09-18 11:50:00

框架訓練AI

2024-07-22 08:17:00

模型性能

2022-09-30 15:15:41

模型框架

2025-06-24 08:50:00

模型數據AI

2024-06-06 08:25:30

2025-03-06 09:25:00

DeepSeek模型訓練

2023-10-07 10:41:54

語言模型微調BitFit

2024-12-16 07:05:00

大模型LLM指紋識別

2025-05-08 05:00:00

2023-09-25 12:17:36

AI模型

2011-05-31 21:36:26

2024-09-03 17:43:54

2024-04-01 07:25:00

AI框架

2023-11-13 19:35:12

訓練數據

2011-07-20 14:40:03

2025-04-08 09:42:00

2025-02-07 09:00:00

2025-01-08 13:08:55

2023-09-20 16:55:15

華為AI 計算集群

2024-02-02 21:42:41

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品1| 久久涩涩| 中文字幕在线观看av | 日本一区二区三区在线观看 | 日本久久黄色 | 久久精品91 | 一区二区三区亚洲视频 | 中文字幕在线免费观看 | 九九爱这里只有精品 | 91亚洲国产成人精品一区二三 | 国产激情一区二区三区 | 欧美黄色片在线观看 | 365夜爽爽欧美性午夜免费视频 | 成年人网站免费视频 | 亚洲人成人一区二区在线观看 | 国产一区二区观看 | 成年人网站免费视频 | 日韩有码一区 | 久久久久久久久淑女av国产精品 | 亚洲精品一区二区三区中文字幕 | 午夜电影一区二区 | 一区二区三区视频在线 | 久久国产成人 | 精品国产综合 | 欧洲一级毛片 | 亚洲一区精品在线 | 欧美五月婷婷 | 九九视频在线观看 | 日韩一二三区 | 麻豆精品久久久 | 免费h在线 | 久久久新视频 | 人和拘一级毛片c | 日本一区二区三区在线观看 | 999精品在线 | 国产成人免费视频网站高清观看视频 | 精品国产一区二区国模嫣然 | 久久久久国产 | 天天躁日日躁狠狠的躁天龙影院 | 亚洲欧美日韩中文字幕一区二区三区 | 在线国产精品一区 |