成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICML 2024 | 脫離LoRA架構,訓練參數大幅減少,新型傅立葉微調來了

發(fā)布于 2024-5-27 09:06
瀏覽
0收藏

本文介紹了香港科技大學(廣州)的一篇關于大模型高效微調(LLM PEFT Fine-tuning)的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」,本文被 ICML 2024 接收,代碼已開源。


ICML 2024 | 脫離LoRA架構,訓練參數大幅減少,新型傅立葉微調來了-AI.x社區(qū)


  • 論文地址:https://arxiv.org/abs/2405.03003
  • 項目地址:https://github.com/Chaos96/fourierft


背景


大型基座模型在自然語言處理(NLP)和計算機視覺(CV)領域都獲得了矚目的成就。微調(Finetuning)大型基座模型,使其更加適應特殊的下游任務,成為了一項熱門研究課題。然而,在模型越來越大,下游任務越來越多樣的今天,微調整個模型帶來的計算、存儲消耗已大到不再能被接受。LoRA 采用低秩擬合微調增量的方案,成功降低了大量的此類消耗,但每個適應器(adapter)的大小仍然是不可忽視的。這激發(fā)了本文的核心問題:相比 LoRA,如何進一步大幅減少可訓練參數?此外,一個有趣的附加問題是能否采用更少的參數量得到高秩增量矩陣。


方法


傅立葉基底在各類數據壓縮應用中廣泛使用,例如一維向量信號和二維圖像的壓縮。在這些應用中,稠密的空域信號通過傅立葉變換被轉化為稀疏的頻域信號?;谶@一原理,作者推測模型權重的增量也可以被視為一種空域信號,其對應的頻域信號可以通過稀疏表示來實現。


在這一假設的基礎上,作者提出了一種新的方法,用于在頻域中學習增量權重信號。具體來說,該方法通過隨機位置的稀疏頻域信號來表示空域權重增量。在加載預訓練模型時,首先隨機選擇 n 個點作為有效的頻域信號,然后將這些信號拼接成一個一維向量。在前向傳播過程中,這個一維向量被用來通過傅立葉變換恢復空域矩陣;在反向傳播過程中,由于傅里葉變換的可導性,可以直接對此可學習的向量進行更新。這種方法不僅有效減少了模型微調時所需的參數數量,同時保證了微調性能。通過這種方式,作者不僅實現了對大規(guī)?;A模型的高效微調,還展示了傅立葉變換在機器學習領域中的潛在應用價值。


ICML 2024 | 脫離LoRA架構,訓練參數大幅減少,新型傅立葉微調來了-AI.x社區(qū)


得益于傅立葉變換基底的高信息量,僅需很小的 n 值即可達到與 LoRA 相當甚至超過 LoRA 的表現。一般來說,傅立葉微調的可訓練參數僅為 LoRA 的千分之一到十分之一。


實驗


1. 自然語言理解


作者在自然語言理解的 GLUE 基準測試上對傅立葉微調方法進行了評估。基線對比方法包括全量微調(FF,Full Finetuning)、Bitfit、適應器微調(Adapter Tuning)、LoRA、DyLoRA 和 AdaLoRA。下表展示了各種方法在 GLUE 各個任務上的表現及其所需的訓練參數量。結果表明,傅立葉微調以最少的參數量達到了甚至超越了其他微調方法的性能。


ICML 2024 | 脫離LoRA架構,訓練參數大幅減少,新型傅立葉微調來了-AI.x社區(qū)


2. 自然語言指令微調


大模型的自然語言生成是目前模型微調的重要應用領域。作者在 LLaMA 系列模型、MT-Bench 任務和 Vicuna 任務上評估了傅立葉微調的性能。結果顯示,傅立葉微調以極低的訓練參數量達到了與 LoRA 相似的效果,進一步驗證了傅里葉微調方法的通用性和有效性。


ICML 2024 | 脫離LoRA架構,訓練參數大幅減少,新型傅立葉微調來了-AI.x社區(qū)


3. 圖像分類


作者在 Vision Transformer 上測試了傅里葉微調的性能,涵蓋了 8 個常見的圖像分類數據集。實驗結果表明,雖然在圖像分類任務中傅立葉微調相較LoRA的壓縮率提升并不比自然語言任務中顯著,但其仍然以遠小于 LoRA 的參數量超越了 LoRA 的效果。這進一步展示了傅立葉微調在不同應用領域中的有效性和優(yōu)勢。


ICML 2024 | 脫離LoRA架構,訓練參數大幅減少,新型傅立葉微調來了-AI.x社區(qū)


4. 突破低秩


在 GLUE 基準的 RTE 數據集上,FourierFT 可以實現明顯高于 LoRA (通常為 4 或 8) 的增量的秩。

ICML 2024 | 脫離LoRA架構,訓練參數大幅減少,新型傅立葉微調來了-AI.x社區(qū)

5.GPU 資源消耗


微調過程中,FourierFT 可以實現比 LoRA 更少的 GPU 消耗。下圖為采用單張 4090 顯卡在 RoBERTa-Large 模型上的巔峰內存消耗。


ICML 2024 | 脫離LoRA架構,訓練參數大幅減少,新型傅立葉微調來了-AI.x社區(qū)


結論


作者介紹了一種名為傅立葉微調的高效微調方法,通過利用傅里葉變換來減少大基礎模型微調時的可訓練參數數量。該方法通過學習少量的傅里葉譜系數來表示權重變化,顯著降低了存儲和計算需求。實驗結果顯示,傅立葉微調在自然語言理解、自然語言生成、指令調優(yōu)和圖像分類等任務上表現優(yōu)異,與現有的低秩適應方法(如 LoRA)相比,傅立葉微調在保持或超過 LoRA 性能的同時,所需的可訓練參數大幅減少。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/jaYeIfByJaWU5-4jBmnrzQ??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美日韩精品专区 | 亚洲精品免费在线观看 | 久久久久久久电影 | 黄色一级大片在线免费看产 | 日韩精品在线观看一区二区三区 | 精精国产xxxx视频在线 | 亚洲国产成人久久久 | 手机三级电影 | 人人九九精 | 中文字幕电影在线观看 | www.日日夜夜 | a在线视频 | 91成人在线视频 | 91在线一区| 亚洲欧美日韩电影 | 久久男女视频 | 97国产精品 | 小川阿佐美pgd-606在线 | 一区视频在线免费观看 | 黄网址在线观看 | 麻豆av在线 | 成人日韩av| 欧美久操网 | 色综合美女| 久久久999成人 | a级在线 | 精品国产视频 | 中文字幕国产 | 欧美在线一区二区三区 | 成年视频在线观看福利资源 | 日韩欧美国产精品一区 | av一级| 国产成人精品一区二区三区四区 | a免费在线 | 夜夜艹天天干 | 久久99精品久久久久久琪琪 | 国产成人精品一区二区三区视频 | 欧美日韩久久精品 | 国产精品高潮呻吟久久av野狼 | 亚洲精品一区二区三区中文字幕 | 国产成人一区二区三区电影 |