僅微調0.02%參數，性能接近全量微調！上交大推出高效微調統一新范式

作者：量子位 2024-07-22 08:17:00

人工智能新聞

盡管近年來高效微調領域發展迅速，涌現了多種方法，但不同PEFT方法背后的數學基礎幾乎沒有得到深入研究。

Scaling Laws當道，但隨著大模型應用的發展，基礎模型不斷擴大的參數也成了令開發者們頭疼的問題。

為了減輕訓練負擔，Adapter、Prompt-Tuning以及LoRA等高效微調（Parameter Efficient Fine-Tuning, PEFT）算法越來越受到大家伙的青睞。

那么，問題來了——

盡管近年來高效微調領域發展迅速，涌現了多種方法，但不同PEFT方法背后的數學基礎幾乎沒有得到深入研究。

此外，不同PEFT方法之間的性能差異及其原因尚未系統地探討。這種理論深度的缺乏限制了研究者對這些方法潛在優勢和局限性的理解，阻礙了它們在實際應用中的優化和創新。

為了解決這一問題，來自上海交通大學的研究者們在對各種PEFT方法進行全面數學分析后，提出了一種新的框架——子空間微調，旨在將所有已知的PEFT方法統一在一個理論下，

具體來說，子空間微調方法主要集中于調整原始參數的子空間，涉及子空間的重構和擴展。研究者深入探討了不同方法如何操作子空間，并從分解理論的角度闡明了每種方法的數學原理。此外，研究者分析了為什么這些方法會導致性能差異，提供了理解不同PEFT策略內在動態的全面理論基礎。

他們基于此提出了兩種新的PEFT方法，新方法在僅微調0.02%參數的情況下，性能接近于全面微調。

研究者還介紹了一個有效的框架，在不引入額外訓練參數的情況下，提升了LoRA等方法的性能。通過在三種不同模型上測試超過十種方法，廣泛的實驗驗證了其理論的穩健性，同時展示了提出的方法和框架的有效性。

來看論文細節。

子空間微調理論

考慮任何給定主干網絡層的凍結權重矩陣，其中n≤m，并用權重矩陣的性能來量化模型的性能，值越高表示性能越好。

假設存在最優權重矩陣，且對所有成立。PEFT的目標公式化為：

其中衡量兩個矩陣之間的差異。函數被視為增量調優，表示對矩陣的每個元素的修改，但這種表征過于籠統。

從分解理論的角度看，調整矩陣涉及修改其對應的子空間，因此，所有PEFT方法可視為子空間微調。

如此，優化的目標是找到在基所生成的子空間內的最大投影，然后將與其對齊。

有兩種方法實現這一目標：通過調整來逼近，或操作的子空間以接近或包含。

研究者將函數分配給兩個主要角色：直接重構對應的子空間，以更好地對齊，或引入一個新子空間并與原始子空間結合。這些過程數學表示為：

其中，概括了的子空間重構過程，描述了子空間的聯合。研究者將這些操作分別稱為“子空間重構”和“子空間擴展”，并將現有方法分類為三類：

基于子空間重構的方法，將復雜空間分解為易理解的子空間，并調整這些派生子空間的基
基于子空間擴展的方法，引入一個新子空間，在新子空間和原始權重矩陣對應的子空間基所生成的空間內找到最優權重的最大投影；
基于子空間組合的方法，同時采用上述子空間調整。

子空間重構

基于先前概述的框架，子空間重構方法首先將的空間分割為可解釋的子空間，然后細化這些子空間以提高模型效率。許多PEFT策略集中于直接重構與原始權重矩陣相關的子空間，著名例子包括SAM-PARSER、Diff Pruning、(IA)3、BitFit、Prefix-tuning和Prompt-tuning等。