LLM微調(diào)技術(shù)LoRA圖解原創(chuàng)

發(fā)布于 2024-6-6 08:21

瀏覽

1收藏

本文將按照論文《LoRA：大型語言模型的低階適配》中提出的方法詳細介紹如何使用LoRA技術(shù)對大型語言模型進行微調(diào)。

簡介

當涉及到大型語言模型時，微調(diào)可能是人們討論最多的技術(shù)方面的內(nèi)容之一。大多數(shù)人都知道，訓練這些模型是非常昂貴的，需要大量的資本投資;所以，看到我們可以通過采用現(xiàn)有的模型并用自己的數(shù)據(jù)對模型進行微調(diào)，從而創(chuàng)建一個具有自己特色的模型，這的確是一件令人興奮的事情。

當前，已經(jīng)存在多種方法可以對模型進行微調(diào)，但目前最流行的方法之一是論文《LoRA：大型語言模型的低階適配》(https://arxiv.org/pdf/2106.09685)中討論的LoRA方法(Low Rank Adaptation，即低階適配，縮寫為“LoRA”)。

在我們深入研究LoRA背后的機制之前，我們需要先來了解一些矩陣有關(guān)的背景知識和微調(diào)機器學習模型的一些基礎(chǔ)內(nèi)容。

矩陣相關(guān)背景術(shù)語

實際上，所有的機器學習模型都將其權(quán)重存儲為矩陣形式。因此，了解一些線性代數(shù)知識有助于獲得對正在發(fā)生的事情的直覺認識。

從一些最基礎(chǔ)的內(nèi)容開始，我們可以創(chuàng)建一個如下圖所示的由行和列組成的矩陣：

LLM微調(diào)技術(shù)LoRA圖解-AI.x社區(qū)

當然，行、列或兩者都很多時，矩陣所占用的數(shù)據(jù)就越多。有時，當行和/或列之間存在某種數(shù)學關(guān)系時，我們就可以采取一些措施，使得存儲這種矩陣所需的空間進一步減少。類比一下的話，這類似于一個函數(shù)所占用的空間比它所代表的所有坐標點要小得多。

請參閱下面的示例，了解可以縮減為僅剩下1行的矩陣。這表明原始的3x3矩陣的秩為1。

LLM微調(diào)技術(shù)LoRA圖解-AI.x社區(qū)

因此，當一個矩陣可以像上面那樣被約簡時，我們說它的秩比不能這樣被約簡的矩陣的秩低。任何秩較低的矩陣都可以擴展回較大的矩陣，如下所示：

LLM微調(diào)技術(shù)LoRA圖解-AI.x社區(qū)

微調(diào)知識

要對模型進行微調(diào)，您需要一個高質(zhì)量的數(shù)據(jù)集。例如，如果你想微調(diào)汽車聊天模型，那么你需要一個包含數(shù)千個關(guān)于汽車的高質(zhì)量對話的數(shù)據(jù)集。

創(chuàng)建數(shù)據(jù)后，您將獲取這些數(shù)據(jù)并在模型中運行它們，以獲得每個數(shù)據(jù)的輸出。然后，將此輸出與數(shù)據(jù)集中的預期輸出進行比較，并計算兩者之間的差異。通常，使用類似交叉熵的函數(shù)(突出顯示2個概率分布之間的差異)來量化這種差異。

LLM微調(diào)技術(shù)LoRA圖解-AI.x社區(qū)

現(xiàn)在，我們接受損失值并使用它來修改模型權(quán)重。我們可以把這一過程看作是創(chuàng)建一個新的ΔW矩陣，其中包含我們想讓Wo矩陣知道的所有變化。計算出權(quán)重后，我們就可以決定如何改變這些權(quán)重值，以便其在我們的損失函數(shù)中給出一個更好的結(jié)果。為此，我們想辦法通過反向傳播來調(diào)整權(quán)重。

如果有足夠興趣的話，我還會單獨寫一篇關(guān)于反向傳播背后的數(shù)學邏輯的博客文章，因為這是很有趣的事情。目前，我們可以簡單地說，計算權(quán)重變化所需的計算成本非常高昂。

LoRA方法

總體來看，LoRA技術(shù)始終圍繞著一個關(guān)鍵的假設(shè)：雖然機器學習模型的權(quán)重矩陣具有較高的秩，但在微調(diào)過程中創(chuàng)建的權(quán)重更新矩陣具有較低的內(nèi)在秩。換言之，我們可以用一個比從頭開始訓練所需的矩陣小得多的矩陣來微調(diào)模型，而不會看到任何重大的性能損失。

因此，我們可以這樣設(shè)置我們的基本方程：

LLM微調(diào)技術(shù)LoRA圖解-AI.x社區(qū)

原論文中的方程3

讓我們來分析一下上面方程中的每一個變量的含義。其中，h代表微調(diào)后的權(quán)重值。Wo和ΔW與以前的含義相同，但在此，作者創(chuàng)造了一種定義ΔW的新方法。為了找到ΔW，作者構(gòu)造了兩個矩陣：A和B。其中，A是一個與Wo具有相同列維度并開始填充隨機噪聲的矩陣，而B具有與Wo相同的行維度并初始化為所有元素均為0的矩陣。這些維度是很重要的，因為當我們將A和B相乘時，它們將創(chuàng)建一個維度與ΔW完全相同的矩陣。

LLM微調(diào)技術(shù)LoRA圖解-AI.x社區(qū)

原論文中的圖1

在微調(diào)過程中，矩陣A和B的秩是一個超參數(shù)集。這意味著，我們可以選擇秩1來加快最大訓練量（同時仍更改為Wo），或者增加秩大小，從而以更大的成本提高性能。

使用LoRA進行微調(diào)

現(xiàn)在，回到我們以前的圖像，讓我們看看當使用LoRA技術(shù)時有關(guān)計算是如何發(fā)生變化的。

請記住，微調(diào)意味著創(chuàng)建ΔW矩陣，該矩陣包含我們對Wo矩陣的所有更改。作為一個簡單示例，假設(shè)A和B的秩均為1，維度為3。因此，我們得到了如下圖片：

LLM微調(diào)技術(shù)LoRA圖解-AI.x社區(qū)

因為矩陣中的每個單元都包含一個可訓練權(quán)重；所以，我們立即就可以明白為什么LoRA的功能如此強大：我們已經(jīng)從根本上減少了需要計算的可訓練權(quán)重的數(shù)量。因此，雖然尋找單個可訓練權(quán)重的計算通常保持不變，但是因為我們計算的次數(shù)要少得多，所以我們節(jié)省了大量的計算和時間。

結(jié)論

當前，LoRA技術(shù)已經(jīng)成為微調(diào)大數(shù)據(jù)模型的行業(yè)內(nèi)的標準方法。即使是擁有巨大資源的公司也認為LoRA是改進其模型的一種具有成本效益的方法。

展望未來，一個有趣的研究領(lǐng)域就是如何找到這些LoRA矩陣的最優(yōu)秩。現(xiàn)在的計算方案中，它們作為超參數(shù)的方式使用，但是如果存在一個理想的超參數(shù)的話，就可以節(jié)省更多的時間。此外，由于LoRA仍然需要使用高質(zhì)量的數(shù)據(jù)；因此，另一個頗有前途的研究領(lǐng)域就是尋找LoRA方法的最佳數(shù)據(jù)組合。

雖然流入人工智能的資金是巨大的，但是，高支出并不總是意味著總會有高回報。一般來說，公司的錢花得越長遠，就越能為客戶創(chuàng)造更好的產(chǎn)品。因此，作為一種極具成本效益的改進產(chǎn)品的方式，LoRA理所當然地成為了機器學習領(lǐng)域的固定投資的一部分。

因此，現(xiàn)在正是一個激動人心的發(fā)展時期……