一招緩解LLM偏科!調整訓練集組成,“秘方”在此 | 上交大&上海AI Lab等
大幅緩解LLM偏科,只需調整SFT訓練集的組成。
本來不擅長coding的Llama 3.1-8B,代碼能力明顯提升。
上海交大&上海AI Lab聯合團隊提出創新方法IDEAL,可顯著提升LLM在多種不同領域上的綜合性能。
此外,研究還有一些重要發現,比如:
- SFT階段訓練數據的數量不是關鍵
- 配比不合適,訓練數據越多,反而會加劇模型“偏科”
具體來看——
SFT后LLM部分能力甚至退化
大型語言模型 (LLM) 憑借其強大的理解和邏輯推理能力,在多個領域展現了驚人的能力。除了模型參數量的增大,高質量的數據是公認的LLM性能提升最關鍵的影響因素。
當對模型進行監督微調(SFT)時,研究人員發現LLM在多任務場景下常出現“偏科”現象——部分能力突出而部分能力并未漲進,甚至退化。這種不平衡的現象導致大模型在不同的領域上能力不同,進而影響用戶體驗。
上海交大和上海AI Lab的研究者迅速將目光聚焦到SFT訓練的訓練集上,是否可以通過調整訓練集的組成來緩解LLM偏科的情況?直覺上來看,直接將LLM的弱勢科目的訓練數據增加一倍,就可以讓最后的結果發生變化。但是,由于訓練數據之間的耦合關系,研究者通過建模量化每個領域數據對于最終結果的影響情況,科學地調整訓練數據集的組成,最終提高了模型的。
IDEAL方法
問題建模:
首先按照不同的領域準備高質量的訓練數據集:,
并給出對應的用于驗證的驗證集:。通過在訓練集上面訓練模型θ,獲得訓練集上的最優參數:θ*。
論文希望在驗證集上的損失達到最小。為了能夠方便的調整訓練集,論文引入了對應的變量β,并將這個優化問題顯示地建模了出來:
論文從理論角度給出了各個領域數據調整對于最優模型在驗證集上影響的大?。ň唧w可見原論文中的Lemma 1):
高效計算:
由于式子中存在參數二階矩陣的逆的操作,計算的資源消耗非常大。為了能夠擴展到LLM的參數量級,論文采用了K-FAC的理論來近似簡化計算Hessian矩陣的逆。通過挑選模型參數中的“重要”層的數值來近似刻畫各個領域數據對于最后模型性能的影響,并最后通過合理的放縮超參數m來控制最后的調整比例大?。?/span>
整體的算法流程圖如下所示:
實驗結果
論文主要以Llama3.1 8B模型作為Base model,測試了IDEAL對四個典型領域上多任務訓練的模型的提升效果。可以看到,無論是epoch1還是epoch3,IDEAL都能夠在2輪迭代后將原先不擅長的Coding能力顯著提升。
除此之外,論文還有其他的發現:
- 一般隨機初始的訓練集分布都是有進一步優化的空間:文章中,無論在在四個領域四個benchmark,還是5個領域8個benchmark上,無論初始分布是各個領域是數量相等的或者不等的分布上,IDEAL都實現了對于平均結果的提升。
- SFT階段訓練數據的數量不是關鍵:因為以往的re-weighting工作會控制整體的訓練數據量,研究團隊將對比的方法DoReMi和DOGE,都提升了整體的數據量到IDEAL對應的數量,但實驗結果證明,提升數據量而沒有改變數據混合分布,對于模型的提升效果甚微。
- 如果數據分布配比不合適,更多數據量,訓練地更久,反而會導致更加不均衡的模型效果。團隊發現相比訓練epoch1,訓練同樣的數據3epoch會導致數據之間的負面沖突被放大,導致最終的模型性能更加不均衡。
- 論文還指導了超參數m的選?。簃的取值最好選在0.15。因為理論要求,應該在原始分布的周圍優化數據配比,所以m應該選取不大的步長。而選取過小的步長,對于模型最終的效果影響也會較小。綜上所述,論文在m=0.1,0.15,和0.3三個設定的實驗中更加推薦0.15的取值。
應用價值
IDEAL解決了得到各個領域高質量訓練數據之后如何配比組合成為統一的訓練集的問題。通過迭代優化的方式優化訓練集的各個領域數據數量。避免了之前研究者需要按經驗,人工調整各個數據集配比的dirty work,具有較大的實用價值。
論文信息:
標題:IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment
作者:上海交通大學、上海AI實驗室、清華大學等
GitHub代碼庫:https://anonymous.4open.science/r/IDEAL-678C520/README.md
arxiv:https://arxiv.org/abs/2505.12762