如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦原創

shizhi02

發布于 2025-5-27 06:48

瀏覽

0收藏

一種可以“自適應切換SFT與RL”的訓練框架分享。

大家應該都還記得，DeepSeek-R1的“SFT->RL->增強SFT->增強RL”這種左腳踩右腳直接起飛的操作，這說明監督微調（SFT）與強化學習（RL）交替訓練的訓練范式確實可以提高模型性能。

很多大佬也有自己做小規模實驗，在進行新的訓練范式探索：

預訓練后做兩次SFT接一次RL
預訓練后先RL再SFT
....

那么如何設計訓練框架能實現效果最優呢？

本篇分享一種可以“自適應切換SFT與RL”的訓練框架；這是念空科技聯合上海交通大學計算機學院投的新論文《Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs》。

如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦-AI.x社區

下面是一個快捷目錄。

1. 待解決的問題

2. 論文方法

3. 實驗結果

4. 其他可發散的點

一、待解決的問題

目前這種 “固定步驟的SFT和RL交替” 靜態混合訓練方法可能會帶來一些問題，比如，一種訓練范式直接切換到另一種時，可能會導致模型下降；不同階段任務著重訓練的知識不同，模型很可能災難性遺忘或者陷入局部最優等，最終影響訓練的連續性和穩定性。

這篇論文主要解決的就是如何設計訓練步驟的問題：如何設計一個最優的訓練框架來保證LLM的訓練穩定性。

二、論文方法

論文提出了一個名為SASR（Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning）的逐步自適應混合訓練框架，通過理論統一監督微調（SFT）和強化學習（RL），并動態平衡兩者在整個優化過程中的比例。

如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦-AI.x社區

主要包含兩個階段：

如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦-AI.x社區

第一階段：Warm-up Phase

首先使用小規模的（問題，鏈式思考）數據對進行SFT，以建立模型的基本推理能力。這些數據對包括輸入問題的標記序列和對應的鏈式思考推理路徑，幫助模型學習結構化的問題解決策略。

在第一階段中通過最小化負對數似然（NLL）損失來最大化真實序列的似然，從而更新模型參數。

loss長這樣，at是思維鏈中的token第t個token標記，st是步驟t中的上下文狀態，包括之前所有生成的標記。

如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦-AI.x社區

第二階段：Hybrid Training Phase

在Warm-up之后，逐步開始自適應混合訓練，把SFT和GRPO結合起來。

GRPO通過組間比較擴展策略優化，通過采樣當前和舊策略的輸出，并根據相對優勢將它們分為高優勢組和低優勢組，然后結合優勢最大化和KL正則化來更新策略。

另外此階段根據當前模型的訓練狀態來動態調整SFT和GRPO的比例。具體來說，通過比較當前梯度范數與Warm-up階段記錄的梯度范數，動態更新兩者的比例。

loss長這樣， πθold 是更新前的上一個策略，πref 表示參考策略（通常是初始 SFT 模型），ε控制策略更新的裁剪范圍，β調整 KL 正則化的強度。比率 πθ πθold 衡量每個step的新策略與舊策略的偏差程度。

如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦-AI.x社區

那么如何進行動態比例的分配呢？主要通過監測訓練過程中的梯度范數和模型策略相對于原始數據分布的KL散度，當模型與原始數據分布的偏差較大時，增加SFT的權重；當模型接近原始數據分布時，增加GRPO的權重。

最終整體損失函數 L（θ）如下

如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦-AI.x社區

這里引入了 I（t）作為狀態函數，它根據當前模型的訓練狀態 t 返回訓練范式決策變量 I（t）。

與傳統的 Hybrid方法在一個 epoch 內使用固定的訓練范式相比，SASR 采用更細粒度的訓練步驟 s 作為訓練單元，可實現更靈活的自適應調整。

下面這段偽代碼可以輔助大家很快理解他的思路。

如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦-AI.x社區

另外論文還進行了理論分析與實驗驗證，建立了SFT損失的梯度范數與KL散度之間的關系，證明了SASR在避免SFT引起的過擬合、緩解RL導致的模型坍塌以及克服靜態混合訓練的局限的優勢。

三、實驗結果

模型設計了三個實驗：

如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦-AI.x社區

GSM8K（小學水平數學算術）+ DeepSeek-R1-Distill-Qwen-1.5B模型：模型的準確率從63.8%提高到80.3%，接近GPT-4o的水平
KK（邏輯推理）+ Qwen2.5-1.5B-Instruct模型：平均準確率提升9%，超過了GPT-4o
MATH（數學競賽、公式）+ Qwen2.5-0.5B-Instruct模型：平均準確率提升了9%，超過了GPT-4o