成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦 原創

發布于 2025-5-27 06:48
瀏覽
0收藏

一種可以“自適應切換SFT與RL”的訓練框架分享。

大家應該都還記得,DeepSeek-R1的“SFT->RL->增強SFT->增強RL”這種左腳踩右腳直接起飛的操作,這說明監督微調(SFT)與強化學習(RL)交替訓練的訓練范式確實可以提高模型性能。

很多大佬也有自己做小規模實驗,在進行新的訓練范式探索:

  • 預訓練后做兩次SFT接一次RL
  • 預訓練后先RL再SFT
  • ....

那么如何設計訓練框架能實現效果最優呢?

本篇分享一種可以“自適應切換SFT與RL”的訓練框架;這是念空科技聯合上海交通大學計算機學院投的新論文 《Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs》。

如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦-AI.x社區


下面是一個快捷目錄。

1. 待解決的問題

2. 論文方法

3. 實驗結果

4. 其他可發散的點

一、待解決的問題

目前這種 “固定步驟的SFT和RL交替” 靜態混合訓練方法可能會帶來一些問題,比如,一種訓練范式直接切換到另一種時,可能會導致模型下降;不同階段任務著重訓練的知識不同,模型很可能災難性遺忘或者陷入局部最優等,最終影響訓練的連續性和穩定性。

這篇論文主要解決的就是如何設計訓練步驟的問題:如何設計一個最優的訓練框架來保證LLM的訓練穩定性。

二、論文方法

論文提出了一個名為SASR(Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning)的逐步自適應混合訓練框架,通過理論統一監督微調(SFT)和強化學習(RL),并動態平衡兩者在整個優化過程中的比例。

如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦-AI.x社區

主要包含兩個階段:


如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦-AI.x社區


第一階段:Warm-up Phase

首先使用小規模的(問題,鏈式思考)數據對進行SFT,以建立模型的基本推理能力。這些數據對包括輸入問題的標記序列和對應的鏈式思考推理路徑,幫助模型學習結構化的問題解決策略。

在第一階段中通過最小化負對數似然(NLL)損失來最大化真實序列的似然,從而更新模型參數。

loss長這樣,at是思維鏈中的token第t個token標記,st是步驟t中的上下文狀態,包括之前所有生成的標記。

如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦-AI.x社區

第二階段:Hybrid Training Phase

在Warm-up之后,逐步開始自適應混合訓練,把SFT和GRPO結合起來。

GRPO通過組間比較擴展策略優化,通過采樣當前和舊策略的輸出,并根據相對優勢將它們分為高優勢組和低優勢組,然后結合優勢最大化和KL正則化來更新策略。

另外此階段根據當前模型的訓練狀態來動態調整SFT和GRPO的比例。具體來說,通過比較當前梯度范數與Warm-up階段記錄的梯度范數,動態更新兩者的比例。

loss長這樣, πθold 是更新前的上一個策略,πref 表示參考策略(通常是初始 SFT 模型),ε控制策略更新的裁剪范圍,β調整 KL 正則化的強度。比率 πθ πθold 衡量每個step的新策略與舊策略的偏差程度。

如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦-AI.x社區

那么如何進行動態比例的分配呢?主要通過監測訓練過程中的梯度范數和模型策略相對于原始數據分布的KL散度,當模型與原始數據分布的偏差較大時,增加SFT的權重;當模型接近原始數據分布時,增加GRPO的權重。

最終整體損失函數 L(θ)如下

如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦-AI.x社區


這里引入了 I(t) 作為狀態函數,它根據當前模型的訓練狀態 t 返回訓練范式決策變量 I(t)。

與傳統的 Hybrid方法在一個 epoch 內使用固定的訓練范式相比,SASR 采用更細粒度的訓練步驟 s 作為訓練單元,可實現更靈活的自適應調整。

下面這段偽代碼可以輔助大家很快理解他的思路。

如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦-AI.x社區

另外論文還進行了理論分析與實驗驗證,建立了SFT損失的梯度范數與KL散度之間的關系,證明了SASR在避免SFT引起的過擬合、緩解RL導致的模型坍塌以及克服靜態混合訓練的局限的優勢。

三、實驗結果

模型設計了三個實驗:

如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦-AI.x社區


  • GSM8K(小學水平數學算術)+ DeepSeek-R1-Distill-Qwen-1.5B模型:模型的準確率從63.8%提高到80.3%,接近GPT-4o的水平
  • KK(邏輯推理)+ Qwen2.5-1.5B-Instruct模型:平均準確率提升9%,超過了GPT-4o
  • MATH(數學競賽、公式)+ Qwen2.5-0.5B-Instruct模型:平均準確率提升了9%,超過了GPT-4o

四、其他可發散的點

這篇論文感覺還是有很多可以繼續去發散的,比如跟除了GPRO的其他強化學習算法結合,推廣到多模態,改進動態調整策略等等。有想法的朋友們可以一起交流一下~

參考文獻

[1] ???https://arxiv.org/pdf/2505.13026??



本文轉載自??瓦力算法學研所??,作者:喜歡瓦力的卷卷

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-5-27 06:48:51修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲欧美激情精品一区二区 | 亚洲视频一区在线观看 | 激情久久久久 | 日韩网| 国产精品免费av | 亚洲精品乱码久久久久久蜜桃91 | 精品国产乱码久久久久久88av | 欧美大片黄 | 搞av.com| 欧美a在线看 | 亚洲中字在线 | 午夜av一区二区 | 一区在线视频 | 4h影视 | 久久视频免费看 | 操人网 | 日韩精品一区二区三区在线观看 | 欧美精品三区 | 91国内精品 | 一本色道精品久久一区二区三区 | 91亚洲国产精品 | 日本高清视频网站 | 午夜在线视频 | 奇米影视首页 | 国产精品九九 | 水蜜桃久久夜色精品一区 | 国产资源在线观看 | 午夜欧美| 久久精品国产a三级三级三级 | 国产激情一区二区三区 | 亚洲一二三区在线观看 | 亚洲影音先锋 | 一区二区三区亚洲精品国 | 久久久久久成人 | 久久久久综合 | 在线视频中文字幕 | 国产aⅴ | 成人免费一区二区三区视频网站 | 国产精品第2页 | a视频在线 | 99久久久无码国产精品 |