大模型面經:SFT和RL如何影響模型的泛化或記憶能力? 原創
?本篇分享SFT和RL在大模型訓練中起到的作用。
監督微調 (SFT) 和強化學習 (RL)都是目前大模型的基礎模型后訓練技術,像DeepSeek-R1、kimi等的訓練方法都將兩種技術應用到了極致。
如何去設計訓練步驟(先SFT再RL,還是直接RL)都需要對SFT和RL的能力有較深刻的了解。
本篇就以面經的形式,探討SFT、RL兩種不同的后訓練范式在基于文本規則和視覺變體的情況下對模型記憶與泛化能力的作用。
下面是一個快捷目錄。
一、SFT和RL分別對基座大模型的作用和影響是什么?
二、當模型包含視覺組件時,RL/SFT 如何影響其對不同視覺變體的泛化能力?
三、RL/SFT 如何影響視覺語言模型(VLM)中的視覺識別能力?
四、SFT 在 RL 訓練中扮演什么角色?
五、驗證迭代次數如何影響泛化能力
一、SFT和RL分別對基座大模型的作用和影響是什么?
1. SFT
1)作用
通過在特定任務,通常為指令格式的數據集上訓練預訓練模型,使其適應下游任務。
2)影響
- SFT 傾向于記憶訓練數據,在基于規則的文本和視覺環境中都難以泛化到分布外的數據。
- SFT 對于有效的 RL 訓練仍然非常重要:SFT 可以穩定模型的輸出格式,使得后續的 RL 能夠實現性能的提升。
2. RL
1)作用
用于使模型與人類偏好對齊,或訓練基礎模型來解決特定任務。
2)影響
- RL在基于規則的文本和視覺環境中均能展現出泛化能力。
- RL在復雜的、多模態任務中泛化能力強,且可以提升模型潛在的視覺識別能力,有助于增強視覺領域泛化能力。
總結就是RL 泛化,SFT 記憶。
二、當模型包含視覺組件時,RL/SFT 如何影響其對不同視覺變體的泛化能力?
這塊其實主要看多模態大模型中,視覺變化對分布外(OOD)泛化的影響。
從上圖看,強化學習(RL)在規則變化中展現出泛化能力,而監督微調(SFT)則呈現相反的趨勢。
3. RL/SFT 如何影響視覺語言模型(VLM)中的視覺識別能力?
RL提高了視覺識別準確率,這也是RL提高了泛化能力的表現。
而SFT降低了視覺識別準確率和整體性能。
4. SFT 在 RL 訓練中扮演什么角色?
實驗流程是最好在 SFT 之后實例化 RL,特別是當基座模型都還沒有學會模板指令的時候。
上圖是一個示例,如果沒有 SFT,基礎模型會表現出較差的指令遵循能力,傾向于生成冗長、離題且非結構化的響應。
這個問題使得檢索任務相關的信息和用于 RL 訓練的獎勵變得不可能。
當主干模型不遵循指令時,SFT(監督微調)對于 RL(強化學習)訓練是必要的。
5. 驗證迭代次數如何影響泛化能力
驗證是多步驟訓練和評估流程中的一個關鍵組成部分,上圖表明隨著驗證步驟的增加,強化學習的泛化能力表現更佳。
上述研究均來自谷歌新作《SFT Memorizes, RL Generalizes: AComparative Study of Foundation Model Post-training》。
目前看起來這篇論文的研究結果跟DeepSeek以及o系列推理模型的訓練報告都非常契合,特別是DeepSeek-R1的“SFT->RL->增強SFT->增強RL”這種左腳踩右腳直接起飛的操作。
看來循環利用SFT和RL,并結合一些reward模型設計、數據采用策略可以提升大模型水平,正式開始模型訓練前需要儲備的各種經驗和trick也越來越多了,這塊后續有機會分享一下~
?
文轉載自公眾號瓦力算法學研所,作者:喜歡瓦力的卷卷
