成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型面經:SFT和RL如何影響模型的泛化或記憶能力? 原創

發布于 2025-2-21 16:17
瀏覽
0收藏

?本篇分享SFT和RL在大模型訓練中起到的作用。

監督微調 (SFT) 和強化學習 (RL)都是目前大模型的基礎模型后訓練技術,像DeepSeek-R1、kimi等的訓練方法都將兩種技術應用到了極致。

如何去設計訓練步驟(先SFT再RL,還是直接RL)都需要對SFT和RL的能力有較深刻的了解。

本篇就以面經的形式,探討SFT、RL兩種不同的后訓練范式在基于文本規則和視覺變體的情況下對模型記憶與泛化能力的作用。

下面是一個快捷目錄。

一、SFT和RL分別對基座大模型的作用和影響是什么?

二、當模型包含視覺組件時,RL/SFT 如何影響其對不同視覺變體的泛化能力?

三、RL/SFT 如何影響視覺語言模型(VLM)中的視覺識別能力?

四、SFT 在 RL 訓練中扮演什么角色?

五、驗證迭代次數如何影響泛化能力

一、SFT和RL分別對基座大模型的作用和影響是什么?

1.  SFT

1)作用

通過在特定任務,通常為指令格式的數據集上訓練預訓練模型,使其適應下游任務。

2)影響

  • SFT 傾向于記憶訓練數據,在基于規則的文本和視覺環境中都難以泛化到分布外的數據。
  • SFT 對于有效的 RL 訓練仍然非常重要:SFT 可以穩定模型的輸出格式,使得后續的 RL 能夠實現性能的提升。

2. RL

1)作用

用于使模型與人類偏好對齊,或訓練基礎模型來解決特定任務。

2)影響

  • RL在基于規則的文本和視覺環境中均能展現出泛化能力。
  • RL在復雜的、多模態任務中泛化能力強,且可以提升模型潛在的視覺識別能力,有助于增強視覺領域泛化能力。

總結就是RL 泛化,SFT 記憶。

二、當模型包含視覺組件時,RL/SFT 如何影響其對不同視覺變體的泛化能力?

這塊其實主要看多模態大模型中,視覺變化對分布外(OOD)泛化的影響。

大模型面經:SFT和RL如何影響模型的泛化或記憶能力?-AI.x社區

從上圖看,強化學習(RL)在規則變化中展現出泛化能力,而監督微調(SFT)則呈現相反的趨勢。

3. RL/SFT 如何影響視覺語言模型(VLM)中的視覺識別能力?


大模型面經:SFT和RL如何影響模型的泛化或記憶能力?-AI.x社區

RL提高了視覺識別準確率,這也是RL提高了泛化能力的表現。

而SFT降低了視覺識別準確率和整體性能。

4. SFT 在 RL 訓練中扮演什么角色?

實驗流程是最好在 SFT 之后實例化 RL,特別是當基座模型都還沒有學會模板指令的時候。

大模型面經:SFT和RL如何影響模型的泛化或記憶能力?-AI.x社區

上圖是一個示例,如果沒有 SFT,基礎模型會表現出較差的指令遵循能力,傾向于生成冗長、離題且非結構化的響應。

這個問題使得檢索任務相關的信息和用于 RL 訓練的獎勵變得不可能。

當主干模型不遵循指令時,SFT(監督微調)對于 RL(強化學習)訓練是必要的。

5. 驗證迭代次數如何影響泛化能力


大模型面經:SFT和RL如何影響模型的泛化或記憶能力?-AI.x社區

驗證是多步驟訓練和評估流程中的一個關鍵組成部分,上圖表明隨著驗證步驟的增加,強化學習的泛化能力表現更佳。

上述研究均來自谷歌新作《SFT Memorizes, RL Generalizes: AComparative Study of Foundation Model Post-training》。

目前看起來這篇論文的研究結果跟DeepSeek以及o系列推理模型的訓練報告都非常契合,特別是DeepSeek-R1的“SFT->RL->增強SFT->增強RL”這種左腳踩右腳直接起飛的操作。

看來循環利用SFT和RL,并結合一些reward模型設計、數據采用策略可以提升大模型水平,正式開始模型訓練前需要儲備的各種經驗和trick也越來越多了,這塊后續有機會分享一下~

?

文轉載自公眾號瓦力算法學研所,作者:喜歡瓦力的卷卷

原文鏈接:??https://mp.weixin.qq.com/s/lwdx98rNrAZ48jHPCM8QtQ??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 一区二区三区网站 | 国产一区二区在线免费观看 | 亚洲一区久久久 | 999免费观看视频 | 亚洲美女视频 | 成在线人视频免费视频 | 国产高清视频在线观看 | 亚洲精品美女视频 | 一区二区三区国产 | 欧美www在线观看 | 天天干天天干 | 欧美精品一区二区三区在线播放 | av手机在线免费观看 | 欧美二区三区 | 亚洲综合大片69999 | 欧美一区二区三区在线免费观看 | 精品一级 | 91在线免费视频 | 成人av一区 | 亚洲性视频网站 | 区一区二在线观看 | 国产精品99久久久久久久久 | 久久亚洲综合 | 久久久久久女 | 欧美一级黄色片在线观看 | 国产黄色在线观看 | 一区二区三区在线电影 | 97成人在线 | 久久久成 | 日韩毛片在线免费观看 | 国产美女永久免费无遮挡 | 一本一道久久a久久精品蜜桃 | 色婷婷综合久久久中文字幕 | 国产成人jvid在线播放 | 亚洲一区二区av | 国产精品中文字幕在线 | 黄色精品 | 91极品视频 | 欧美日韩久久精品 | 亚洲福利网站 | 91网站在线播放 |