成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<center id="wes2m"></center>

<abbr id="wes2m"><tbody id="wes2m"></tbody></abbr>

<center id="wes2m"></center>

<input id="wes2m"></input>

<pre id="wes2m"></pre>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

大模型面經：SFT和RL如何影響模型的泛化或記憶能力？原創

發布于 2025-2-21 16:17

瀏覽

0收藏

?本篇分享SFT和RL在大模型訓練中起到的作用。

監督微調 (SFT) 和強化學習 (RL)都是目前大模型的基礎模型后訓練技術，像DeepSeek-R1、kimi等的訓練方法都將兩種技術應用到了極致。

如何去設計訓練步驟（先SFT再RL，還是直接RL）都需要對SFT和RL的能力有較深刻的了解。

本篇就以面經的形式，探討SFT、RL兩種不同的后訓練范式在基于文本規則和視覺變體的情況下對模型記憶與泛化能力的作用。

下面是一個快捷目錄。

一、SFT和RL分別對基座大模型的作用和影響是什么？

二、當模型包含視覺組件時，RL/SFT 如何影響其對不同視覺變體的泛化能力？

三、RL/SFT 如何影響視覺語言模型（VLM）中的視覺識別能力？

四、SFT 在 RL 訓練中扮演什么角色？

五、驗證迭代次數如何影響泛化能力

一、SFT和RL分別對基座大模型的作用和影響是什么？

1. SFT

1）作用

通過在特定任務，通常為指令格式的數據集上訓練預訓練模型，使其適應下游任務。

2）影響

SFT 傾向于記憶訓練數據，在基于規則的文本和視覺環境中都難以泛化到分布外的數據。
SFT 對于有效的 RL 訓練仍然非常重要：SFT 可以穩定模型的輸出格式，使得后續的 RL 能夠實現性能的提升。

2. RL

1）作用

用于使模型與人類偏好對齊，或訓練基礎模型來解決特定任務。

2）影響

RL在基于規則的文本和視覺環境中均能展現出泛化能力。
RL在復雜的、多模態任務中泛化能力強，且可以提升模型潛在的視覺識別能力，有助于增強視覺領域泛化能力。

總結就是RL 泛化，SFT 記憶。

二、當模型包含視覺組件時，RL/SFT 如何影響其對不同視覺變體的泛化能力？

這塊其實主要看多模態大模型中，視覺變化對分布外（OOD）泛化的影響。

大模型面經：SFT和RL如何影響模型的泛化或記憶能力？-AI.x社區

從上圖看，強化學習（RL）在規則變化中展現出泛化能力，而監督微調（SFT）則呈現相反的趨勢。

3. RL/SFT 如何影響視覺語言模型（VLM）中的視覺識別能力？

大模型面經：SFT和RL如何影響模型的泛化或記憶能力？-AI.x社區

RL提高了視覺識別準確率，這也是RL提高了泛化能力的表現。

而SFT降低了視覺識別準確率和整體性能。

4. SFT 在 RL 訓練中扮演什么角色？

實驗流程是最好在 SFT 之后實例化 RL，特別是當基座模型都還沒有學會模板指令的時候。

大模型面經：SFT和RL如何影響模型的泛化或記憶能力？-AI.x社區

上圖是一個示例，如果沒有 SFT，基礎模型會表現出較差的指令遵循能力，傾向于生成冗長、離題且非結構化的響應。

這個問題使得檢索任務相關的信息和用于 RL 訓練的獎勵變得不可能。

當主干模型不遵循指令時，SFT（監督微調）對于 RL（強化學習）訓練是必要的。

5. 驗證迭代次數如何影響泛化能力

大模型面經：SFT和RL如何影響模型的泛化或記憶能力？-AI.x社區

驗證是多步驟訓練和評估流程中的一個關鍵組成部分，上圖表明隨著驗證步驟的增加，強化學習的泛化能力表現更佳。

上述研究均來自谷歌新作《SFT Memorizes, RL Generalizes: AComparative Study of Foundation Model Post-training》。

目前看起來這篇論文的研究結果跟DeepSeek以及o系列推理模型的訓練報告都非常契合，特別是DeepSeek-R1的“SFT->RL->增強SFT->增強RL”這種左腳踩右腳直接起飛的操作。

看來循環利用SFT和RL，并結合一些reward模型設計、數據采用策略可以提升大模型水平，正式開始模型訓練前需要儲備的各種經驗和trick也越來越多了，這塊后續有機會分享一下~

?

文轉載自公眾號瓦力算法學研所，作者：喜歡瓦力的卷卷

原文鏈接：??https://mp.weixin.qq.com/s/lwdx98rNrAZ48jHPCM8QtQ??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

CVPR 2024 | 分割一切模型SAM泛化能力差？域適應策略給解決了

輕薄滴假象 ? 3486瀏覽 ? 0回復
港大開源圖基礎大模型OpenGraph: 強泛化能力，前向傳播預測全新數據

Crystalcxt ? 2826瀏覽 ? 0回復
訓練大模型自動在RAG和記憶間選擇

51CTO內容精選 ? 3265瀏覽 ? 0回復
大模型解決實際問題的能力，大模型的產品化過程

AI探索時代 ? 2863瀏覽 ? 0回復
大模型面經——以醫療領域為例，整理RAG基礎與實際應用中的痛點

shizhi02 ? 3116瀏覽 ? 0回復
大模型面經——LoRA最全總結

shizhi02 ? 2944瀏覽 ? 0回復
大模型面經——Langchain總結

shizhi02 ? 2651瀏覽 ? 0回復
大模型面經——MoE混合專家模型總結

shizhi02 ? 3026瀏覽 ? 0回復
大模型面經—RAG工程實踐經驗總結

shizhi02 ? 2741瀏覽 ? 0回復
大模型面經—分布式訓練指南

shizhi02 ? 2540瀏覽 ? 0回復
大模型SFT暗藏大陷阱？梯度累計bug造成大范圍影響

kede96 ? 2721瀏覽 ? 0回復
大模型面經—如何評估顯卡利用率及顯卡運用優化方法

shizhi02 ? 3026瀏覽 ? 0回復
清華團隊提出精確學習新方法，提升AI泛化能力

AI論文解讀 ? 2929瀏覽 ? 0回復
大模型面經：目前不同階段的scaling law之間的區別和聯系是什么？

shizhi02 ? 2896瀏覽 ? 0回復
Transformer架構的情境學習泛化能力

頓數AI ? 1462瀏覽 ? 0回復
大模型的能力和大模型應用

AI探索時代 ? 1442瀏覽 ? 0回復
大模型面經：RAG與Long context“相愛相殺”背景下，如何設計最優解決方案？

shizhi02 ? 1610瀏覽 ? 0回復
影響大模型能力表現的因素，以及提示詞在其中扮演的角色和工程化的作用和方法

AI探索時代 ? 1496瀏覽 ? 0回復
LLM面經——多模態大模型訓練中”模態懶惰“問題如何解決？

shizhi02 ? 519瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

LLM面經——多模態大模型訓練中”模態懶惰“問題如何解決？ 4天前發布
大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？ 2025-06-10 10:42:03發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： OmniTokenizer-視覺tokenizer生成

下一篇：大模型面經：目前不同階段的scaling law之間的區別和聯系是什么？

社區精華內容

目錄

主站蜘蛛池模板：一区二区三区网站 | 国产一区二区在线免费观看 | 亚洲一区久久久 | 999免费观看视频 | 亚洲美女视频 | 成在线人视频免费视频 | 国产高清视频在线观看 | 亚洲精品美女视频 | 一区二区三区国产 | 欧美www在线观看 | 天天干天天干 | 欧美精品一区二区三区在线播放 | av手机在线免费观看 | 欧美二区三区 | 亚洲综合大片69999 | 欧美一区二区三区在线免费观看 | 精品一级 | 91在线免费视频 | 成人av一区 | 亚洲性视频网站 | 区一区二在线观看 | 国产精品99久久久久久久久 | 久久亚洲综合 | 久久久久久女 | 欧美一级黄色片在线观看 | 国产黄色在线观看 | 一区二区三区在线电影 | 97成人在线 | 久久久成 | 日韩毛片在线免费观看 | 国产美女永久免费无遮挡 | 一本一道久久a久久精品蜜桃 | 色婷婷综合久久久中文字幕 | 国产成人jvid在线播放 | 亚洲一区二区av | 国产精品中文字幕在线 | 黄色精品 | 91极品视频 | 欧美日韩久久精品 | 亚洲福利网站 | 91网站在线播放 |

<s id="uimqe"><center id="uimqe"></center></s>

<abbr id="uimqe"><code id="uimqe"></code></abbr>