Harvard | RL如何放大pretraining過程中學到的行為？

發布于 2025-5-30 06:03

瀏覽

0收藏

今天分享一篇來自 Harvard University 和 Kempner Institute 的文章，標題為 Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining (RL后訓練放大預訓練中學到的行為)。

這篇文章旨在系統性地研究強化學習（RL）微調對語言模型行為的影響，特別是其與預訓練數據組成、超參數和模型規模的相互作用。該研究通過從頭開始訓練模型，并使用完全公開的數據集混合物進行預訓練和RL微調，揭示了RL微調如何放大預訓練數據中的特定模式，并影響模型輸出的分布和性能。

核心發現是，RL微調過程會顯著放大模型在預訓練階段學到的特定行為和輸出模式，如同 “回音室（放大行為）”效應 ，使得模型輸出趨向于預訓練數據中某種主導的分布。這種放大效應以及最終模型偏好的輸出模式受到模型規模和RL超參數（如KL散列系數）的影響。此外，研究還表明，在相對簡單的問題上進行RL后訓練，可以提升模型在更難問題上的性能，證明了特定推理能力的泛化性。

該方法特點總結如下：

1.端到端受控實驗：通過從頭預訓練模型，完全控制預訓練數據組成，從而清晰地研究預訓練階段對RL微調的影響。

2.多因素分析：系統地考察了預訓練數據混合、RL算法選擇（PPO, GRPO, EI）、模型規模（150M, 1B）以及超參數對模型行為和性能的影響。

3.揭示“回音室”效應：明確指出RL微調會放大預訓練中已存在的模式，而非僅僅學習新的通用能力。

4.規模依賴性偏好：發現不同規模的模型在RL微調后可能傾向于預訓練數據中不同的主導輸出格式。

5.驗證小規模代理研究的可行性：證明了在受控環境下使用中等規模模型進行此類研究可以為理解大型語言模型行為提供有價值的洞見。

一、概述

?Title:Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining

?URL:?? https://arxiv.org/abs/2504.07912??

?Authors:Rosie Zhao, Alexandru Meterez, Sham Kakade, Cengiz Pehlevan, Samy Jelassi, Eran Malach

?Code:?? https://github.com/rosieyzh/openrlhf-pretrain??

?機構:Harvard University, Kempner Institute

1 Motivation

? 當前強化學習（RL）微調已成為提升語言模型在高級數學推理和編碼能力的關鍵步驟，但其底層機制尚不清楚。

? 現有研究缺乏對預訓練數據組成、超參數和模型規模之間相互作用的控制，這使得難以理解RL微調的真實效果。許多模型使用的預訓練數據是不透明的，加劇了這個問題。

? 需要一項系統性的、端到端的研究，從頭開始訓練模型并使用完全開放數據集，以清晰地揭示預訓練和RL如何共同塑造模型行為。

2 Methods

省流版總結:

本文通過從頭開始訓練不同規模的語言模型，并使用精心策劃的開放數據集混合物進行預訓練，然后利用強化學習進行微調，以系統地研究RL微調對數學推理能力的影響。研究發現RL微調會使模型輸出收斂到預訓練數據中的一種主導分布，該分布的偏好取決于模型規模和KL懲罰系數，并且在簡單任務上的RL微調能泛化到更困難的任務。

Harvard | RL如何放大pretraining過程中學到的行為？-AI.x社區

詳細方法和步驟:

? 基于OLMo代碼庫構建了解碼器-only的語言模型，分別采用150M和1B參數規模，并結合不同的模型寬度與層數。預

? 訓練階段使用包含FineMath-3+、Algebraic-Stack、TinyGSM以及多個OpenMathInstruct系列合成數據集在內的數學相關內容進行訓練，問題與答案以拼接形式組成通用語料庫。

? PPO、GRPO和Expert Iteration等RL算法進行微調，重點聚焦于數學問答任務（如GSM8K），并通過可驗證獎勵機制引導模型生成正確答案。微調過程中還引入KL懲罰以控制探索強度，并通過多次候選生成與監督微調實現迭代優化。

? 評估方面，除標準指標（pass@1、pass@64、majority@64）外，還考察了模型在未見任務（如MATH-500、AIME）上的泛化能力，并對生成格式分布、錯誤類型進行了定性分析。

? 從輸出分布收斂性、偏好選擇機制、模型規模影響、RL算法差異、超參數敏感性等多個維度全面解析了RL微調對模型行為的影響。

類別	內容
模型架構與規模	使用OLMo代碼庫訓練解碼器-only語言模型： - 參數量：150M、1B - 模型寬度：768、2048 - 層數：12、16 - MLP隱藏維度 = 寬度 × 8，SwiGLU激活函數，ROPE位置編碼
預訓練數據集	數學相關混合語料： - FineMath-3+、Algebraic-Stack（文檔式數學內容） - TinyGSM（12.3M問題-解決方案對，GPT-3.5生成代碼） - OpenMathInstruct1（1.8M對，Mixtral-8x7B生成代碼） - OpenMathInstruct2（14M對，Llama3.1-405B生成自然語言） - 不使用聊天模板或特殊格式
預訓練超參數	AdamW優化器，學習率=0.001，權重衰減=0.1 - 5000步線性預熱 + 余弦衰減至峰值的10%
強化學習微調	在預訓練模型上進行RL微調： - RL算法：PPO、GRPO、Expert Iteration (EI) - 獎勵函數：正確匹配獎勵為1，否則為0 - 微調任務：GSM8K訓練集，部分在MATH訓練集 - EI流程：k=64候選答案 → 去重 → 監督微調，可迭代 - KL懲罰系數：0, 0.001, 0.01
評估與分析	- 指標：pass@1, pass@64, majority@64 - 泛化能力：MATH-500、AIME測試集 - 定性分析：生成格式分布變化、錯誤類型分布
實驗分析維度	- 輸出分布收斂性 - 偏好分布選擇機制 - 單一分布內性能提升 - 模型規模影響（150M vs 1B） - RL算法比較（PPO、GRPO、EI） - 超參數敏感性（如KL系數） - 遷移泛化能力（GSM8K→MATH/AIME）

3 Conclusion

3.1 RL微調放大預訓練行為，導致輸出收斂到主導分布。

RL微調會一致性地使模型輸出收斂到預訓練數據中一種主導的輸出分布格式，并放大其中的模式，從而顯著提升性能，盡管這可能會降低生成多樣性。

3.1.1 150M模型PPO微調過程中輸出分布和準確率變化 (TinyGSM, OMI1, OMI2混合預訓練, 低KL系數)

Harvard | RL如何放大pretraining過程中學到的行為？-AI.x社區

? 結論：(左圖)展示了在GSM8K測試集上，模型生成的答案中符合TinyGSM、OMI1和Text (OMI2/自然語言) 格式的百分比隨PPO訓練樣本數的變化。可見模型迅速收斂到TinyGSM格式。

? 結論：(右圖)展示了對應格式的準確率以及整體pass@1, pass@64, majority@64準確率。輸出格式的轉變與整體準確率的最大增益同步發生。majority@64略有提升，而pass@64在訓練后期略有下降。

3.1.2 150M模型PPO微調 (與上圖Figure 2相同預訓練模型, 但使用更高KL系數)

Harvard | RL如何放大pretraining過程中學到的行為？-AI.x社區

? 總結：在更高的KL系數(0.01 vs 0.001)下，模型仍然主要輸出TinyGSM格式，但也保留了一部分OpenMathInstruct2格式的輸出。最終pass@1準確率與低KL系數時相近。

3.1.3 150M模型PPO微調 (TinyGSM + 不同比例OpenMathInstruct1混合預訓練)

Harvard | RL如何放大pretraining過程中學到的行為？-AI.x社區

? 總結：(a) 當預訓練集包含4倍OpenMathInstruct1時，模型初始生成更多OMI1格式答案，但PPO微調后迅速轉向TinyGSM格式。

? 總結：(b) 當OpenMathInstruct1比例增加到8倍時，模型在RL微調后轉向輸出OMI1格式，但整體準確率下降。表明RL微調并非總是選擇初始最常見或性能最佳的分布，結果是復雜的。

3.1.4 不同TinyGSM預訓練數據量對150M模型PPO微調后性能的影響

Harvard | RL如何放大pretraining過程中學到的行為？-AI.x社區

? 總結：(左圖)展示了在預訓練混合數據中包含不同數量TinyGSM（1x, 2x, 4x, 8x）的150M模型，在PPO微調后，GSM8K測試集上的最高pass@1, pass@64, majority@64準確率。預訓練中TinyGSM越多，RL微調后各項準確率越高。

? 總結：(右圖)展示了這些模型在PPO微調過程中的pass@1準確率曲線，TinyGSM預訓練數據量越大的模型，微調帶來的性能增益也越大。

3.2 模型規模影響主導輸出分布的偏好。

較小的模型傾向于生成更簡單的代碼式格式（如TinyGSM），而較大的模型則轉向自然語言輸出（如OpenMathInstruct2）。這種放大程度還取決于KL懲罰系數的設置。

Harvard | RL如何放大pretraining過程中學到的行為？-AI.x社區

?說明: 1B模型PPO微調過程中輸出分布和準確率變化 (TinyGSM, OMI1, OMI2混合預訓練)

? 總結：與Figure 2中的150M模型不同，1B模型在相同的預訓練數據和PPO微調后，放大了自然語言（OMI2）格式的解決方案，盡管在初始化時自然語言的生成比例最低，且TinyGSM可能是性能更優的分布。這表明模型規模會影響RL微調后偏好的輸出分布。

3.3 RL微調可以帶來正向遷移，提升模型在困難任務上的表現。

在像GSM8K這樣簡單數據集上進行的RL后訓練，可以提升模型在MATH等更困難數學數據集上的性能，這表明某些推理能力可以跨任務泛化。

Harvard | RL如何放大pretraining過程中學到的行為？-AI.x社區

?說明: 1B模型在GSM8K上PPO微調前后在MATH-500上的性能

? 總結：展示了不同預訓練數據混合的1B模型，在使用GSM8K訓練問題進行PPO微調前后，在MATH-500測試集上的pass@1和majority@64性能。結果顯示微調后性能均有一致性提升，表明RL微調不僅改進輸出格式，也增強了通用數學能力。預訓練數據中包含與下游任務結構相似數據（如OpenMathInstruct數據集之于MATH）的模型提升更明顯。

4 Limitation

數據混合的復雜性與泛化：當前研究主要集中于數學推理領域的數據集。未來工作需要探索結果是否能泛化到更復雜的數據混合，例如包含多語言數據的情況。
最優預訓練混合的探索：文章并未明確指出是否存在一種“最優”的預訓練數據混合，能夠實現最佳的下游推理性能，以及這種混合如何隨模型規模變化。
RL算法的局限性：Expert Iteration（EI）方法在當前設置中表現持續遜于PPO，并且向主導格式的轉變速度較慢，這可能與重復從原始基礎模型進行微調有關。GRPO算法穩定性不如PPO，有時會經歷性能短暫崩潰，這需要進一步研究不同RL算法及其設計選擇對模型行為的影響。
評估泛化性的挑戰：盡管在MATH-500上觀察到性能提升，但在AIME等更具挑戰性的OOD（Out-of-Distribution）數據集上，性能提升有限，尤其是在2022-2024年AIME基準測試中，這表明數據相似性對遷移至關重要。
預訓練數據透明度問題：文章強調現有文獻中對預訓練模型的依賴是一個主要混淆因素，因為許多預訓練數據集是不公開的。雖然本文通過從頭開始使用公開數據集來解決這個問題，但其發現可能不完全適用于那些基于大規模專有數據集預訓練的模型。

三、總結

結論1: RL微調通過“回音室”效應放大預訓練行為，使模型輸出收斂到預訓練數據中一種主導的格式。 這種效應在不同預訓練數據混合中一致出現，即模型在RL微調后迅速且一致地收斂到生成一種特定的輸出格式，該格式通常與性能提升同時發生。這揭示了RL不僅僅是簡單地教導模型如何解決問題，更在于塑造模型以特定方式生成答案。

結論2: 模型規模和RL超參數（特別是KL懲罰系數）共同影響RL微調后模型對輸出分布的偏好和放大程度。 較小模型（如150M參數）傾向于更簡單的代碼式輸出，而較大模型（如1B參數）則更傾向于自然語言輸出。KL懲罰系數的增加可以保留一定程度的輸出多樣性，避免完全收斂到單一格式，但最終性能可能與更強的收斂性相似。

結論3: 在較簡單數據集（如GSM8K）上的RL后訓練，能帶來對更困難數學數據集（如MATH）的性能提升，表明推理能力可以跨任務泛化。 這種正向遷移現象強調了RL微調不僅僅是特定任務的過擬合，而是能夠提升模型更通用的推理能力。同時，研究發現預訓練數據與下游任務的數據相似性對于這種泛化效果至關重要。

結論4: 本文通過從頭開始的受控實驗，為理解RL在塑造語言模型行為方面的科學作用提供了有價值的見解。 傳統上，許多RLHF研究依賴于不透明的預訓練模型，使得難以分離RL的真實影響。本文的受控設置（從頭訓練和使用公開數據集）克服了這一限制，為未來的研究提供了清晰的實驗框架。通過小規模代理實驗，可以有效地探索RL微調的復雜機制，這對于學術界和工業界深入理解和優化大型語言模型至關重要。

本文轉載自??NLP PaperWeekly??，作者：NLP PaperWeekly

標簽

pretraining

言模型

已于2025-6-3 11:43:14修改

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

Harvard | RL如何放大pretraining過程中學到的行為？

一、概述

1 Motivation

2 Methods

省流版總結:

詳細方法和步驟:

3 Conclusion

3.1 RL微調放大預訓練行為，導致輸出收斂到主導分布。

3.1.1 150M模型PPO微調過程中輸出分布和準確率變化 (TinyGSM, OMI1, OMI2混合預訓練, 低KL系數)

3.1.2 150M模型PPO微調 (與上圖Figure 2相同預訓練模型, 但使用更高KL系數)

3.1.3 150M模型PPO微調 (TinyGSM + 不同比例OpenMathInstruct1混合預訓練)

3.1.4 不同TinyGSM預訓練數據量對150M模型PPO微調后性能的影響

3.2 模型規模影響主導輸出分布的偏好。

3.3 RL微調可以帶來正向遷移，提升模型在困難任務上的表現。

4 Limitation

三、總結

目錄