強化學習與大模型后訓練:DeepSeek R1 如何獲得推理能力? 精華
DeepSeek 正在通過其開源模型 DeepSeek-R1 革新 AI 產業,盡管資源有限,卻能媲美 OpenAI 的能力。通過讓前沿大模型更廣泛地開放,DeepSeek 推動了全球的創新與合作。其創新的基于強化學習(RL)的后訓練技術可增強大模型的推理能力和對齊性,使大模型在實際應用中更加高效且易用。在本文中,我們將重點分析 DeepSeek R1 推理模型背后的關鍵 RL 后訓練技術。本文由MoPaaS 的創始人魯為民博士最初以英文的形式發表(點擊文章末尾“閱讀原文”),這次翻譯出來供朋友和合作伙伴參考。
目錄
- 引言
- 提升 LLM 推理與對齊能力的后訓練
- 數據準備與生成
- 強化學習(RL)與推理型 LLM 后訓練
- 基于 RL 的后訓練(I): DeepSeek R1 系列模型案例
- 基于 RL 的后訓練(II): OpenAI o-系列模型案例
- RL 規模法則與 LLM 推理能力的涌現
- 討論與結論
- 參考文獻
1. 引言
中國人工智能(AI)初創公司DeepSeek 的崛起,標志著 AI 產業向開源化發展的重大轉變。這一變革對開源社區及整個 AI 生態系統具有深遠影響。
DeepSeek 的旗艦模型 DeepSeek-R1 是一個開源推理模型,盡管其訓練所用的計算資源遠少于 OpenAI 的 o1,但在性能上卻能與之媲美。這一事實挑戰了“最先進的 AI 研發必須依賴海量資金和計算資源”的傳統觀念。通過開源其模型,DeepSeek 使前沿 AI 技術得以普及,讓全球的開發者、研究人員和機構能夠基于其技術進行創新。這種模式不僅推動了 AI 應用開發的加速,還促進了協作式知識共享生態的建立。
大語言模型(LLM)通常基于海量互聯網文本語料進行預訓練,以提供基礎的語言理解與推理能力。雖然這些模型在處理一般任務時表現良好,但在實際應用中往往存在局限性。許多現實世界的應用場景需要更強的推理能力和更高的對齊性,使 LLM 能夠具備更強的交互性、適應性、目標導向能力以及高級推理能力。
本文探討了一種新興的 LLM 訓練方法——基于強化學習(RL)的后訓練,該方法可增強推理型 LLM(如 R1)的多步推理能力及安全對齊效果。盡管后訓練本身已極具價值,但基于 RL 的方法尤其重要,它能夠進一步優化 LLM 的推理能力,使其能夠更精準地匹配用戶需求,并更好地對齊人類價值觀。與預訓練相比,這些方法能夠在大幅降低計算資源消耗的同時,顯著提升推理效果。例如,V3/R1 和 o1/3 這樣的 LLM能夠通過這些技術生成更符合現實需求的推理、規劃和行動輸出,從而使基于 LLM 的 AI 代理更智能、更實用、更值得信賴。
在本文中,我們將重點分析 DeepSeek R1 推理模型背后的關鍵 RL 后訓練技術。部分內容最初發表于《大語言模型時代的智能體:系統綜述》的第 7 章和第 9 章,并在此基礎上進行了修訂和更新,以提高清晰度和完整性。
2. 后訓練以增強 LLM 的推理與對齊能力
2.1 預訓練 LLM 與推理 LLM
與通用基礎 LLM 相比,推理 LLM需要在推理和對齊方面表現更為出色,以便在需要強大推理和對齊能力的特定領域中更高效地應用。此類模型的關鍵特點包括:
- 推理與規劃:
能夠進行結構化思維,理解智能體、環境和目標之間的關系;
支持基于環境變化動態調整任務目標的優先級;
促進多步推理、實時適應以及特定任務能力(如長期記憶和多輪對話);
通過針對關鍵任務定制專用模型,解決通用 LLM 在效率和性能上的不足。
- 對齊與用戶偏好:
- 通過嚴格遵守政策和優先考慮用戶目標,確保符合明確的目標和安全原則;
- 提供上下文感知的響應,并根據用戶特定數據和偏好,個性化交互,提升用戶體驗。
- 魯棒性與可擴展性:
- 在動態和不確定的環境中高效運作,采用概率推理和回溯策略尋找替代方案;
- 支持多智能體系統,通過高效的溝通、協作和沖突解決機制,提升整體協作效果。
推理模型代表了確保在日益復雜的環境中高效運作的重要進展。通過增強推理和規劃能力,優化任務特定挑戰,確保在動態環境中的魯棒性,并對齊倫理原則,這些模型為開發更強大、高效且值得信賴的智能體奠定了基礎。其中,推理與規劃對模型的成功至關重要。
最近,OpenAI o1/o3、DeepSeek R1、阿里巴巴的 Marco-o1、Google Gemini 2 和 Microsoft Phi 4 等模型體現了這一趨勢。這些以推理為核心的模型利用先進的預訓練技術提供強大的基線模型,并通過強化學習后訓練提升推理能力。例如,廣泛使用 CoT 推理使這些模型能夠模仿人類逐步解決問題的路徑,從而在生成響應之前完成復雜的多步推理。這些進展顯著提升了推理能力,并與人類價值觀和原則對齊。
這些模型解鎖了 STEM 領域的新應用,往往在數學和編程任務中超越了早期模型。在某些情況下,它們甚至解決了之前無法解決的數學證明,展示了它們作為科研助手的潛力。
強大的基線模型為進一步提升推理能力提供了堅實的基礎,確保后續優化有一個穩固的起點。結合測試時計算,這些模型已成為智能體的理想基礎模型。
2.2 LLM 的推理與對齊后訓練
隨著通用 LLM 的規模不斷擴大,并逐步引入特定能力的數據,它們的通用能力,特別是智能體所需的推理、規劃和決策能力,繼續提升。然而,為了提高智能體在推理過程中需要驗證和修正的任務效率,并在測試階段提升計算可擴展性,有必要對具備推理能力的 LLM 進行微調。
在 LLM 的預訓練階段,可以直接針對這些能力進行優化,以改善模型的輸出分布。然而,預訓練數據變得日益稀缺,且能力提升的速度與計算投入相比逐漸放緩。預訓練的 LLM 通常依賴于從示例中反向推導出理想行為,導致數據利用效率低下和決策邊界不清晰,從而導致推理和安全能力不盡如人意。因此,后訓練逐漸成為提升模型性能、提高推理準確性、對齊人類價值觀,并適應用戶偏好的關鍵方法,且相比于預訓練,其計算需求顯著降低。例如,通過 LLM 后訓練微調現有的開源預訓練 LLM(如 LLaMA、Mistral、GLM 和 Qwen),可以開發專為智能體設計的 LLM,從而增強智能體所需的推理、規劃和決策能力。
當前的后訓練方法主要圍繞強化學習(RL),包括對基礎模型的監督微調(SFT)和策略模型的 RL 訓練?;A模型的 SFT 可以提供語言生成和對話能力上的流暢性和一致性;雖然 SFT 也能引入一定的推理能力,但由于錯誤累積和探索數據有限,它在需要多步推理的任務中往往表現不足。強化學習(RL)方法通過生成長鏈的 CoT,幫助模型獲取推理能力。結合 SFT,RL 方法已成為目前后訓練LLM 的標準方式,尤其適用于需要復雜決策和自適應學習的場景。這些方法廣泛應用于模型對齊和性能優化,尤其適用于在復雜動態環境中運作的智能體。
3. 數據準備與生成
數據準備是后訓練管道中的關鍵組成部分。訓練數據集可以由人工策劃、由 AI 生成,或通過多種方法的組合來創建。
3.1 數據策劃
特定智能體的 LLM 需要精心策劃的數據集進行預訓練和/或后訓練微調,以提供智能體所需的能力。這通常涉及適當增加與特定能力相關的數據比例(例如,數學和編程)到訓練數據集中。例如,使用具有挑戰性的數學數據集(如 MATH 數據集)微調預訓練的基礎模型,可以提升大型語言模型在復雜數學推理方面的能力。無論是從頭開始進行預訓練,還是微調預訓練模型,智能體專用的 LLM 都是通過分配特別策劃的數據集來注入能力,并且預訓練或后訓練能夠優化 LLM 的輸出分布,進而產生相關的結果。
在后訓練管道中,訓練數據集會為 SFT 和 RL 優化階段進行策劃,在 RL 階段,還需要策劃獎勵模型的訓練數據集(如有需要)和 RL 策略模型。與通用 LLM 需要大量數據和資源進行預訓練不同,推理 LLM 通常可以通過在較小數據集上進行后訓練來構建。例如,OpenAI 的 o1 模型通過利用專門策劃的數據集進行預訓練或微調,展示了強大的推理和對話能力(如圖1 所示)。這些數據集包括:
- 推理數據: 包含推理和科學文獻等關鍵組成部分的公開可用的網絡和開源數據集,用于增強模型執行復雜推理任務的能力。
- 專有數據: 高價值的非公開數據集,如付費內容、專業檔案和其他領域特定的數據集,用于深入了解行業特定的知識和實際應用。
- 數據過濾與精煉: 數據經過嚴格過濾,以確保質量并減少潛在風險,特別是避免訓練數據中的個人信息、有害內容或敏感材料。
Figure 1. A Training Dataset Sample for OpenAI o3 RL Fine-Tuning (OpenAI, 2024)
3.2 合成數據生成
通過微調將推理能力注入到 LLM 中,需要足夠的推理分布實例,并且需要相關的長上下文。一般數據集中與推理相關的特定能力比例和質量,往往難以有效滿足 LLM 為智能體配備專業技能的需求。高質量的推理數據通常通過特定的 LLM 生成。
合成數據旨在模仿真實世界數據的屬性。這類數據可以使用生成模型或設計用來復制自然現象的算法生成。例如,生成代碼數據集時,可以選擇各種編程任務或提示作為種子任務,并使用模型生成與這些任務相關的問題。對于每個問題,模型會從生成的回答中抽取多個潛在解決方案,使用拒絕采樣(SR)方法,只有通過相關測試或正確執行的解決方案才會被包含進訓練數據集中,從而有效過濾掉低質量樣本。
以這種方式生成的合成數據占據了像 OpenAI o1/o3 和 DeepSeek R1 等模型的預訓練和后訓練數據集的很大一部分。另一方面,這些模型能夠生成長鏈 CoT 推理軌跡,其中包含如迭代與遞歸問題解決、假設探索、回溯、反思、驗證和自我修正等重要特征。
為了構建用于訓練模型的長 CoT 實例,可以結合 LLM 和樹搜索方法,例如使用帶有步驟級別動作空間的 MCTS(蒙特卡洛樹搜索)生成高質量的 CoT 數據。為此,構建一個推理樹,根節點表示問題,每個節點代表一個推理步驟。如果節點錯誤,則進行回溯,通過過程級獎勵模型來評估節點的正確性,從而將錯誤的步驟納入推理過程,構建長鏈 CoT 軌跡。
然而,在 LLM 后訓練中擴展這種方法面臨幾個挑戰。首先,不像圍棋或國際象棋有相對明確的搜索空間,生成 token 涉及的是一個指數級增長的搜索空間,這對計算資源提出了挑戰。其次,生成的質量高度依賴于價值模型,因為它引導搜索過程的每一步。訓練一個細粒度的價值模型本身就非常困難,因此迭代優化成為一個巨大的挑戰。盡管 AlphaGo 的成功依賴于精心訓練的價值模型來逐步提升性能,但由于 token 生成的固有復雜性,將這一原則復制到生成過程中非常困難。
蒸餾方法也提供了一種經濟高效且可靠的方式來獲取高質量的合成數據;高級(期望的)LLM 被提示生成帶有必要長 CoT 格式的詳細推理軌跡。例如,OpenAI o3 和 DeepSeek V3/R1 從早期版本的推理模型中蒸餾出了高質量的回答;考慮到 o1的復雜推理能力,對其認知機制進行蒸餾是生成和策劃用于新模型復制或后訓練的合成數據的可行方法。此外,對于具有可驗證解決方案的推理任務,蒸餾可以結合拒絕采樣實現,從而提取和驗證高級 LLM 的推理過程,以生成更高質量的數據。
例如,對于訓練 OpenAI o3 模型,合成數據集的生成始于收集包含所需推理行為的提示,并通過提示基礎推理模型來收集包含理想 CoT 的完成項,接著使用一個“評判者”獎勵模型對收集到的完成項進行過濾,篩選出高質量的結果,最終生成一組(提示、CoT、輸出)元組,作為后訓練的數據集。
同樣,在 R1(如圖 2 所示)中,為了構建訓練模型所需的 CoT 實例,可以為 LLM 設計結構化提示,以生成包含推理過程的輸出,最后給出答案。
Figure 2: Prompt Template for DeepSeek-R1 (DeepSeek, 2024)
合成數據生成通常不是一次性任務,因為使用的生成模型可能不如訓練中的模型先進,可能無法產生完美的結果。然而,如果生成的完成項能夠經過驗證,那么它們可以被過濾以確保符合期望的行為。這一過程可以與 RL 優化一起迭代執行。每個 RL 訓練模型的新檢查點都可以用來生成更多的數據批次,進一步優化訓練過程。
4. 強化學習與推理型 LLM 后訓練
4.1 強化學習(RL)
給定一個初始的預訓練大語言模型(LLM),可以通過在精心策劃的數據集(包括篩選后的合成數據集)上對基礎LLM進行后訓練,從而獲得用于代理的推理LLM,使得模型能夠輸入一個提示并輸出包含期望的推理鏈(CoT)的完成(見第3.2節)。
后訓練的核心技術是強化學習(RL)。在LLM的上下文中,RL是一種訓練方法,通過使用反饋信號(通常以獎勵的形式)對模型進行微調,從而優化其行為,使其與用戶的偏好對齊。這個過程通過反復從與環境的交互中學習,通過獎勵模型(見圖3)使模型能夠改善推理能力、安全性、與人類偏好的對齊以及任務特定的目標。
Figure 3: Reinforcement Learning with Verifiable Reward (Lambert et al., 2024)
有多種強化學習(RL)技術旨在優化LLM,使其根據環境、用戶和AI代理的反饋對齊用戶偏好。這些技術包括:
- 近端策略優化(PPO)
- 群體獎勵策略優化(GRPO)
- 直接偏好優化(DPO)及其它們的變種(見圖4)。
Figure 4: PPO v.s. DPO (Ivison et al., 2024)
特別地,基于PPO的偏好反饋學習方法首先通過偏好數據訓練一個獎勵模型,該模型用于對策略模型生成的響應進行評分,然后通過PPO算法根據響應的獎勵得分訓練策略模型。GRPO是PPO的擴展,見圖5,它放棄了價值模型,而是通過群體評分估計基線,從而大大減少了訓練資源。另一方面,DPO允許直接在偏好數據上訓練策略模型,而無需構建獎勵模型或在線從活動策略中采樣。
Figure 5. PPO v.s. GRPO: GRPO Foregoes the Value Model (Shao et al, 2024)
基于RL的后訓練方法,包括數據生成(例如,從RL模型和其他策劃數據中采樣的推理數據)、基礎模型的監督微調(SFT)、RL優化等,可以反復微調LLM,使其掌握代理的期望推理行為(見圖6和圖7)。隨著RL訓練的進展,模型(包括獎勵模型和/或策略模型)會不斷演化,并可以利用這些模型生成新的訓練數據并評估過程和結果。隨后,參考模型會更新以對齊策略模型,該模型會進一步通過精煉后的獎勵模型進行訓練,確保持續改進和對齊。
在一些復雜的情況下,可以使用蒙特卡洛樹搜索(MCTS)來結合RL技術尋找最佳推理鏈,以實現最佳策略。RL使得LLM能夠從成功和不成功的軌跡中學習,從而增強它們在多步推理任務中的泛化能力。
4.2 獎勵模型
在強化學習(RL)中,獎勵作為訓練信號的來源,決定了RL的優化方向。因此,獎勵模型在引導訓練模型最大化期望結果方面發揮著至關重要的作用。在RL訓練過程中,獎勵模型會為LLM生成的響應分配分數,引導模型生成更符合人類期望的輸出。這一過程提高了LLM在生成連貫、相關和人類化響應方面的表現。
在LLM對齊的上下文中,獎勵模型通常通過來自人類或其他來源的反饋進行訓練。這包括收集對各種模型輸出的判斷,并使用這些數據來教會獎勵模型預測新輸出的可取性。經過訓練的獎勵模型會在LLM的RL訓練過程中提供實時評估,促進生成更符合人類偏好的輸出。
獎勵模型可以通過過程監督訓練,生成過程獎勵模型(PRMs),或通過結果監督訓練,生成結果獎勵模型(ORMs)。PRMs被認為對于多步推理任務具有優勢,因為它們提高了模型推理與人類邏輯的對齊,同時促進了更安全的行為。
盡管使用ORM或PRM來引導RL生成符合預定推理CoT模式的響應是非??尚械模窠洩剟钅P驮诖笠幠L過程中容易遭遇獎勵破解;此外,訓練這樣的神經獎勵模型需要大量的計算資源,并使整個訓練流程更加復雜。由于這些原因,近年來的做法傾向于使用更簡單的獎勵模型,而不是像PRM或ORM這樣的神經獎勵模型。如在后訓練DeepSeek R1中所示,推理導向的RL算法采用了一種不同的獎勵系統,包含三種主要類型的獎勵:
- 準確性獎勵:這些獎勵評估響應是否正確。例如,在確定性結果的數學問題中,模型需要以指定的格式(例如,用框框圍?。┏尸F最終答案,從而允許可靠的基于規則的正確性驗證。同樣,對于LeetCode問題,可以使用編譯器根據預定義的測試用例生成反饋。
- 格式獎勵:使用格式獎勵模型確保模型將推理過程放在和標簽之間。
- 語言一致性獎勵:這是在RL訓練過程中引入的一個度量,用于解決在推理鏈(CoT)中出現的語言混用問題,特別是當提示涉及多種語言時。它衡量目標語言單詞在CoT中的比例,鼓勵一致使用目標語言。
此外,在后訓練過程中,獎勵模型還可以作為質量COT軌跡搜索算法中的驗證器或拒絕采樣方法的驗證器,或者作為過濾SFT訓練數據的拒絕采樣算法。在后者的情況下,模型會在每個搜索步驟提供自我批判性反饋,以優化決策,這對于具有稀疏信號的長期任務尤其有價值。此機制使得模型能夠生成多樣的推理路徑、自我驗證并選擇最佳解決方案,從而提高推理能力和任務可靠性。
4.3 基于RL的大語言模型后訓練流程
以下,我們將重點討論后訓練過程??傮w后訓練策略通常涉及數據集準備(公共數據集(如MATH)、人工制作或通過拒絕采樣生成的AI數據等)、基礎模型的監督微調(SFT)和在策略模型上的RL優化(PPO或DPO)。在某些情況下(例如InstructGPT),后訓練僅包括由SFT、RM和RL-PPO組成的前向路徑。增強推理的后訓練的最新發展涉及圍繞合成數據生成、SFT和RL優化(例如PPO、GRPO、DPO及其變體)的反饋循環,并通過多個迭代過程進行優化,如LLaMa-3的后訓練方法(見圖6)。這一迭代過程不斷提高模型的性能。例如,Llama 3據報道進行了6輪后訓練,并在此之前進行了多輪指令調優。DeepSeek R1則進行了3輪后訓練,其中包括最初的R1-Zero(見圖7)。
Figure 6: The Post-Training Strategy for Llama 3 (Meta, 2014)
5. 基于強化學習的后訓練:以DeepSeek R1系列模型為例
基于強化學習(RL)的后訓練方法通過利用迭代數據收集和微調策略,在提高多步推理性能方面展現出了顯著效果。DeepSeek R1后訓練采用了一種結構化的訓練流程,結合了監督微調(SFT)和RL,以增強其推理能力(見圖7)。在初始的R1-Zero階段之后,流程開始通過使用精心策劃的數據集對基礎模型進行SFT,從而播種初步的推理技能。然后,R1的兩個RL階段被實施:第一個階段側重于發現改進的推理模式,第二個階段將模型的輸出與人類偏好對齊。這種組合方法使得模型能夠通過試錯自我完善推理,通過獎勵機制激勵準確和連貫的輸出。
Figure 7. DeepSeek R1 Post-Training Pipeline (DeepSeek, 2025)
DeepSeek R1的后訓練是通過3輪RL迭代完成的,包括最初的沒有SFT的R1-Zero階段,具體步驟如下:
步驟1:訓練R1-Zero提供SFT V3基礎模型的冷啟動數據
DeepSeek R1-Zero通過大規模的強化學習(RL)進行訓練,且不使用監督微調(SFT)作為初步步驟。RL模型通過RL過程自我進化,發展推理能力,而不使用任何監督數據。使用內部的群體相對策略優化(GRPO)算法來訓練模型(見圖5);GRPO放棄了通常與策略模型大小相同的價值模型,而是通過群體評分來估算基線,從而減少訓練資源。此外,準確性和格式一致性使用基于規則的獎勵。
R1-Zero用于生成一小部分長CoT數據,以便微調模型作為初始的RL行為者。為此,構建了具有長CoT示例的少樣本提示,直接提示R1-Zero生成并收集帶有反思和驗證的詳細答案,并通過人工后處理和標注進行結果的優化。
SFT推理鏈的“冷啟動”旨在通過將模型建立為一個指令調優模型來改善最終的R1模型,避免了R1-Zero中出現的如生成中途語言切換的問題。此外,這將成為迭代訓練的一部分,提供了一種更好的推理模型訓練方法。
步驟2:面向推理的RL訓練
在SFT V3基礎模型的冷啟動數據上之后,采用類似于步驟1中R1-Zero使用的大規模RL過程來增強推理能力,涵蓋編碼、數學、科學和邏輯推理等任務,這些任務涉及明確的問題。為了避免CoT響應中的語言混用,引入了語言一致性獎勵,計算CoT中目標語言單詞的比例。推理任務的準確性獎勵與語言一致性獎勵結合,通過將它們相加形成最終的獎勵。RL訓練在微調后的V3基礎模型上持續進行,直到其收斂。
步驟3:拒絕采樣引入通用能力
拒絕采樣(RS)是一種廣泛使用的偏好微調方法。它通過生成新的候選指令,使用訓練過的獎勵模型過濾這些候選指令,然后僅在最優的完成結果上對原模型進行微調。
R1利用拒絕采樣通過生成并過濾高質量的回應來重新引入模型的通用能力,用于推理任務的訓練數據。R1使用從早期RL訓練階段生成的檢查點通過拒絕采樣生成推理軌跡。數據集進一步擴展,包含通過生成獎勵模型評估的額外數據,其中基準和模型預測被輸入到DeepSeek-V3進行判斷。對于非推理任務,如寫作、事實問答、自我認知和翻譯,R1遵循DeepSeek-V3管道,重用DeepSeek-V3的部分SFT數據集。
此過程生成了總計80萬個完成,其中包括60萬個推理任務和20萬個通用對話問題。然后使用這80萬個樣本的策劃數據集,對DeepSeek-V3基礎模型進行微調,訓練兩輪。
步驟4:最終RL訓練
為了進一步將模型與人類偏好對齊,實施了第二個RL階段,以增強模型的有用性、無害性和推理能力。該階段集成了獎勵信號和多樣化的提示分布。對于推理任務,使用如步驟1所述的基于規則的獎勵。對于一般任務,獎勵模型捕捉復雜場景中的人類偏好。訓練保持偏好對和提示的分布相似。有用性僅根據最終總結進行評估,確保實用性和相關性,而不會打亂推理過程。無害性評估涵蓋整個響應,包括推理和總結,以解決風險、偏見和有害內容。通過將這些獎勵信號與多樣化的數據分布相結合,模型在推理方面表現優異,同時優先考慮安全性和以用戶為中心的對齊。
另一方面,可以使用蒸餾技術對其他模型(如V3、Qwen或LLaMa)進行后訓練。通過知識蒸餾技術,將DeepSeek R1系列模型的推理能力提煉到訓練模型中,有效地將CoT模型(DeepSeek R1)的推理能力轉移給它們。這種方法成功地將R1的驗證和反思機制集成到這些模型中,顯著提升了推理能力,同時有效地控制輸出的風格和長度。
類似的方法也已成功應用于開源通用模型,如LLaMA和Mistral,顯著提高了數學推理任務的表現,并在相同計算時間內超過了許多單輪策略。盡管取得了這些進展,像OpenAI的o1等推理增強模型仍面臨某些局限性,如計算成本增加和推理速度變慢。此外,它們在所有任務中可能不一定超越人類或以前的模型。對于特別復雜的問題,在預訓練階段擴展計算資源仍然是提高基礎模型能力的必要條件。
6. 基于強化學習的后訓練:以OpenAI o-系列模型為例
后訓練不僅增強了前面章節中描述的復雜推理能力,還提供了與安全性和人類價值觀的一致性。目前,針對LLM(大語言模型)安全性和對齊的研究主要集中在內容相關的問題上,例如生成輸出中的冒犯性、公平性和偏見。盡管進行了廣泛的安全訓練和處理,LLM仍面臨一些挑戰,例如應對惡意提示、過度拒絕良性請求、易受越獄攻擊的影響,以及由于需要即時響應而無法充分推理復雜或邊界特定的安全場景。此外,依賴于通過示例逆向工程推斷理想行為的方式,在部署過程中常常導致數據利用效率低下和決策邊界不清,進而損害此類模型的推理和安全能力。這些問題顯著影響了基于LLM的智能體的安全性。
在大語言模型(LLM)中,安全行為通常通過后訓練開發,即首先進行監督微調(SFT),然后通過強化學習(RL)技術進行進一步優化,例如強化學習與人類反饋(RLHF)和強化學習與人工智能反饋(RLAIF)在憲法人工智能中的應用。這些方法的關鍵步驟包括定義規范、標注數據(通過人工或AI)、使用標注數據訓練獎勵模型和/或策略模型,并使用得到的答案或得分對模型進行RL微調。
以前的RL對齊微調方法主要依賴于根據規范手動或由AI生成的訓練標簽,例如InstructGPT。然而,這些方法僅在訓練過程中使用標簽,導致模型無法保持對模型規范的理解。在推理對齊方面,除了監督模型最終答案外,推理過程,即鏈式思維(CoT)——其中包含規范內容和推理方法——也會受到監督。這使得后訓練模型能夠在推理過程中檢索并應用相關策略,從而生成對齊的響應。
OpenAI最近通過對其o系列模型(即生成推理模型)進行后訓練,嘗試解決這些安全對齊挑戰,采用了審慎對齊(Deliberative Alignment)方法。這種方法包括通過SFT和RL階段對模型進行后訓練,直接集成與安全相關的模型規范,并訓練模型在推理過程中仔細考慮這些規范(見圖8)。具體而言,鏈式思維(CoT),它包含了規范的內容以及如何對其進行推理,也在其他模型輸出之外受到監督。經過訓練的模型G_spec能夠在推理時檢索相關策略,并將其應用于生成對齊的響應,在此過程中推理通過CoT自動進行,包括對學習到的安全規范進行推理,從而生成對齊的答案。
Figure 8. RL-Based Post-Traing for OpenAI Generative Reasoning Model (Guan et al, 2024)
后訓練o系列推理LLM的關鍵步驟如下:
- 數據生成:流程開始于收集按安全相關屬性分類的提示。對于每個(提示,類別)對,編寫與該提示安全類別相關的安全規范。然后,通過提示一個不依賴于規范的推理基礎模型,生成包含CoT推理和政策引用輸出的完成。通過“評審”獎勵模型過濾生成的完成,該模型參考安全規范,生成一組高質量的(提示,CoT,輸出)元組。
- 監督微調(SFT):然后,使用監督微調方法在過濾后的完成數據上訓練基礎模型。模型通過參考CoT中的政策,以符合規范的方式完成提示。
- 強化學習(RL):在RL階段,對于與安全相關的提示,再次使用相同的“評審”獎勵模型,并訪問安全政策,以提供額外的獎勵信號。RL微調后的模型即為生成推理模型。
7. RL擴展法則與LLM推理能力的涌現
最近,DeepSeek-R1系列和Kimi-k1.5模型在擴展強化學習(RL)訓練時間的過程中展現了推理能力的突現行為,并證明了RL算法能夠學習到長鏈式思維(CoT)和自我反思模式,取得了強勁的結果。DeepSeek R1-Zero訓練是DeepSeek-R1后訓練的初步步驟,它在沒有監督微調(SFT)的情況下通過RL進行訓練。這一過程展示了隨著RL訓練的推進,模型性能穩步和一致地提升(見圖9左圖),表明了強大的RL擴展特性。這意味著模型能夠僅通過RL進行有效學習和泛化。
Figure 9. R1: RL-Scaling and Emergence of LLM Reasoning Capabilities (DeepSeek, 2025)
DeepSeek-R1-Zero展示了RL訓練可以啟動自我進化過程,使得模型能夠自主增強其推理能力。正如圖9右圖所示,DeepSeek-R1-Zero的CoT響應長度(反映其思考時間)在RL訓練過程中持續改善。延長的測試時間計算允許模型深入思考其過程,使其能夠解決越來越復雜的推理任務。
值得注意的是,在RL訓練過程中,反思等復雜行為——即模型重新審視并重新評估早期步驟——以及探索替代問題解決方法的行為會自發地出現。這些行為不是通過明確編程實現的,而是在模型與RL環境交互時自發形成的,顯著提升了其推理性能,并使其能夠更準確和高效地處理更具挑戰性的任務。
在DeepSeek-R1-Zero的訓練過程中,一個特別引人注目的現象是出現了“Aha”時刻,這發生在模型的一個中期版本(見圖10)。在這一階段,模型學會了通過重新評估其初步方法,為問題分配更多的思考時間,標志著其推理能力的增長。
Figure 10. DeepSeek-R1-Zero “Aha Moment” during RL Training (DeepSeek, 2025)
RL擴展法則的觀察突顯了RL的強大功能:通過提供適當的激勵,而不是明確地教授模型問題解決策略,使得模型能夠自主發展出先進且有效的推理技巧。
8. 討論與結論
8.1 通過后訓練增強LLM的推理與對齊能力
像DeepSeek的V3和R1、Kimi k-1.5、阿里巴巴Marco-o1/Qwen-2.5、OpenAI的o1和o3、谷歌的Gemini-2、微軟的Phi-4以及Tulu-3等推理模型的出現,反映了從預訓練到后訓練等的焦點轉移。實際上,這些模型通過兩種關鍵策略強調了增強的推理能力和安全對齊:
- 基于RL的后訓練:強化學習(RL)已廣泛用于后訓練如ChatGPT、GPT-4和LLaMA等LLM,展示了其在對齊模型與人類價值觀和減少幻覺方面的有效性。當結合高質量的推理數據(如合成數據)用于監督微調(SFT)時,RL過程可以增強LLM的長鏈式推理能力。例如,OpenAI的o1模型通過大規模的RL訓練實現了迭代推理、回溯和自我修正。此外,DeepSeek R1和Kimi 1.5的最新進展表明,即使沒有SFT數據,僅通過擴展RL訓練時間,也能引發復雜的推理能力的涌現。
- 推斷時計算 (Test-Time Compute):OpenAI的o1和DeepSeek的R1等推理模型展示了推斷時計算的有效性。這標志著從傳統的增加參數和數據集的策略轉向增強輸出生成效率以獲得更高性能的關鍵轉變。推斷時計算還使得智能體能夠更好地利用LLM,在保持高性能的同時平衡計算成本和執行速度。
關于推斷時計算的分析作者將另文詳細討論或參考作者的文章:《大語言模型時代的智能體:系統綜述 (II)》的第 8 章。后訓練和推斷時計算這兩種方法往往結合在一起應用。專注于后訓練和推斷時擴展突顯了技術和經濟上的考量。僅僅擴大預訓練規模,面臨著指數級成本和遞減的投資回報,這變得越來越不可持續。像DeepSeek R1和OpenAI o1這樣的模型脫穎而出,因為它們的開發成本遠低于GPT-4等早期LLM的成本。與早期需要大量資源的LLM不同,后訓練和/或推斷增強的LLM可以使用更小的合成數據集構建,提供了一種具有成本效益的替代方案。在實際應用中,基于大模型的智能體可以通過利用依賴推理時計算的模型來優化復雜推理任務的表現,同時使用更快、成本效益更高的模型來處理通用語言任務。這樣的模型切換使得應用在推理和語言理解之間取得平衡。
8.2 DeepSeek R1的意義
DeepSeek R1所介紹的方法挑戰了傳統觀念,即廣泛的計算資源和大規模的數據集是開發先進推理能力的前提。通過在后訓練階段利用RL,DeepSeek R1展示了可以高效地實現復雜的推理表現。這種方法不僅使得先進AI技術的獲取更加普及,還通過提供一個減少資源需求的框架,促進了創新。
此外,DeepSeek R1對開源社區而言是一個游戲規則的改變者。它強化了開放協作和共享知識在推進技術方面的重要性。通過使AI工具和模型公開可用,DeepSeek使全球開發者能夠在沒有成本或專有限制的情況下進行實驗、創新并解決現實問題。這與開源運動的基礎原則相符,強調自由、透明和社區驅動的開發。
更重要的是,DeepSeek的方法也解決了一些圍繞AI的倫理問題,如偏見、問責制和透明度。開源AI模型允許更大的審查,促進了社區識別和糾正算法中的偏見或缺陷。這種透明度增加了人們對AI系統的信任,并確保它們在開發時考慮到倫理問題。
DeepSeek現象還有潛力推動全球AI的普及。通過降低進入壁壘,它使得發展中國家和弱勢群體能夠利用AI進行社會和經濟發展。這種包容性是開源哲學的基石,旨在使技術對所有人都可以獲得。
盡管DeepSeek的開源戰略帶來了眾多好處,但也帶來了一系列挑戰。例如,先進AI模型的廣泛可用性引發了關于濫用和負責任AI開發的擔憂。此外,DeepSeek的崛起可能促使更嚴格的制裁和監管,可能會使國際AI研究合作復雜化。
DeepSeek的崛起代表了AI行業的一個關鍵時刻,證明了創新并不僅僅是資金充足的公司專屬的領域。該公司的開源模型為AI技術的民主化作出了重要貢獻,推動了一個更加包容和合作的全球AI社區。隨著越來越多的AI實驗室繼續開發并分享他們的進展,它們將成為開源社區和更廣泛行業的關鍵,幫助負責任地應對相關挑戰,確保AI的好處能夠得到道德和公平的實現。
9. 參考文獻
Brown, T. et al., “Language Models Are Few-Shot Learners,” NeurIPS 2020, 2020-12.
Bubeck, S. et al., “Sparks of Artificial General Intelligence: Early Experiments with GPT-4,” arXiv:2303.12712, 2023.
Christiano, P. F., J. Leike, T. Brown, M. Martic, S. Legg, and D. Amodei, “Deep Reinforcement Learning from Human Preferences,” Advances in neural information processing systems, 30, 2017
DeepSeek-AI, “DeepSeek-V3 Technical Report,” DeepSeek, 2024-12-26.
DeepSeek-AI, “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,” DeepSeek, 2025-01-20.
Ding, R. et al, “Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation,” arXiv:2311.04254v3, 2024
Durante, Z.. et al, “Agent AI: Surveying the Horizons of Multimodal Interaction,” arXiv:2401.03568v2, 2024.
Guan, M. Y. et al, “Deliberative Alignment: Reasoning Enables Safer Language Models,” arXiv:2412.16339v1, 2024.
Hutter, M., Universal Artificial Intelligence: Sequential Decisions Based On Algorithmic Probability, Springer, 2005.
Huang J. et al, “ Towards Reasoning in Large Language Models: A Survey,” arXiv:2212.10403v2, 2023.
Huang, W., P. Abbeel et al., “Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents,” International Conference on Machine Learning - 2022, pp.9118–9147; also arXiv:2201.07207v2, 2022.
Ivison, H. et al, “Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback,” arXiv:2406.09279v2, 2024-10-07.
Kaplan, J., “Scaling Laws for Neural Language Models,” arXiv:2001.08361v1, 2020.
Kimi Team, “Kimi k1.5:Scaling Reinforcement Learning with LLMs,” arXiv:2501.12599v1, 2025-01-22.
Lambert, N. et al, “The History and Risks of Reinforcement Learning and Human Feedback," arXiv:2310.13595v1, 2023-11-28.
Lambert, N. et al, “Tülu 3: Pushing Frontiers in Open Language Model Post-Training,” arXiv: 2411.15124v3, 2025-01-29.
LeCun, Y., “ A Path Towards Autonomous Machine Intelligence, Version 0.9.2,” Open Review, 2022-06-27.
Lightman, H. et al, “Let's Verify Step by Step,” arXiv:2305.20050v1, 2023.
Lu, W., “The Scale Advantage ofChatGPT: Reflections on ‘The Bitter Lesson’,” Medium, 2023-2-5.
Lu, W., “Opportunities in Agents after GPT-4 Turbo,”LinkedIn, 2023-11-15.
Lu, W., “Agents in the Era of Large Language Models: A Systematic Overview (I),” Actus AI Lab, 2025-01-17.
Lu, W., “Agents in the Era of Large Language Models: A Systematic Overview (II),” Actus AI Lab, 2025-01-25.
Meta Llama Team, “The Llama 3 Herd of Models,” arXiv:2407.21783v3, 2024-07-23.
OpenAI, “(OpenAI) Model Spec,” OpenAI Blog, 2024-05-18.
OpenAI, “Learning to Reason with LLMs,”, OpenAI Blog, 2024-09-12.
OpenAI, “OpenAI o1 System Card,” OpenAI Blog, 2024-12-5.
Plaat, A. et al, “Reasoning with Large Language Models: a Survey,” arXiv:2407.11511, 2024.
Qwen Team, “Qwen2.5 Technical Report,” arXiv:2412.15115v2, 2025-01-03.
Rafailov, R. et al, “Direct Preference Optimization: Your Language Model Is Secretly a Reward Model,” arXiv:2305.18290, 2024.
Romero, O. et al, “Synergistic Integration of Large Language Models and Cognitive Architectures for Robust AI: An Exploratory Analysis,” arXiv:2308.09830v3, 2023.
Russell, S. J. and P. Norvig, Artificial Intelligence: A Modern Approach (4thEdition), Pearson, 2020.
Schrittwieser, J. et al, “Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model,” arXiv:1911.08265v2, 2020.
Schulman, J. et al, “Proximal Policy Optimization Algorithms,”arXiv:1707.06347, 2017.
Schultz, J. et al, “Mastering Board Games by External and Internal Planning with Language Models,” Google DeepMind, 2024-12-04
Shao, Z. et al, “DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models,” arXiv:2402.03300v3
Shinn, N. et al, “Reflexion: Language Agents with Verbal Reinforcement Learning,”, arXiv:2303.11366v4, 2023.
Silver, D. et al, “Mastering the Game of Go with Deep Neural Networks and Tree Search,” Nature 529, 2016-01.
Srivastava, A. et al., “Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models,” arXiv.2206.04615, 2022.
Sun, J. et al, “A Survey of Reasoning with Foundation Models,” arXiv:2312.11562v5, 2023.
Sutton, R. , “The Bitter Lesson,” Incomplete Ideas, 2019-3-13
Sutton, R. S. and A. G. Barto, Reinforcement Learning: An Introduction (2ndEdition), The MIT Press, 2018.
Turing, A. M., “Computing Machinery and Intelligence,” Mind 49, 1950.
Wang, P. et al, “Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations,” arXiv:2312.08935, 2023.
Wei, J. et al, “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,” NeurIPS 2022, 2022-12.
Wiener, N., Cybernetics, or Control and Communication in the Animal and the Machine, The MIT Press, 1948.
Yang, M., “Chain of Thought Imitation with Procedure Cloning,” arXiv:2205.10816v1
Yang, S. et al, “Foundation Models for Decision Making: Problems, Methods, and Opportunities,” arXiv:2303.04129v1, 2023
Yao, S. et al, “ReAct: Synergizing reasoning and acting in language models,” In International Conference on Learning Representations (ICLR).
Zhang, Z. et al, “Igniting Language Intelligence: The Hitchhiker’s Guide From Chain-of-Thought Reasoning to Language Agents,” arXiv:2210.03493v1, 2023-10
Zhou, A. et al, “Language Agent Tree Search Unifies Reasoning, Acting, and Planning in Language Models,” arXiv:2310.04406v3, 2024-06-06.
本文轉載自?? MoPaaS魔泊云??,作者: 魯為民
