獎勵驅動學習:LLM后訓練與推理時代的全景綜述
在大語言模型(LLMs)的后訓練與推理Scaling時代,一個革命性范式正在崛起:Learning from Rewards(獎勵驅動學習)。 從 OpenAI-o1和DeepSeek-R1中的強化學習,到測試時的Best-of-N采樣,獎勵信號不再只是訓練噪聲的附屬,而是引領模型走向主動學習的導航星標。它使模型更貼近人類偏好、具備復雜推理能力,推動邁向更通用、更智能、更可控的AI系統!
本文是當前最系統的Learning from Rewards綜述之一,全面梳理該范式在 LLMs 后訓練(Post-Training)與測試時(Test-Time) 的研究趨勢,覆蓋訓練策略、推理機制、輸出糾錯、多模態場景與獎勵模型評測。
論文:Sailing AI by the Stars A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models
鏈接:https://arxiv.org/abs/2406.06852
項目主頁:https://github.com/bobxwu/learning-from-rewards-llm-papers
全文導航
核心范式:Learning from Rewards
從 RLHF 到 GRPO,從 Generate-then-Rank 到 Post-Hoc Correction,我們構建了一個統一的理論框架,全面拆解四大核心組成:
- ?? 語言模型(Language Model):基礎生成引擎
- ?? 獎勵模型(Reward Model):行為評估與反饋機制
- ?? 獎勵信號(Rewards):引導模型學習的價值標尺
- ??? 學習策略(Learning Strategy):如何利用獎勵調整模型行為
獎勵模型的設計:
- 模型架構(Model-based and Model-free)
- 獎勵信號的形式(Scalar, Critique, and Implicit Rewards)
- 評價方式(Pointwise and Pairwise)
- 獎勵的顆粒度(Outcome and Process)
Training with Rewards — 后訓練時代的對齊引擎
后訓練階段,獎勵信號已成為對齊人類偏好與深度推理能力的核心驅動力。
- 訓練策略全景對比:REINFORCE / REINFORCE++ / PPO / DPO / GRPO
- 獎勵類型多樣化:Scalar(數值型)/ Critique(評語型)/ Implicit(隱式)/ Rule-based(規則)/ Process(過程級)
- 獎勵來源廣泛:人類反饋 vs 自動反饋(如 LLM-as-a-Judge、自評機制、知識庫、工具)
?? Inference with Rewards — 推理階段的智能放大器
無需微調,基于獎勵動態調控輸出,輕量高效地釋放LLMs潛能!
- Generate-then-Rank:基于獎勵的候選采樣排序,Best-of-N(Outcome vs Process)
- Reward-Guided Decoding:Token-level與Step-level獎勵引導搜索(支持MCTS、Beam Search等),提升推理路徑的智能探索能力
Post-Inference with Rewards — 輸出后的智能修正器
模型輸出不是終點,獎勵引導的后處理成為提升質量的關鍵手段!
- Self-Correction:模型自我反思與改寫(如Self-Refine、Reflexion)
- External Feedback:外部評審模型、知識庫、工具反饋等提供稀疏/密集獎勵信號
?? Reward Model Benchmarking — 獎勵模型該如何評測?
作為Learning from Rewards 的核心引擎,獎勵模型的評估標準必須科學、全面,才能真正保障對齊效果與泛化能力。
- 評測維度:準確性、穩定性、一致性、泛化能力
- 標注來源:人類專家 ?? vs LLM 判官 ??(如 LLM-as-a-Judge)
- 標注形式:Pointwise(逐項評分)vs Pairwise(兩兩對比)
- 任務覆蓋:Chat / Reasoning / Safety / Multimodal 等多任務評估場景
挑戰與機遇
在邁向更智能、更對齊的大語言模型過程中,Learning from Rewards 仍面臨多項關鍵科學問題:
- ?? 獎勵模型的可解釋性:如何讓獎勵決策更透明、更可信
- ?? 通用獎勵模型:能否跨任務、跨模態構建通用型獎勵系統
- ?? Reward Hacking:如何防止模型“投機取巧”以規避獎勵目標
- ?? 真實交互中的獎勵獲取:能否在開放環境中高效獲取有效反饋
- ?? 持續優化與適應性學習:如何實現長期學習與動態適應機制
為什么值得關注?
- ?? 全面梳理:系統回顧獎勵驅動學習的最新研究方法與發展趨勢
- ?? 統一框架:構建覆蓋訓練、推理、糾錯的概念性技術圖譜
- ?? 方法集錦:涵蓋 200+ 代表性技術與系統化對比分析
- ?? 前瞻視角:聚焦未來挑戰,提出關鍵研究方向與機遇
?? 如果你關注 LLM 的對齊性、推理能力、強化機制或安全保障,或正從事 RLHF / DPO / test-time scaling 等相關研究,本 Survey 將成為你不可或缺的核心參考。
本文轉載自??AI-PaperDaily??,作者:AI-PaperDaily
