萬徑歸于「概率」,華人學者顛覆認知!英偉達大牛力薦RL微調新作
最近,英偉達的高級研究科學家、牛津大學博士yobibyte,推薦了今年3月份公布的arXiv預印本論文。
來自卡內基梅隆大學和康奈爾大學等機構的研究者,在論文中解釋了初看違反直覺的現象:從根本原理上看,微調基礎模型為什么要采用兩階段訓練流程,才能達到最強的結果?
具體而言,當前主流的兩階段方法需要訓練獎勵模型(reward model,RM)為下游強化學習(reinforcement learning,RL)提供在線反饋;而不是直接通過離線最大似然估計,對策略參數進行優化。
從信息論角度看,獎勵模型的間接處理必然導致信息損失,而在線策略采樣(on-policy sampling)并沒有創造新信息。
論文鏈接:https://arxiv.org/abs/2503.01067
為解釋這一矛盾,研究人員通過理論與實證的雙重視角,系統檢驗了關于RL在FT中價值的若干假說。
在所有研究人員考察的假說中,最具解釋力的發現是:當任務存在「生成-驗證」差距(generation-verification gap)時,在線微調表現更好,是因為結合了以下兩個因素:
1. 驗證器更易學習:從偏好數據中學習相對簡單的RM(驗證器)更為容易
2. 策略空間過濾:下游RL過程,可以把搜索空間限制在對驗證器來說最優的策略(即生成器)上
正是這種機制帶來了在線微調的優越性能。
圖1:在線微調優越性能的解釋
LLM微調:強化學習重要嗎?
在學術界、工業界和開源社區的對比研究中,有一種反復出現的現象:相對復雜的雙階段在線微調方法,普遍優于更簡單、純離線的方案。
更廣義地說,交互式監督微調(supervised fine-tuning,SFT),也已經被證明優于傳統的「next-token prediction」訓練方式。
值得注意的是,當前最先進的復雜推理模型(如OpenAI的o1和DeepSeek的r1)依然采用在線強化學習訓練,而非離線最大似然估計。
這些現象引出了一個根本性問題——
如果只是想最大化似然函數,那么采用雙階段、交互式的微調流程到底有什么價值?
后訓練的理論難題
之所以難以對此給出令人滿意的回答,部分原因在于,傳統強化學習的在線訓練理論,難以直接遷移至基礎模型的后訓練場景。
一些反直覺的發現似乎暗示:當前主流的交互式訓練范式,可能只是條「鍍金」而非「真金」的技術路徑。
對此,研究者從理論和實證兩個角度深入分析了強化學習在微調(FT)中的價值,主要聚焦于偏好微調(preference fine-tuning)。
同時也指出類似的分析可以應用于監督微調(SFT)和基于驗證器的強化學習場景。
他們的主要貢獻包括以下三點:
1. 等價性證明
在理想化假設下,在線和離線的PFT技術應當能產生質量相當的策略。
2. 反對先前假設的證據
特別地,他們提出證據反對多種已有的解釋。
3. 備擇假設的證據
他們提出并驗證了一個新的假設,用于解釋存在「生成-驗證」差距的問題中,強化學習的作用。
兩階段交互式微調的價值假設:兩階段交互式微調將待探索的策略空間,縮減至僅適用于相對簡單的驗證器最優策略集合。
用統計學習的術語來說,這個假設意味著,強化學習在微調中的真正價值在于:它是目前已知的最方便的「適當學習」(proper learning)方法。
相比之下,離線方法屬于「不當學習」(improper learning)。
在檢驗的所有假設中,反對這一假設的證據最少。
接下來,我們將一睹在線與離線偏好微調(PFT)之間的一系列等價定理,并進一步探討,如何將這些理論等價性與現實中在線/離線性能差距的問題統一起來。
統一角度下的RL微調
這部分將從似然函數的角度,統一不同的偏好微調方法。
統一的獎勵模型
下文用Π表示策略集合,用R表示獎勵模型集合,其中每個獎勵模型r∈R都是從完整軌跡集合映射到實數的函數
在實際應用中,通常策略模型和獎勵模型使用相同的網絡架構,并且往往從相同的初始權重(checkpoint)和數據集出發進行訓練。
這種對整個軌跡進行評估、依賴完整上下文的獎勵模型被稱為「全局獎勵模型」(global reward models),即非馬爾可夫型獎勵模型。
但策略與獎勵模型的聯系不止于共享模型架構。
更進一步地,當獎勵模型的形式為:策略對每一個token的對數概率之和時,二者之間存在更精確的「結構同構」關系。
形式化地,「局部獎勵模型」(local reward models)定義為:
即,每個局部獎勵模型都是某個策略π生成的軌跡上所有token的對數概率之和。
由此可得:
這類獎勵模型和策略集合之間存在一一對應關系。
統一的微調目標函數
從整體上來看,可以將各種微調任務(例如監督微調SFT、偏好微調PFT)統一地表述為以下形式的策略優化問題:
這個目標函數包含兩個部分:第一項是正向KL散度,第二項目是反向KL散度。
為簡化表述,暫時設β=1,并將第二項的KL正則項替換為熵正則項(即與「均勻策略」的KL散度):
其中,??(π)表示策略π的(因果)熵,其定義為:
也就是說,熵越大,策略越「分散」或「探索性強」,這在優化中起到與KL正則類似的作用。
無論是在線還是離線的偏好微調方法(PFT),都可以看作是在優化這個統一的目標函數,只不過使用的手段和路徑截然不同。
統一目標函數的普適性
值得注意的是,這個目標函數并不局限于偏好微調;
同樣也適用于:監督微調(SFT);使用二分類標簽(0/1)訓練出的獎勵模型所驅動的強化學習(RL with reward models)。
也就是說,這是一個廣義的、適用于多種微調方式的統一框架。
極大似然=最小化正向KL散度
最大似然估計(maximum likelihood estimation,MLE)等價于最小化從經驗數據分布到模型分布的正向KL散度(Forward KL)。
在偏好建模中,這一點同樣成立。
以經典的Bradley-Terry模型為例,偏好概率可以表示為:
其中「?」表示「更偏好」(preferred to),σ是sigmoid函數。
換句話說,每一個全局獎勵模型對應一個Bradley-Terry概率模型。
接下來的目標是在訓練數據上,最大化這種概率模型的似然函數,來找到最優的獎勵模型。
可以看到,擬合全局獎勵模型,實際上就是在解決標準的邏輯回歸/分類問題。
類似地,如果使用的是局部獎勵模型r^π(也就是由策略π生成的對數概率之和),那么也可以通過最大似然估計(MLE)來擬合這個策略。
方法是將r^π表示為對數概率的和,代入Bradley-Terry模型中:
在不考慮參考策略π_ref的前提下,像直接偏好優化(Direct Preference Optimization,DPO)這樣的離線偏好微調(offline PFT)方法的本質:
局部獎勵模型,是在軌跡級別上進行的分類問題。
換句話說,DPO的核心就是:讓策略學會判別「好」軌跡與「差」軌跡,學習目標與邏輯回歸極其類似。
最大熵=軟強化學習
給定一個全局獎勵模型r,我們通常希望計算其對應的軟最優策略(soft-optimal policy)
也就是說,大家希望找到一個策略,在期望獎勵最大化的同時,同時保持一定的熵(探索性)。
如果在所有馬爾可夫策略上對上式求得閉式解,那么最終得到的策略,其在給定提示詞s_0下生成軌跡的分布為:
其中Z(r,s_0)是歸一化常數,確保所有概率之和為1。
請注意,如果兩個軌跡ξ1,ξ2具有相同的起始提示詞s_0,則它們之間的偏好概率可以寫成:
換句話說,BT模型中的偏好概率,其實可以看作是軟最優策略下軌跡概率的對數差的sigmoid函數。
一個重要但不太為人所知的觀點是:
求解上述軟強化學習問題,其實等價于將Pr?進行反向KL投影(Reverse KL Projection)到策略誘導的軌跡分布空間中。
在線與離線策略微調(PFT)均可視為對公式(3)的求解。
離線方法直接在策略類Π上,通過前向KL散度將偏好數據集D投影到策略空間。
而在線方法則首先在獎勵模型類R下將D進行投影,再通過策略優化映射至策略空間。
圖2:在線與離線策略微調(PFT)均可視為對公式(3)的求解。
同構類別之間的等價性
前面的討論引出了一個問題:如果最終還是回到策略空間(policy space),那么引入獎勵模型(reward model)繞一步遠路到底有什么意義?
下面將證明,在某些假設條件下,這么做其實只是在用一種更曲折的方式實現似然最大化。
現在給出第一個等價性結論。
在沒有參考策略(reference policy)的情況下,在線和離線的偏好微調(PFT,Preference Fine-Tuning)會得到相同的解,如果滿足一些額外的特定假設。
換一種更傳統的說法,這意味著最大似然估計對重參數(reparameterization)是「不變」的。
在假設函數可以被實現的前提下,還可以在引入參考策略的情況下證明一個類似的結果:
綜上所述,前述結果表明:在特定假設條件下,所有路徑最終都歸結為似然函數。
也就是說,相較于離線極大似然估計,投入計算資源進行策略采樣(on-policy sampling)并不能帶來顯著優勢。
為了更深入地理解前述理論的局限性,研究者設計并開展了一系列受控實驗,用以檢驗提出的各種假設。
強化學習的5大假設
這次的論文聚焦于一個典型任務:通過偏好反饋學習摘要生成。
實驗中,在線DPO與離線DPO之間的唯一區別是訓練數據不同
——兩者的超參數完全一致。
在圖3中可以看到,盡管盡可能控制了干擾因素,但在線DPO的表現依然明顯優于離線DPO。
為了消除「操控」評估器的疑慮,圖4計算了統一的PFT目標函數即公式(2)。即便把gpt-4o從評估流程中移除,在線PFT的表現仍然優于離線PFT。
簡而言之,在上述嚴格控制條件下進行的實驗結果,與此前的多項研究一致:在線偏好微調(PFT)優于離線 PFT。
類似的結論也出現在其他相關領域,例如:監督微調(SFT)中的強化學習價值;基于驗證器的訓練方法中強化學習的效果表現也具有類似優勢。
接下來是對5種RL微調假設的反駁。
假設H1:在線樣本的內在價值
從直覺上看,相比于使用離線數據集,從當前策略下更可能出現的樣本中獲取反饋,似乎更有價值。
但問題在于,究竟是什么機制讓on-policy數據在策略優化中真正起作用?特別是考慮到這些數據的標簽,只是由一個訓練自相同離線數據集的獎勵模型推斷出來的。
在信息論的角度下,根據數據處理不等式,on-policy數據本質上是冗余的。
這是因為從當前策略中采樣,無法創造出任何「新的」信息(即真正的人類偏好)來用于學習。
假設H2:離線PFT對參考策略正則化無效
盡管KL正則化在某種程度上導致了在線與離線方法之間的性能差距,但多個證據表明,它并不能完全解釋這種差距。
首先,DPO中直接添加反向KL懲罰項,無法徹底彌補與真正在線PFT方法之間的差距,即便有助于改善性能。
其次,一些并不顯式地將策略正則化到參考策略的PFT方法,在多個基準測試中依然表現優異。
第三,在某些微調任務中,保持與參考策略的接近并不是一個特別有幫助的策略,但實驗中仍然觀察到在線方法優于離線方法。
最后,圖3展示的實驗中,在線與離線算法使用的是相同的正則項,但依然觀察到了性能上的差距。
假設H3:在線PFT相對更容易
有人可能會提出這樣的問題:離線PFT是否面臨比在線PFT更難的優化問題,從而更容易陷入額外的局部最優解?
然而,在實驗中,在線與離線PFT都使用的是同一個優化器(DPO)。
兩者之間唯一的區別只是輸入的數據不同。
因此,很難解釋為什么在使用相同數量的樣本、相同的優化器的前提下,在線樣本就能讓優化變得更容易。
對這一假設的進一步解釋,涉及「計算-統計差距」(computational-statistical gaps)這一現象:
在某些問題中,即使從信息論角度看某些數據是冗余的,它們仍可以減少找到問題解所需的計算量。
因此,可以把這些(信息冗余的)on-policy樣本看作是對策略搜索空間施加的額外「約束」,有助于優化過程的收斂。
為了驗證這一假設是否成立,擴大用于訓練在線DPO策略的偏好數據集的規模,研究人員進行了提示增強(prompt augmentation),幾乎將訓練集的規模擴大了三倍。
按照直覺,如果這個細化后的假設是正確的,那么這些「冗余」的樣本應該能帶來策略性能的提升。
然而,在圖5中的結果卻相反:下游任務的勝率幾乎沒有任何提升。
這種現象與該假設的預測并不一致,從而反駁了該假設。
圖5:將在線DPO所使用的提示(prompts)擴展對勝率的影響。
假設H4:全局獎勵模型利用更多數據訓練
目前最好的全局獎勵模型的訓練數據,往往在比離線PFT使用的偏好數據集更廣泛。
因此,一個自然的問題是:在本質上,是否全局獎勵模型就更容易從廣泛分布的數據中學習,而相比之下,局部獎勵模型或策略模型則沒有這種能力。
在圖6中,基于SFT策略進行的在線DPO,與離線DPO的表現大致相當。
但令人意外的是:當在離線DPO策略的基礎上,研究人員繼續進行在線DPO訓練時,性能仍然有提升,盡管所有模型都是用一個相對狹窄、on-policy的數據集訓練的。這種結果并不符合該假設的預期。
圖6:在離線DPO策略基礎上實施在線DPO迭代能提升勝率
至少在作者研究的問題類型上,并沒有證據表明:在利用數據分布方面,策略模型和獎勵模型存在本質上的差異。
假設H5:全局獎勵模型泛化能力更強
還有一種假設:獎勵模型在分布外(out-of-distribution, OOD)具有比策略更好的泛化能力。
在視覺推理等任務中找到了類似的實證,支持這種差異確實存在。
不過,這一假設背后還有一些未解之謎。為此,研究者設計了一系列實驗。
首先在驗證集上,比較了使用相同骨干模型的DPO獎勵模型、局部(Local)獎勵模型和全局(Global)獎勵模型的似然得分(即作為分類器時的分布內泛化能力)。
如圖7所示,研究人員穩定地觀察到:當強制采用逐token的分解方式(token-wise decomposition)時,模型在分布內的表現反而變差。
此外,加入正則化也會進一步削弱獎勵模型在留出數據上的分類準確率。
圖7:從全局獎勵模型轉換到局部獎勵模型,或從局部獎勵模型轉換到DPO獎勵模型對驗證準確性的影響
接下來,他們評估這些模型在分布外(OOD)條件下的泛化能力。
具體做法是:在來自SFT策略和離線DPO策略的樣本上,測試它們的Best-Of-N(BoN)性能。
正如圖8所示,隨著N的增加,模型在分布內的驗證似然越高,其BoN性能也越好,兩者呈現出完美的相關性。
圖8:全局(global)、局部(local)和DPO獎勵模型在Best-Of-N(BoN)勝率上的表現
簡要總結:盡管從信息論角度來看,在線PFT和離線PFT并沒有本質的區別,但在不同的采樣分布、打分方式和模型規模下,在線PFT一直優于離線PFT。
此外,全局獎勵模型似乎比局部獎勵模型更容易學習,在驗證集上的似然得分也更高。
生成與驗證差距:H6假設
竟然上面的假設都站不住腳,不禁要問:是否存在某些理論分析中未考慮到的問題特征?
一種可能的解釋是:在很多實際任務中,獎勵函數本身比對應的(軟)最優策略要簡單。
這個觀點正是經典逆強化學習(inverse RL)理論背后的核心論點——
相比于行為克隆(即通過最大似然直接學習策略),從示范中學習獎勵函數再用強化學習解碼策略,可能是一種更優的策略學習方式。
將策略視為生成器,獎勵模型視為驗證器,可以把上述論點理解為計算機科學中廣泛存在的現象:生成通常比驗證更困難。
根據標準的一致收斂理論(uniform convergence),可以推斷出:要想準確學習驗證器所需的樣本數量,應當少于學習生成器所需的樣本。
然而,一系列研究發現:過參數化模型(如深度神經網絡)在使用隨機梯度下降(SGD)優化時,往往可以無需更多樣本就學到較淺的計算電路。
在實際中,更大的網絡通常并不會帶來更高的樣本復雜度。
基于前文的觀察,作者提出了一個新的假設,用以解釋在滿足以下兩種條件的問題中,在線與離線微調之間性能差距的根本原因:
1. 存在生成與驗證之間的難度差距(generation-verification gap);
2. 獎勵函數類中包含的函數越簡單,越容易通過少量樣本學得。
在統計學習理論中,如果一個算法需要在比目標函數所在集合更大的假設空間中進行搜索,這被稱為不當學習(improper learning)。
換句話說,這一假設認為:
離線微調是在更難的、不當學習問題上做優化;
而在線微調則通過構建獎勵模型、限制搜索空間,有效地將問題簡化成「適當學習」問題,從而降低了問題復雜度,帶來了更好的最終性能。
這一假設明確指出:在統計學習難度上,在線與離線微調方法之間存在本質差異,從而為兩者性能差距提供了一種新的理論解釋。
在「可實現性假設」(realizability assumption)下,作者進一步提出了一個正式的定理:
通俗地說,這個定理說明:如果第二步中基于RL的反向KL投影過程不會帶來信息損失,那么RLHF就能從受限策略空間中恢復出最大似然估計的解。
然而,問題在于:大家都不知道如何在實踐中真正施加這個「策略空間約束」,除非像在線微調那樣,先訓練一個相對簡單的獎勵模型,再用RL去優化它——也就是通過兩階段的過程自然實現這一限制。
從直覺上講,這個假設可以理解為:雖然所有方法最終都指向最大似然估計(likelihood),但如果基于一個相對簡單的獎勵模型進行強化學習(RL),就等于在策略空間中走了一條「捷徑」。
無法證偽的H6假設
首先,有一個自然的問題:對于摘要生成這類具體任務,有什么證據表明「驗證比生成更容易」?
根據圖9可以發現,即便使用的全局獎勵模型比生成策略的模型小得多,其Best-of-N(BoN)性能與使用和策略模型同等規模的獎勵模型幾乎沒有區別。
反過來也成立:即使使用比生成策略更大的全局獎勵模型,其BoN表現也沒有顯著提升。
這說明,在這一任務中,「驗證器」并不需要像生成器那樣復雜,也能實現相似效果——驗證確實更簡單。
圖9:在不同基礎策略規模下,全局獎勵模型規模與BoN性能之間的關聯性
接下來觀察到:假設H6,能準確解釋之前所有的實驗現象。
比如,在線微調表現更優(圖3/圖4),可以通過策略搜索空間有效縮減來解釋;
即便在加入提示增強(圖5)、樣本或標簽分布變化(圖6)等條件下,結果仍成立;
總結來說,這些變量(數據量、分布、模型規模等)都沒有改變「生成vs驗證」的相對難度本質,所以才可以始終能觀察到在線與離線PFT之間一致的性能差距。
這也就意味著:目前的實證結果無法推翻假設H6。
在圖10中,研究者發現一個關鍵結果:
與此前所有實驗不同,「生成難度≈驗證難度」的簡化設置下,在線DPO沒有顯著提升離線DPO策略的性能。
這與假設H6的預測一致:只有當策略比獎勵函數更復雜時,在線PFT才能通過「先學簡單獎勵、再做策略優化」來縮小搜索空間,從而優于離線PFT。
而當生成過程本身足夠簡單時,這種優勢自然也就不復存在了。
此外研究者使用ROUGE-L指標作為獎勵函數,進行了實驗。
該指標本質上是計算生成摘要中有多少單詞(按順序)出現在人工參考摘要中。
對于此類問題,最低復雜度的驗證器只需包含從提示語到參考摘要文本的查找表。
這意味著生成與驗證的復雜度理應相當。
從直觀上看,這種設置實際上增加了獎勵函數的復雜性。
如圖11所示,與之前所有實驗結果不同,基于學習得到的全局獎勵模型進行在線DPO迭代,并未提升基礎離線DPO策略的性能。
然而,額外增加一輪離線DPO訓練確實(稍微)提高了ROUGE-L分數,這表明尚未達到ROUGE-L指標下的理論性能上限。
量化生成與驗證的性能差距
另一個自然的問題是:到底需要多少真正的人類偏好樣本,才能讓H6所描述的「在線與離線PFT的統計差異」消失?
圖12顯示即使逐步減少訓練所用偏好數據集的比例,在線和離線PFT在勝率上的差距依然相對穩定。
需要說明的是,這一結果并不與假設相矛盾——
隨著數據量增加,可能在學習一系列復雜度遞增的獎勵模型(RM),而每個RM仍比其對應的軟最優策略更簡單。
不過,H6預測在數據量趨于無限時,這個差距應該會消失。
因為當樣本足夠多時,我們將獲得足以完全確定狀態空間中所有位置生成器的數據——此時即使擁有完美驗證器也無法提供新信息。
圖12的結果表明,對于摘要生成這一具體任務,要完全確定生成器所需的數據量可能顯著超過現有訓練集規模。
在其他任務中也有類似的發現,即先學習驗證器(獎勵模型)再學習生成器(策略)優于直接學習生成器。
這類方法在其他的一些場景也取得了顯著效果,進一步的支持了H6假設成立。
同構關系并非雙向對等
大家心中可能仍有一個疑問:如果在軟強化學習(soft RL)中,策略與獎勵是同構的,為什么學習其中一個會比另一個更難?
的確,依據公式(11),可以從獎勵函數推導出軌跡分布,然后通過軟值迭代(soft value iteration)從中恢復出對應的策略。
Rafailov等人提出了一個非常巧妙的觀點:
我們其實可以逆轉這種同構關系,即從策略反推出獎勵(最多差一個與prompt相關的偏移項,而該項會在Bradley-Terry似然中抵消)。
也就是說,我們可以將一個局部獎勵模型用它隱含的軟最優策略來表示,見公式(9)。
論文鏈接:https://arxiv.org/abs/2305.18290
然而,Rafailov等在論文中指出,將局部獎勵模型視為Q函數而非原始獎勵函數,會更貼近實際情況。
Q函數本質上是一個更復雜且形式上不同的對象。
雖然這種「形式上的同構」存在,但它并不意味著在兩個方向上的映射是對等的。
從獎勵函數R映射到策略或Q函數,需要通過強化學習求解,這是一個困難的問題;而在策略與Q函數之間的轉換,只需進行簡單的對數/指數(log/exp)運算。
換句話說:試圖學習一個Q函數,其實就等價于直接學習對應的策略;
因此,像DPO這類優化局部獎勵模型(本質上是Q函數)的方法,并沒有繞開直接學習生成器所面臨的統計難題。
結論是:
雖然策略與獎勵之間存在同構關系,但這條路不是雙向道。
作者介紹
Wen Sun
從2020年7月起,他是美國康奈爾大學計算機科學系助理教授。
他擁有卡內基梅隆大學博士學位。
2014年,他于北卡羅來納大學教堂山分校獲得計算機科學碩士學位。
2012年,他完成浙江大學與加拿大西蒙菲莎大學大學雙學位項目,并獲得了計算機科學學士。
他榮獲2025年斯隆研究獎、2024年美國國家科學基金會職業獎。
Zhiwei Steven Wu
他現任卡內基梅隆大學計算機科學學院助理教授,主要任職于軟件與社會系統系(社會計算項目),同時兼任機器學習系和人機交互研究所教職。此外,還擔任CyLab安全研究所與理論組成員。
2017年6月,他博士畢業于賓夕法尼亞大學。
2012年5月,他從巴德學院本科畢業,獲得數學與計算機科學學士學位。
他的研究興趣廣泛涵蓋算法與機器學習領域。