大模型強(qiáng)化學(xué)習(xí)新突破——SPO新范式助力大模型推理能力提升!
當(dāng)前,強(qiáng)化學(xué)習(xí)(RL)在提升大語言模型(LLM)推理能力方面展現(xiàn)出巨大潛力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分證明了 RL 在增強(qiáng) LLM 復(fù)雜推理能力方面的有效性。
然而,要實(shí)現(xiàn)有效的強(qiáng)化學(xué)習(xí),需要解決一個(gè)根本性的挑戰(zhàn),即信用分配問題(credit assignment):在大語言模型的場景下,如何將整個(gè)序列(LLM 的回復(fù))最終的評估結(jié)果,歸因到序列中具體的決策動(dòng)作(token)上。
這一問題的困難在于獎(jiǎng)勵(lì)信號非常稀疏 — 只能在序列結(jié)束時(shí)才能獲得明確的成功或失敗反饋。
當(dāng)前主要方法
在強(qiáng)化學(xué)習(xí)中,通常采用優(yōu)勢值估計(jì)(advantage estimation)的方法來解決信用分配問題。目前針對大語言模型的強(qiáng)化學(xué)習(xí)方法主要分為兩類,它們之間的區(qū)別在于優(yōu)勢值估計(jì)的粒度不同。
粗粒度的軌跡級 (trajectory-level) 方法,如 DeepSeek R1 使用的 GRPO,只根據(jù)最終的獎(jiǎng)勵(lì)為整個(gè)序列計(jì)算一個(gè)優(yōu)勢值。這種方法雖然高效但反饋信號過于粗糙,LLM 無法對錯(cuò)誤回答中正確的部分進(jìn)行獎(jiǎng)勵(lì),也無法對正確回答中冗余的部分進(jìn)行懲罰。
另一種極端是細(xì)粒度的 token 級(token-level)方法,如經(jīng)典的 PPO。這類方法為每個(gè) token 估計(jì)優(yōu)勢值,需要依賴額外的 critic 模型來預(yù)測每個(gè) token 的狀態(tài)價(jià)值(V 值)。然而,在大語言模型的強(qiáng)化學(xué)習(xí)任務(wù)中,不同 prompt 對應(yīng)的軌跡分布差異很大,而且在訓(xùn)練過程中每個(gè) prompt 采樣出來的模型回復(fù)數(shù)量非常有限,critic 模型難以訓(xùn)練好,造成 token 級的優(yōu)勢值估計(jì)誤差很大。
新的 SPO 框架
為突破這一瓶頸,來自中科院軟件所和香港城市大學(xué)的的研究團(tuán)隊(duì)創(chuàng)新性提出了 Segment Policy Optimization (SPO) 框架。
- 論文題目:Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models
- 作者:Yiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiu
- 鏈接:https://arxiv.org/abs/2505.23564
- 代碼鏈接:https://github.com/AIFrameResearch/SPO
SPO 使用了一種中等粒度的段級(segment-level)優(yōu)勢值估計(jì)方式。它不像軌跡級方法只在最后一步計(jì)算優(yōu)勢,也不像 token 級方法每步都計(jì)算優(yōu)勢,而是將生成的序列劃分為若干相連的段,計(jì)算每個(gè)段的優(yōu)勢值。
這種段級的優(yōu)勢值估計(jì)方式具有幾個(gè)明顯的優(yōu)勢:
(1) 更優(yōu)的信用分配:相比軌跡級方法,段級方法能夠提供更局部化的優(yōu)勢反饋,讓模型能夠獎(jiǎng)勵(lì)錯(cuò)誤回答中仍然有價(jià)值的部分,同時(shí)也能懲罰正確回答中冗余和無效的片段。
(2) 更準(zhǔn)確的優(yōu)勢值估計(jì):相比 token 級方法,段級方法所需的估計(jì)點(diǎn)數(shù)量更少,從而能夠有效利用蒙特卡洛(Monte Carlo, MC)采樣得到更加準(zhǔn)確且無偏的優(yōu)勢值估計(jì),而無需再依賴額外且不穩(wěn)定的 critic 模型。
(3) 更靈活、更易調(diào)整:段級的劃分方式可以任意定義,并不要求語義上的完整性,因此可以靈活地在 token 級與軌跡級之間自由調(diào)整粒度,并且可以適應(yīng)不同的任務(wù)和應(yīng)用場景。
SPO 框架主要包含三個(gè)核心部分:(1) 靈活的段級劃分策略;(2) 基于蒙特卡洛采樣的段級優(yōu)勢值估計(jì);(3) 利用段級優(yōu)勢值進(jìn)行策略優(yōu)化。
這種模塊化的設(shè)計(jì)使框架具備高度的靈活性,不同的部分可以有不同的實(shí)現(xiàn)策略,以適用不同的應(yīng)用場景。
該團(tuán)隊(duì)進(jìn)一步針對不同的推理場景提出 SPO 框架的兩個(gè)具體實(shí)例:對于短的思維鏈(chain-of-thought, CoT)場景,提出了 SPO-chain,該方法使用基于切分點(diǎn)(cutpoint-based)的段劃分和鏈?zhǔn)絻?yōu)勢值估計(jì);對于長 CoT 場景,提出極大提升 MC 采樣效率的樹形結(jié)構(gòu)優(yōu)勢值估計(jì)方法。
此外,該團(tuán)隊(duì)還提出了一種 token 概率掩碼(token probability-mask)策略優(yōu)化方法,選擇性的對段內(nèi)的低概率 token 計(jì)算損失而非段內(nèi)的所有 token。作者認(rèn)為這些 token 是模型推理軌跡可能發(fā)生分叉的地方,是段級優(yōu)勢值產(chǎn)生的主要原因。這種方法可以用于 SPO-chain 和 SPO-tree,從而進(jìn)一步強(qiáng)化信用分配。
框架及核心技術(shù)
SPO 框架主要圍繞以下三個(gè)具有挑戰(zhàn)性的問題進(jìn)行設(shè)計(jì):(1) 如何將生成的序列劃分為多個(gè)段?(2) 如何準(zhǔn)確且高效地估計(jì)每個(gè)段對應(yīng)的優(yōu)勢值?(3) 如何利用段級優(yōu)勢值來更新策略?SPO 的三個(gè)核心模塊分別解答上面三個(gè)問題,每個(gè)模塊包含多種可選策略,來適用于不同的場景:
1. 段劃分 (Segment Partition):
a) 基于切分點(diǎn)的段劃分 (Cutpoint-based Partition): 為短思維鏈場景設(shè)計(jì),將段劃分點(diǎn)放置在狀態(tài)值(V 值)更有可能發(fā)生變化的地方。根據(jù) token 概率動(dòng)態(tài)確定段邊界,優(yōu)先在模型 “猶豫” 或可能改變推理路徑的關(guān)鍵點(diǎn)(cutpoints)進(jìn)行劃分,使信用分配更精確。比如,在下圖例子中,標(biāo)記為紅色的 token 是關(guān)鍵點(diǎn),而標(biāo)記為藍(lán)色的豎杠是分段結(jié)果。
b) 固定 token 數(shù)量段劃分 (Fixed Token Count Partition): 將序列劃分為固定長度的段,便于樹形結(jié)構(gòu)的組織和優(yōu)勢值估計(jì),為 SPO-tree 設(shè)計(jì)。
2. 段級優(yōu)勢值估計(jì)(Segment Advantage Estimation):
a) 鏈?zhǔn)絻?yōu)勢值估計(jì) (Chain-based) 方法:在短思維鏈場景下,MC 采樣的成本不高,該團(tuán)隊(duì)采用一種直接的段級優(yōu)勢值估計(jì)方式,獨(dú)立估計(jì)每個(gè)段邊界的狀態(tài)值(V 值),然后計(jì)算段級優(yōu)勢值。以下公式展示了鏈?zhǔn)絻?yōu)勢值的估計(jì)方法。
b) 樹形優(yōu)勢值估計(jì) (Tree-based): 在長思維鏈場景下,MC 估計(jì)的代價(jià)很高,團(tuán)隊(duì)提出了一種高效的樹形估計(jì)方法:將采樣軌跡組織成樹形結(jié)構(gòu),通過自底向上的獎(jiǎng)勵(lì)聚合計(jì)算狀態(tài)價(jià)值(V 值),同一個(gè)父節(jié)點(diǎn)的子節(jié)點(diǎn)形成一個(gè)組,在組內(nèi)計(jì)算每個(gè)段的優(yōu)勢值。這種方式將用于 V 值估計(jì)的樣本同時(shí)用于策略優(yōu)化,極大提高了樣本效率。以下公式展示了樹形優(yōu)勢值估計(jì)方法。
3. 基于段級優(yōu)勢值 token 概率掩碼策略優(yōu)化(Policy Optimization Using Segment Advantages with Token Probability-mask):
在得到段級優(yōu)勢值以后,為了進(jìn)一步提高信用分配,團(tuán)隊(duì)創(chuàng)新性地提出 token 概率掩碼策略優(yōu)化方法,在策略更新僅將段級優(yōu)勢值分配給該段內(nèi)的低概率(關(guān)鍵)token,而非所有 token。這種方法能更精確地將獎(jiǎng)勵(lì) / 懲罰賦予關(guān)鍵的決策點(diǎn),提升學(xué)習(xí)效率和效果。下面分別展示了 SPO-chain 和 SPO-tree 的優(yōu)化目標(biāo)。
a) SPO-chain 優(yōu)化目標(biāo):
b) SPO-tree 優(yōu)化目標(biāo):
對比基線方法
如下圖所示,在短思維鏈場景,使用 RhoMath1.1B 作為基座模型,使用 GSM8K 訓(xùn)練集進(jìn)行訓(xùn)練,對比各種訓(xùn)練算法,使用 SPO 訓(xùn)練得到的模型測試集正確率更高。
對于長思維鏈場景,如下圖所示,使用 DeepSeek-R1-Distill-Qwen-1.5B 作為基座模型,使用 MATH 數(shù)據(jù)集進(jìn)行訓(xùn)練,在相同的訓(xùn)練時(shí)間下,測試集正確率比 GRPO 更高。
下表展示了在長思維鏈場景下的更多對比結(jié)果:與同期基于相同基座模型(DeepSeek-R1-Distill-Qwen-1.5B)并使用 GRPO 方法訓(xùn)練得到的模型(DeepScaleR、STILL-3)相比,盡管 SPO 僅使用 MATH 數(shù)據(jù)集且僅使用 4K 的最大上下文長度進(jìn)行訓(xùn)練,SPO-tree 在各個(gè)上下文長度評測下表現(xiàn)優(yōu)秀。值得注意的是,盡管 DeepScaleR 在 32K 上下文長度評測下表現(xiàn)最佳,但它在較短上下文長度(2K 與 4K)下卻表現(xiàn)最差,甚至不及原始基座模型。這表明,GRPO 訓(xùn)練方法可能未有效優(yōu)化模型的 token 效率,導(dǎo)致輸出存在較多冗余,從而在上下文長度有限的情形下出現(xiàn)正確率下降的問題。
分段粒度的影響
通過實(shí)驗(yàn)發(fā)現(xiàn),很細(xì)的粒度 (int2,每個(gè)兩個(gè)切分點(diǎn)進(jìn)行分段),相比于中等粒度 (int5),僅有微小提升,但是過粗的粒度 (int100),相比于中等粒度 (int5),正確率下降很大。證明了 SPO 采用中等粒度優(yōu)勢值的有效性。
段劃分方式的影響
實(shí)驗(yàn)表明,在短思維鏈場景下,采用提出的基于切分點(diǎn)的段劃分方式效果最好,優(yōu)于采用換行符進(jìn)行劃分(VinePPO)以及固定 token 數(shù)量劃分(Fixed-token-count)。
Token 概率掩碼消融
實(shí)驗(yàn)表明,將 token 概率掩碼去除會(huì)導(dǎo)致 SPO-chain 正確率下降,更值得注意的是:將 token 概率掩碼應(yīng)用到 GRPO 上,會(huì)讓其正確率有明顯上升。
不同樹結(jié)構(gòu)的影響
實(shí)驗(yàn)表明,更小的樹結(jié)構(gòu)在早期正確率更高,可能因?yàn)楦鞉哌^更多的數(shù)據(jù)樣本。然而隨著訓(xùn)練的進(jìn)行,更大的樹結(jié)構(gòu)會(huì)有更好的正確率,因?yàn)楦蟮臉浣Y(jié)構(gòu)對于段級優(yōu)勢值的估計(jì)更加準(zhǔn)確。
總結(jié)
該工作提出了一種基于中間粒度段級優(yōu)勢值的 RL 訓(xùn)練框架 SPO,在 token 級和軌跡級之間更好的平衡,具有比軌跡級更好的信用分配,同時(shí)僅需要少量優(yōu)勢值估計(jì)點(diǎn),可以使用有效無偏的 MC 方式進(jìn)行估計(jì),不需要額外的 critic 模型。
文章同時(shí)提出了 SPO 的兩個(gè)實(shí)例,為短思維鏈場景設(shè)計(jì)的 SPO-chain 以及為長思維鏈場景設(shè)計(jì)的 SPO-tree,通過實(shí)驗(yàn)證明了 SPO 框架和兩個(gè)實(shí)例的有效性。