TTS和TTT已過時?TTRL橫空出世,推理模型擺脫「標注數據」依賴,性能暴漲
在大語言模型(LLMs)競爭日趨白熱化的今天,「推理能力」已成為評判模型優劣的關鍵指標。OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSeek-R1 等模型的驚艷表現背后,測試時縮放(TTS)技術功不可沒。
測試時縮放(TTS,Test-Time Scaling)是一種提升大語言模型推理能力的新興策略,通過在測試階段優化推理過程(如多數投票、蒙特卡洛樹搜索等)提升大型語言模型(LLMs)的性能,而無需修改模型參數。
研究表明,TTS 在計算效率上優于預訓練階段擴大模型規模,能以更低資源成本實現更好表現。然而,TTS 依賴預訓練知識,在面對未標注新數據或輸入分布變化時,泛化能力受限。如 OpenAI o3 在某基準任務上達到 75.7% 的成功率,對更復雜的新任務卻僅能解決 4% 的問題。
為克服 TTS 的局限,測試時訓練(TTT,Test-Time Training)一度受到廣泛關注。TTT 通過在測試階段利用 RL 等技術動態更新模型參數,使模型適應新數據或任務,彌補了 TTS 在泛化能力上的不足。但 TTT 同樣面臨自身的挑戰:測試階段缺乏獎勵函數或驗證信號,而人工標注數據的高成本使得無監督環境下的 RL 應用受限。
在最新的一篇論文中,清華大學和上海人工智能實驗室提出了一種新方法 —— 測試時強化學習(Test-Time Reinforcement Learning,TTRL),該方法能夠在無標注數據上對 LLM 進行強化學習訓練。
- 論文標題:TTRL: Test-Time Reinforcement Learning
- 論文地址:https://arxiv.org/abs/2504.16084
- GitHub:https://github.com/PRIME-RL/TTRL
- HuggingFace:https://huggingface.co/papers/2504.16084
TTRL 通過利用預訓練模型中的先驗知識,使 LLM 具備自我演化的能力。實驗證明,TTRL 在多種任務和模型上都能持續提升性能:在僅使用未標注測試數據的情況下,TTRL 將 Qwen-2.5-Math-7B 在 AIME 2024 任務中的 pass@1 指標提升了約 159%。
值得注意的是,雖然 TTRL 僅依靠 Maj@N 指標進行監督,但其表現不僅能持續超越初始模型的性能上限,更能接近于那些直接在有標注測試數據上進行監督訓練的模型性能。實驗結果驗證了 TTRL 在多種任務中的廣泛有效性,充分展示了該方法在更廣闊領域中的應用潛力。
方法
圖 2 展示了研究者提出的 TTRL 方法如何應對此類挑戰。給定狀態表示為輸入提示 x(prompt x),模型依據參數化策略 π_θ(y | x) 生成輸出 y。為了在無真實標簽的條件下構造獎勵信號,研究者通過重復采樣的方法,從模型中生成多個候選輸出 {y?, y?, ..., y_N}。接著,使用多數投票(majority voting)或其他聚合方法從這些候選中推導出共識輸出 y*,作為近似的最優動作(optimal action)的替代。
環境反饋的獎勵 r (y, y*) 則根據當前動作 y 與共識輸出 y* 之間的一致性進行設定。模型的 RL 目標是最大化期望獎勵:
通過梯度上升(gradient ascent)更新參數 θ:
該方法能夠在推理階段實現模型的動態適應,無需標注數據即可提升模型應對分布變化輸入時的性能。
多數投票獎勵函數(Majority Voting Reward Function)
多數投票獎勵機制的核心在于:首先借助多數投票策略估算一個偽標簽(pseudo-label),再基于該估計標簽計算規則驅動的獎勵(rule-based rewards),并作為最終用于 RL 訓練的獎勵信號。
在具體操作上,給定一個輸入問題 x,研究者對其輸入到大型語言模型中,并生成一組輸出結果。隨后,答案抽取器(answer extractor)對這些輸出進行處理,提取對應的預測答案,記為 P = {??}?_{i=1}。接著,研究者在集合 P 上應用第 4 節定義的多數投票策略函數 s (y, x),選出出現頻次最高的預測 y,作為估計標簽。
隨后,該多數投票結果 y 被用作標簽估計,用于計算基于規則的獎勵信號:
實驗
TTRL 在大多數任務和模型上都表現出色。盡管 TTRL 完全依賴于使用無標注測試數據的自我進化,但其性能卻可媲美基于大規模標注數據集訓練的現有 RL 模型。如表 1 所示,在 AIME 2024 上,TTRL 實現了 159.3% 的大幅提升,超過了所有在大規模數據集上訓練的模型。此外,當應用于 Qwen2.5-Math-7B 時,TTRL 在三個基準測試中平均提高了 84.1%。
TTRL 自然擴展。另一個值得注意的現象是,隨著模型大小的增加(從 1.5B 到 7B),其在 AIME 2024 和 AMC 上的性能提升也在增加,這凸顯了 TTRL 的自然擴展行為:更大的模型可以在自我改進過程中產生更準確的多數投票獎勵,從而更有效地學習新數據。不過,LLaMA-3.1-8B-Instruct 和 Qwen2.5-Math-1.5B 可能由于容量有限,未能通過 TTRL 在 AIME 2024 上取得有意義的進展。相比之下,Qwen2.5-Math-7B 的模型容量更大,知識更充分,因此可以從自我改進中獲益,從而取得明顯的性能提升(第 4.3 節會詳細討論這一點)。
TTRL 在目標任務之外也有很好的通用性。研究者以 Qwen2.5-Math-7B 為骨干,在每個基準上執行了 TTRL,并在其他基準上進行了進一步評估。圖 3 展示了結果。盡管這種設置具有分布外的性質,但 TTRL 在所有基準上都取得了實質性的改進。這表明 TTRL 并沒有依賴過擬合(過擬合會導致在其他任務上的取舍),而是在自我改進過程中獲得了可推廣的收益。
TTRL 與不同的 RL 算法兼容。圖 4 展示了結果。研究者在 MATH-500 上使用 PPO 應用 TTRL,以評估其與不同強化學習算法的兼容性。PPO 和 GRPO 的性能軌跡非常接近。與 GRPO 相比,PPO 能產生更穩定的結果,同時實現相似的整體性能。
討論
Q1:TTRL 的性能能有多好?
研究者使用了兩個上限來分析 TTRL 的潛在性能。第一個上限是 Maj@N,用于計算 TTRL 訓練過程中的獎勵。第二個上限是在基準數據集上的直接訓練,它假定可以訪問 ground-truth 標簽,因此會向策略模型泄露標簽信息。
關鍵發現如下:
1. TTRL 不僅超越了其訓練信號和初始模型的直觀上界 Maj@N,還接近了用標注測試數據訓練的直接 RL 的性能。這一進步可能要歸功于 TTRL 使用 RL 進行測試時間訓練:通過將基于投票的偽標簽轉換為獎勵,它提高了有效監督的質量,同時使學習擺脫了 Maj@N 的限制。
2. TTRL 的經驗上限是在測試數據上進行訓練(即在測試數據上進行訓練),這凸顯了它與標準訓練評估協議相比在功效上的潛在優勢。
3. 對于具有挑戰性的任務,TTRL 只需使用 1.5B 模型即可達到經驗上限。這表明,現在 LLM 可以通過 TTRL 有效地自我進化,從而在大規模數據集上實現無限制的終身學習。
TTRL 受 Maj@N 監督,卻超越了 Maj@N。圖 6 展示了 TTRL 在 Qwen2.5-Math-7B 上的測試結果。可以看出,在所有基準測試中,TTRL Avg@64 均優于 Qwen2.5-Math-7B Maj@64,大大超出預期。此外,在應用多數表決時,TTRL 的性能也有大幅提升。
TTRL 的「性能增益法」基準訓練,圖 7 展示了結果。令人驚訝的是,TTRL 的性能曲線非常接近 RL(泄漏)的性能曲線。
Q2:TTRL 為何有效?
這一節主要分析了 TTRL 在無監督條件下實現穩定有效的 RL 的因素,包括兩個關鍵方面:標簽估計和獎勵計算。
標簽估計。TTRL 與標準 RL 算法的一個直接區別是,TTRL 涉及標簽估計,而標簽估計會帶來獎勵誤差。研究者認為,盡管存在這些誤差,TTRL 仍能正常工作,原因有以下兩點:
(i) 現有研究表明,RL 可以容忍一定程度的獎勵不準確性。此外,與通常依賴于記憶訓練數據的監督微調(SFT)相比,RL 的泛化效果往往更好。在 RL 中,獎勵通常是模糊的,主要是作為探索的方向信號,這導致了 RL 對獎勵噪聲的魯棒性。
(ii) 之前的研究還從優化的角度研究了什么是好的獎勵模型,發現更準確的獎勵模型不一定是更好的教師。因此,由政策模型本身估計的獎勵信號可能會為學習提供更合適的指導。
獎勵計算。當模型能夠通過多數投票估算出準確的標簽時,隨后估算出的獎勵一般都是可靠的。然而,一個自然而然的問題出現了:為什么在 AIME 2024 等具有挑戰性的基準上,即使模型無法估算出準確的標簽,TTRL 仍然有效?
研究者表示,最根本的原因在于 RL 中獎勵的定義。基于規則的獎勵是根據預測答案是否與「標簽」匹配來分配的。因此,即使估計的標簽不是 ground-truth,只要它與錯誤預測的答案不同,系統仍可分配正確的「負」獎勵。
為了提供更詳細的案例研究,研究者在 Qwen2.5-Math-7B 上檢驗了 TTRL 在 AIME 2024 上的性能。圖 8 顯示了三個指標的變化曲線。
研究者發現了 TTRL 在 AIME 2024 上依然有效的兩個主要原因:
- 首先,獎勵比標簽更密集,即使估計的標簽不準確,也有更多機會恢復有用的學習信號。
- 其次,當模型能力較弱時,TTRL 給出的獎勵可能更準確。
Q3:TTRL 何時失效?
在算法層面,TTRL 與現有的 RL 算法并無本質區別,因此繼承了它們的一些特點,如對數據難度的敏感性、對先驗的強烈依賴性以及在某些條件下崩潰的風險。
在實現層面上,這些問題因 TTRL 的限制而進一步擴大,TTRL 通過多數投票來估計標簽,并且只在稀疏和以前未見過的測試數據上運行,在某些情況下可能會導致失敗。
在初步實驗中,研究者發現了兩個潛在問題:
缺乏對目標任務的先驗知識。如表 2 所示,研究者發現,隨著問題難度的增加,性能提高率和長度縮減率都呈下降趨勢。這表明主干系統的可用先驗知識不足以支持對更具挑戰性問題的學習。
不恰當的 RL 超參數。圖 10 比較了在 AIME 2024 上的幾次失敗嘗試。
更多研究細節,可參考原論文。