無需數據標注！測試時強化學習，模型數學能力暴增 | 清華&上海AI Lab

2025-04-25 09:20:00

清華和上海AI Lab周伯文團隊用這樣的方法，對模型進行了強化。

無需數據標注，在測試時做強化學習，模型數學能力暴增159%！

清華和上海AI Lab周伯文團隊用這樣的方法，對模型進行了強化——

結果模型在多個數據集上的成績均大幅提升，尤其是Qwen-2.5-Math-7B，它做AIME 2024競賽題的成績直接提高了159%。

實驗過程中，強化學習的數據均由被訓練的模型自身生成。

作者還發現，訓練后的模型性能，準確性已經超過了用于訓練它的偽標簽（測試時強化學習過程中產生）。

DeepMind工程師評價，這種測試時強化學習的方式將改變LLM的格局：

它利用預訓練模型和特定任務的提示進行實時自適應，而無需大量帶標簽的數據集，這是向前邁出的重要一步。

模型自己生成強化學習數據

作者提出的測試時強化學習（TTRL）過程是測試時擴展和測試時訓練的結合，具體可以分為“生成、投票、強化”三個大步驟。

第一步生成的目的，是讓模型針對每個輸入的prompt，生成盡可能多樣化的候選答案，該過程通過測試時推理來實現。

其思路是在推理階段增加計算資源以獲得更好的性能，具體到TTRL采用的是增加采樣數量的方式，即對每個prompt，讓模型采樣生成N個不同的答案，而不是只生成一個確定性最高的輸出。

作者的實驗中，當在AIME 2024數據集上應用TTRL訓練Qwen2.5-Math-7B模型時，每個prompt采樣64次(N=64)，溫度系數設為1.0，以鼓勵模型生成多樣化的答案。

投票過程從上一步生成的N個候選答案出發，通過多數投票的方式來估計正確答案，并將其作為偽標簽。

TTRL在實際應用投票機制時還引入了一個參數 Maj@N，表示多數投票的估計準確率。

它衡量的是偽標簽與真實標簽的一致性。通過控制Maj@N，可以權衡偽標簽的質量和數量。

最后一步利用強化學習，基于上一步估計出的偽標簽，來優化語言模型的策略，使其傾向于給出正確答案。

TTRL采用GRPO算法，還加入了重要性采樣和蒙特卡洛估計等技術，以提高訓練效率和穩定性。

為了評估TTRL的效果，作者在AIME 2024、AMC和MATH-500三個數據集上對調整前后的三款模型進行了測試。

在AIME 2024數據集上，對于Qwen2.5-Math-7B基礎模型，TTRL將其準確率從16.7%提高到43.3%，提升幅度高達159.3%，超越了所有在大規模標注數據上訓練的模型。
在AMC數據集上，Qwen2.5-Math-7B、Qwen2.5-Math-1.5B和LLaMA模型的準確率分別獲得了74.9%、63.1%和68.4%的大幅提高。
MATH-500數據集上的表現更為突出，Qwen2.5-Math-7B和Qwen2.5-Math-1.5B分別實現了66.4%和142.4%的驚人提升，LLaMA模型的準確率也提高了29.3%。

平均而言，TTRL使Qwen2.5-Math-7B模型在三個數據集上的性能提高了84.1%。