1/10訓練數據超越GPT-4o！清華等提出隱式過程獎勵模型PRIME，在線刷SOTA

作者：新智元 2025-01-08 09:00:00

人工智能新聞

1/10訓練數據激發高級推理能力！近日，來自清華的研究者提出了PRIME，通過隱式獎勵來進行過程強化，提高了語言模型的推理能力，超越了SFT以及蒸餾等方法。

Tell me and I forget, teach me and I remember, involve me and I learn.

告訴我，我會忘記，教我，我會記住，讓我參與，我就能學會。

——本杰明·富蘭克林

打破數據墻，我們還能做些什么？

近日，來自清華UIUC等機構的研究者提出了PRIME（Process Reinforcement through IMplicit REwards）：通過隱式獎勵來進行過程強化。

GitHub地址：https://github.com/PRIME-RL/PRIME

這是一種帶有過程獎勵的在線RL開源解決方案，可以提高語言模型的推理能力，超越了SFT（監督微調）或者蒸餾等方法。

對比SFT，PRIME讓模型在重要基準測試上實現了巨大提升：平均提高了16.7%，在AMC和AIME中都提高了20%以上。

Eurus-2-7B-PRIME與Qwen2.5-Math-7B-Instruct，使用了相同的base model（Qwen-2.5-Math-7B），但在上表的6項測試中，5項都超越了instruct版本，同時也超越了GPT-4o。

而這個成績只用了Qwen Math 1/10的數據資源（230K SFT + 150K RL）！

作者發布了本研究中使用的所有模型和數據，感興趣的讀者請見文后鏈接。

過程獎勵模型

熱身階段（SFT）

如前所述，選擇Qwen2.5-Math-7B-Base作為起點，然后上點難度，采用競賽級別的數學和編程基準，包括AIME 2024、AMC、MATH-500、Minerva Math、OlympiadBench、LeetCode和LiveCodeBench（v2）。

首先對基礎模型進行監督微調，以獲得RL的入門模型（教模型學習某些推理模式）。

為此，研究人員設計了一個以動作為中心的鏈式推理框架，策略模型在每個步驟中選擇7個動作中的一個，并在執行每個動作后停止。

為了構建SFT數據集，研究者從幾個開源數據集中收集了推理指令。

值得注意的是，對于許多具有真實答案的數據集，作者選擇將其保留用于之后的RL訓練，目的是讓SFT和RL使用不同的數據集，以使RL中的探索多樣化，并且作者認為在PL中真實標簽更加重要。

作者用LLaMA-3.1-70B-Instruct來回答指令，并使用系統提示要求模型執行以動作為中心的思維鏈。

隱式PRM

下面接入過程獎勵模型（PRM），這里采用隱式PRM，只需要在響應級別標簽上訓練ORM。

過程獎勵模型簡單理解就是對每個推理步驟進行評分，舉個例子：

PRM是以這種粒度來評價響應的。

在本文的隱式PRM中，可以使用以下方式免費獲得過程獎勵：

通過簡單地收集響應水平數據和訓練ORM來獲得PRM，而無需注釋步驟標簽。

這與ORM訓練目標的具體選擇無關，比如使用交叉熵損失來實例化隱式PRM，就可以替換成：

強化學習

本文的目標是廣泛利用強化學習（RL）來提高推理能力。針對這種資源有限的情況，作者總結了一些最佳實踐：

從Ground Truth驗證器和高質量數據開始：作者進行了嚴格的數據收集和清理，以獲得可驗證的RL數據，并發現僅使用結果驗證器足以構建強大的基線。

作者比較了不同的RL算法得出結論，無價值模型的REINFORCE類方法足夠有效。

使用「mid-difficulty」問題進行穩定訓練：作者提出了一種名為在線提示過濾器的機制，通過過濾掉困難和簡單的問題，在很大程度上穩定了RL訓練。