Deepseek新論文!如何讓AI自己學會更公平地打分?
一、為啥要研究這個問題?
現在的AI大模型(比如ChatGPT)雖然很厲害,但它們在做一些需要“打分”的任務時(比如判斷哪個回答更好、更安全),還是得靠人類提前設定好規則。
比如,告訴AI“答案要準確”、“不能有偏見”等等。但現實情況超級復雜,很多問題沒法靠幾條固定規則解決,比如怎么評價一篇作文的好壞,或者怎么判斷一段對話有沒有冒犯性。
這時候,AI就需要自己學會“打分”——這就是獎勵建模(Reward Modeling)。不過,現有的AI在遇到新問題時,要么生搬硬套舊規則,要么在復雜問題上表現不穩定,甚至出現不公平的情況。
二、SPCT是個啥?
image.png|550
SPCT就像給AI裝了一個“自動評分委員會”,讓它自己制定規則、檢查答案,最后綜合大家的意見給出公平的分數。
這樣一來,AI不僅能處理簡單問題,還能在復雜場景中越來越聰明,甚至幫人類發現以前沒想到的評分維度!
SPCT全稱是自原則批判調優,簡單說就是教AI自己制定評分標準,然后根據這些標準給回答打分。它有兩個核心步驟:
自己定規矩(原則生成)
比如,當用戶問“怎么減肥最有效?”時,AI不是直接給答案打分,而是先自己想幾個評判標準:“這個方法科學嗎?”、“有沒有副作用?”、“適合普通人嗎?”。
這些標準不是人教的,而是AI根據問題自己生成的。 傳統方法中,獎勵原則(Principle)通常作為預定義規則輸入模型(如Constitutional AI)。
SPCT創新地將原則生成與獎勵生成解耦,允許模型基于輸入動態生成原則:
其中,pθ是由參數θ控制的原則生成函數,它與獎勵生成函數rθ共享同一模型參數。
通過這種方式,GRM能夠根據不同查詢(Query)和響應(Response)自動生成適應性強的評判標準(Principle),再基于原則生成具體批判(Critique),最終提取數值獎勵(Reward)。
基于規則的強化學習
接著,AI會根據自己定的標準,一條條檢查回答。比如發現某個回答說“每天吃黃瓜能瘦10斤”,AI就會批判:“這個方法不科學,缺乏科學依據,可能有健康風險。” SPCT采用兩階段訓練策略:
- 拒絕微調(Rejective Fine-Tuning):通過過濾低質量軌跡(如獎勵與真實值不一致的樣本),使模型適應生成多樣化原則和批判。
- 規則化在線RL(Rule-Based Online RL):引入KL散度懲罰和二分類獎勵函數,強制模型生成符合預設格式的獎勵信號,同時鼓勵區分最優響應。
公式化的獎勵機制為:
這一設計既保證了獎勵信號的可解釋性,又通過在線學習提升了模型的泛化能力。
最后,AI把這些批判總結成一個分數,告訴用戶哪個回答更好。
三、怎么教AI學會這招?
傳統方法是靠人類手動調整規則,但SPCT用了兩個聰明的辦法:
- 邊學邊改(在線強化學習)讓AI不斷嘗試不同的評分方式,如果它給的分數和人類認可的結果一致,就獎勵它;如果錯了,就糾正它。比如,如果AI因為某個回答用了專業術語而給高分,但實際上用戶更想要簡單解釋,系統就會提醒它:“下次要考慮用戶的理解程度!”
- 集體投票(元獎勵模型)為了減少AI自己犯錯的可能,SPCT會讓AI生成多個不同的評分標準,然后挑出最靠譜的那個。比如,對同一個回答,AI可能第一次說“很好”,第二次說“一般”,第三次說“有問題”——這時候系統會綜合多次結果,選出最合理的分數。
四、實驗設計
數據與模型
- 基準數據集:覆蓋Reward Bench(聊天、推理、安全)、PPE(可驗證任務)、RMB(多響應偏好)和ReaLMistake(單響應錯誤檢測)。
- 模型架構:基于Gemma-2-27B、DeepSeek-V2.5-236B和DeepSeek-V3-671B等模型,通過并行采樣(Parallel Sampling)擴展推理計算。
關鍵實驗設置
- 采樣策略:每次推理生成8-32組原則和批判,通過投票(Voting)聚合結果,減少噪聲。
- 元獎勵模型(Meta RM):額外訓練一個標量RM,用于過濾低質量樣本,進一步提升投票效果。
五、結果與分析
1. 性能對比
在多個基準測試中,DeepSeek-GRM-27B顯著優于現有模型:
- Reward Bench:準確率86.0%,超越GPT-4o(86.7%)和Nemotron-4-340B(92.0%需更大參數)。
- PPE Correctness:準確率67.2%,在可驗證任務中接近標量模型的上限(如Gemini-1.5-Pro的66.1%)。
- ReaLMistake:ROC-AUC達70.3%,優于所有對比模型。
2. 推理擴展性
通過并行采樣+元RM引導投票,DeepSeek-GRM-27B實現推理效率與性能的雙重提升:
- 8次采樣:準確率70.6%(較貪心解碼提升2.7%)。
- 32次采樣+Meta RM:準確率72.8%(超過671B參數模型的訓練時間擴展效果)。
3. 消融實驗
- 原則生成:移除原則生成模塊后,性能下降3.3%(72.8% → 69.5%)。
- 元RM引導:關閉元RM后,投票效果降低1.6%(72.8% → 71.2%)。
- 輸入靈活性:支持單響應、多響應和帶參考答案的輸入,性能波動小于1%。
六、未來還能干啥?
雖然SPCT已經很棒,但作者覺得還能更進一步:
- 和人類協作:讓AI在打分時實時詢問人類的意見,不斷優化自己的標準。
- 處理復雜任務:比如同時評價一篇文章的內容、邏輯和文筆,而不是只看單一指標。
- 解決長文本問題:現在SPCT處理短回答沒問題,但面對小說或研究報告,可能還需要更長時間思考。
論文鏈接:https://arxiv.org/pdf/2504.02495
本文轉載自??沐白AI筆記??,作者:楊沐白
