Deepseek新論文！如何讓AI自己學會更公平地打分？

發布于 2025-4-11 00:26

瀏覽

0收藏

一、為啥要研究這個問題？

現在的AI大模型（比如ChatGPT）雖然很厲害，但它們在做一些需要“打分”的任務時（比如判斷哪個回答更好、更安全），還是得靠人類提前設定好規則。

比如，告訴AI“答案要準確”、“不能有偏見”等等。但現實情況超級復雜，很多問題沒法靠幾條固定規則解決，比如怎么評價一篇作文的好壞，或者怎么判斷一段對話有沒有冒犯性。

這時候，AI就需要自己學會“打分”——這就是獎勵建模（Reward Modeling）。不過，現有的AI在遇到新問題時，要么生搬硬套舊規則，要么在復雜問題上表現不穩定，甚至出現不公平的情況。

Deepseek新論文！如何讓AI自己學會更公平地打分？-AI.x社區

image.png|550

SPCT就像給AI裝了一個“自動評分委員會”，讓它自己制定規則、檢查答案，最后綜合大家的意見給出公平的分數。

這樣一來，AI不僅能處理簡單問題，還能在復雜場景中越來越聰明，甚至幫人類發現以前沒想到的評分維度！

SPCT全稱是自原則批判調優，簡單說就是教AI自己制定評分標準，然后根據這些標準給回答打分。它有兩個核心步驟：

比如，當用戶問“怎么減肥最有效？”時，AI不是直接給答案打分，而是先自己想幾個評判標準：“這個方法科學嗎？”、“有沒有副作用？”、“適合普通人嗎？”。

這些標準不是人教的，而是AI根據問題自己生成的。傳統方法中，獎勵原則（Principle）通常作為預定義規則輸入模型（如Constitutional AI）。

SPCT創新地將原則生成與獎勵生成解耦，允許模型基于輸入動態生成原則：

Deepseek新論文！如何讓AI自己學會更公平地打分？-AI.x社區

其中，pθ是由參數θ控制的原則生成函數，它與獎勵生成函數rθ共享同一模型參數。

通過這種方式，GRM能夠根據不同查詢（Query）和響應（Response）自動生成適應性強的評判標準（Principle），再基于原則生成具體批判（Critique），最終提取數值獎勵（Reward）。

接著，AI會根據自己定的標準，一條條檢查回答。比如發現某個回答說“每天吃黃瓜能瘦10斤”，AI就會批判：“這個方法不科學，缺乏科學依據，可能有健康風險。” SPCT采用兩階段訓練策略：

拒絕微調（Rejective Fine-Tuning）：通過過濾低質量軌跡（如獎勵與真實值不一致的樣本），使模型適應生成多樣化原則和批判。
規則化在線RL（Rule-Based Online RL）：引入KL散度懲罰和二分類獎勵函數，強制模型生成符合預設格式的獎勵信號，同時鼓勵區分最優響應。

公式化的獎勵機制為：

Deepseek新論文！如何讓AI自己學會更公平地打分？-AI.x社區

這一設計既保證了獎勵信號的可解釋性，又通過在線學習提升了模型的泛化能力。

最后，AI把這些批判總結成一個分數，告訴用戶哪個回答更好。

Deepseek新論文！如何讓AI自己學會更公平地打分？-AI.x社區

傳統方法是靠人類手動調整規則，但SPCT用了兩個聰明的辦法：

邊學邊改（在線強化學習）讓AI不斷嘗試不同的評分方式，如果它給的分數和人類認可的結果一致，就獎勵它；如果錯了，就糾正它。比如，如果AI因為某個回答用了專業術語而給高分，但實際上用戶更想要簡單解釋，系統就會提醒它：“下次要考慮用戶的理解程度！”
集體投票（元獎勵模型）為了減少AI自己犯錯的可能，SPCT會讓AI生成多個不同的評分標準，然后挑出最靠譜的那個。比如，對同一個回答，AI可能第一次說“很好”，第二次說“一般”，第三次說“有問題”——這時候系統會綜合多次結果，選出最合理的分數。

基準數據集：覆蓋Reward Bench（聊天、推理、安全）、PPE（可驗證任務）、RMB（多響應偏好）和ReaLMistake（單響應錯誤檢測）。
模型架構：基于Gemma-2-27B、DeepSeek-V2.5-236B和DeepSeek-V3-671B等模型，通過并行采樣（Parallel Sampling）擴展推理計算。