成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Deepseek新論文!如何讓AI自己學會更公平地打分?

發布于 2025-4-11 00:26
瀏覽
0收藏

一、為啥要研究這個問題?

現在的AI大模型(比如ChatGPT)雖然很厲害,但它們在做一些需要“打分”的任務時(比如判斷哪個回答更好、更安全),還是得靠人類提前設定好規則。

比如,告訴AI“答案要準確”、“不能有偏見”等等。但現實情況超級復雜,很多問題沒法靠幾條固定規則解決,比如怎么評價一篇作文的好壞,或者怎么判斷一段對話有沒有冒犯性。

這時候,AI就需要自己學會“打分”——這就是獎勵建模(Reward Modeling)。不過,現有的AI在遇到新問題時,要么生搬硬套舊規則,要么在復雜問題上表現不穩定,甚至出現不公平的情況。

二、SPCT是個啥?

Deepseek新論文!如何讓AI自己學會更公平地打分?-AI.x社區

image.png|550

SPCT就像給AI裝了一個“自動評分委員會”,讓它自己制定規則、檢查答案,最后綜合大家的意見給出公平的分數。

這樣一來,AI不僅能處理簡單問題,還能在復雜場景中越來越聰明,甚至幫人類發現以前沒想到的評分維度!

SPCT全稱是自原則批判調優,簡單說就是教AI自己制定評分標準,然后根據這些標準給回答打分。它有兩個核心步驟:

自己定規矩(原則生成)

比如,當用戶問“怎么減肥最有效?”時,AI不是直接給答案打分,而是先自己想幾個評判標準:“這個方法科學嗎?”、“有沒有副作用?”、“適合普通人嗎?”。

這些標準不是人教的,而是AI根據問題自己生成的。 傳統方法中,獎勵原則(Principle)通常作為預定義規則輸入模型(如Constitutional AI)。

SPCT創新地將原則生成與獎勵生成解耦,允許模型基于輸入動態生成原則

Deepseek新論文!如何讓AI自己學會更公平地打分?-AI.x社區

其中,pθ是由參數θ控制的原則生成函數,它與獎勵生成函數rθ共享同一模型參數

通過這種方式,GRM能夠根據不同查詢(Query)和響應(Response)自動生成適應性強的評判標準(Principle),再基于原則生成具體批判(Critique),最終提取數值獎勵(Reward)。

基于規則的強化學習

接著,AI會根據自己定的標準,一條條檢查回答。比如發現某個回答說“每天吃黃瓜能瘦10斤”,AI就會批判:“這個方法不科學,缺乏科學依據,可能有健康風險。” SPCT采用兩階段訓練策略:

  • 拒絕微調(Rejective Fine-Tuning):通過過濾低質量軌跡(如獎勵與真實值不一致的樣本),使模型適應生成多樣化原則和批判。
  • 規則化在線RL(Rule-Based Online RL):引入KL散度懲罰和二分類獎勵函數,強制模型生成符合預設格式的獎勵信號,同時鼓勵區分最優響應。

公式化的獎勵機制為:

Deepseek新論文!如何讓AI自己學會更公平地打分?-AI.x社區

這一設計既保證了獎勵信號的可解釋性,又通過在線學習提升了模型的泛化能力

最后,AI把這些批判總結成一個分數,告訴用戶哪個回答更好。

三、怎么教AI學會這招?

Deepseek新論文!如何讓AI自己學會更公平地打分?-AI.x社區

傳統方法是靠人類手動調整規則,但SPCT用了兩個聰明的辦法:

  1. 邊學邊改(在線強化學習)讓AI不斷嘗試不同的評分方式,如果它給的分數和人類認可的結果一致,就獎勵它;如果錯了,就糾正它。比如,如果AI因為某個回答用了專業術語而給高分,但實際上用戶更想要簡單解釋,系統就會提醒它:“下次要考慮用戶的理解程度!”
  2. 集體投票(元獎勵模型)為了減少AI自己犯錯的可能,SPCT會讓AI生成多個不同的評分標準,然后挑出最靠譜的那個。比如,對同一個回答,AI可能第一次說“很好”,第二次說“一般”,第三次說“有問題”——這時候系統會綜合多次結果,選出最合理的分數。

四、實驗設計

數據與模型

  • 基準數據集:覆蓋Reward Bench(聊天、推理、安全)、PPE(可驗證任務)、RMB(多響應偏好)和ReaLMistake(單響應錯誤檢測)。
  • 模型架構:基于Gemma-2-27B、DeepSeek-V2.5-236B和DeepSeek-V3-671B等模型,通過并行采樣(Parallel Sampling)擴展推理計算。

關鍵實驗設置

  1. 采樣策略:每次推理生成8-32組原則和批判,通過投票(Voting)聚合結果,減少噪聲。
  2. 元獎勵模型(Meta RM):額外訓練一個標量RM,用于過濾低質量樣本,進一步提升投票效果。

五、結果與分析

1. 性能對比

在多個基準測試中,DeepSeek-GRM-27B顯著優于現有模型:

  • Reward Bench:準確率86.0%,超越GPT-4o(86.7%)和Nemotron-4-340B(92.0%需更大參數)。
  • PPE Correctness:準確率67.2%,在可驗證任務中接近標量模型的上限(如Gemini-1.5-Pro的66.1%)。
  • ReaLMistake:ROC-AUC達70.3%,優于所有對比模型。Deepseek新論文!如何讓AI自己學會更公平地打分?-AI.x社區

2. 推理擴展性

通過并行采樣+元RM引導投票,DeepSeek-GRM-27B實現推理效率與性能的雙重提升

  • 8次采樣:準確率70.6%(較貪心解碼提升2.7%)。
  • 32次采樣+Meta RM:準確率72.8%(超過671B參數模型的訓練時間擴展效果)。

Deepseek新論文!如何讓AI自己學會更公平地打分?-AI.x社區

3. 消融實驗

  • 原則生成:移除原則生成模塊后,性能下降3.3%(72.8% → 69.5%)。
  • 元RM引導:關閉元RM后,投票效果降低1.6%(72.8% → 71.2%)。
  • 輸入靈活性:支持單響應、多響應和帶參考答案的輸入,性能波動小于1%。

六、未來還能干啥?

雖然SPCT已經很棒,但作者覺得還能更進一步:

  • 和人類協作:讓AI在打分時實時詢問人類的意見,不斷優化自己的標準。
  • 處理復雜任務:比如同時評價一篇文章的內容、邏輯和文筆,而不是只看單一指標。
  • 解決長文本問題:現在SPCT處理短回答沒問題,但面對小說或研究報告,可能還需要更長時間思考。

論文鏈接:https://arxiv.org/pdf/2504.02495

本文轉載自??沐白AI筆記??,作者:楊沐白

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产精品久久久亚洲 | 国产在线观看一区二区 | 成人性视频在线 | 本道综合精品 | 一色桃子av一区二区 | 国产一区二区 | 欧美日韩综合精品 | 欧美综合久久久 | 亚洲成人综合网站 | 美女张开腿露出尿口 | 国产精品久久久久久久久久久免费看 | 一级看片免费视频囗交动图 | 在线国产视频 | 在线小视频 | 亚洲国产精选 | 亚洲精品一区中文字幕乱码 | 欧美一区二区在线 | www.久 | 男女羞羞视频在线 | 精久久久久 | 亚洲一区二区三区免费视频 | 永久网站 | 日韩欧美国产一区二区 | 欧美日韩久久精品 | 91精品久久久久久久久99蜜臂 | 精品久久电影 | 精品中文字幕久久 | 中文字幕高清av | 日本一区二区视频 | 国产小u女发育末成年 | 国产一区久久 | 国产羞羞视频在线观看 | 欧美一区二区三区一在线观看 | www.日韩 | 欧美精品综合在线 | 国产精品视频一区二区三区, | 99亚洲综合 | 中文字幕视频在线观看 | 五月天激情综合网 | 国产性网 | 97伦理影院|