成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

剛剛,DeepSeek公布推理時Scaling新論文,R2要來了?

人工智能 新聞
來自 DeepSeek、清華大學的研究人員探索了獎勵模型(RM)的不同方法,發現逐點生成獎勵模型(GRM)可以統一純語言表示中單個、成對和多個響應的評分,從而克服了挑戰。

這會是 DeepSeek R2 的雛形嗎?本周五,DeepSeek 提交到 arXiv 上的最新論文正在 AI 社區逐漸升溫。

當前,強化學習(RL)已廣泛應用于大語言模型(LLM)的后期訓練。最近 RL 對 LLM 推理能力的激勵表明,適當的學習方法可以實現有效的推理時間可擴展性。RL 的一個關鍵挑戰是在可驗證問題或人工規則之外的各個領域獲得 LLM 的準確獎勵信號。

本周五提交的一項工作中,來自 DeepSeek、清華大學的研究人員探索了獎勵模型(RM)的不同方法,發現逐點生成獎勵模型(GRM)可以統一純語言表示中單個、成對和多個響應的評分,從而克服了挑戰。研究者探索了某些原則可以指導 GRM 在適當標準內生成獎勵,從而提高獎勵的質量,這啟發我們,RM 的推理時間可擴展性可以通過擴展高質量原則和準確批評的生成來實現。

圖片

  • 論文標題:Inference-Time Scaling for Generalist Reward Modeling 
  • 論文鏈接:https://arxiv.org/abs/2504.02495

基于這一初步成果,作者提出了一種新學習方法,即自我原則批評調整(SPCT),以促進 GRM 中有效的推理時間可擴展行為。通過利用基于規則的在線 RL,SPCT 使 GRM 能夠學習根據輸入查詢和響應自適應地提出原則和批評,從而在一般領域獲得更好的結果獎勵。

基于此技術,DeepSeek 提出了 DeepSeek-GRM-27B,它基于 Gemma-2-27B 用 SPCT 進行后訓練。對于推理時間擴展,它通過多次采樣來擴展計算使用量。通過并行采樣,DeepSeek-GRM 可以生成不同的原則集和相應的批評,然后投票選出最終的獎勵。通過更大規模的采樣,DeepSeek-GRM 可以更準確地判斷具有更高多樣性的原則,并以更細的粒度輸出獎勵,從而解決挑戰。

除了投票以獲得更好的擴展性能外,DeepSeek 還訓練了一個元 RM。從實驗結果上看,SPCT 顯著提高了 GRM 的質量和可擴展性,在多個綜合 RM 基準測試中優于現有方法和模型,且沒有嚴重的領域偏差。作者還將 DeepSeek-GRM-27B 的推理時間擴展性能與多達 671B 個參數的較大模型進行了比較,發現它在模型大小上可以獲得比訓練時間擴展更好的性能。雖然當前方法在效率和特定任務方面面臨挑戰,但憑借 SPCT 之外的努力,DeepSeek 相信,具有增強可擴展性和效率的 GRM 可以作為通用獎勵系統的多功能接口,推動 LLM 后訓練和推理的前沿發展。

這項研究的主要貢獻有以下三點:

  • 研究者們提出了一種新方法:Self-Principled Critique Tuning(SPCT),用于提升通用獎勵模型在推理階段的可擴展性,并由此訓練出 DeepSeek-GRM 系列模型。同時,他們進一步引入了一種元獎勵模型(meta RM),使 DeepSeek-GRM 的推理效果在超越傳統投票機制的基礎上得到進一步提升。
  • 實驗證明,SPCT 在生成質量和推理階段的可擴展性方面,明顯優于現有方法,并超過了多個強大的開源模型。
  • SPCT 的訓練方案還被應用到更大規模的語言模型上。研究者們發現推理階段的擴展性收益甚至超過了通過增加模型規模所帶來的訓練效果提升。

圖片

技術細節

我們一起來看看這篇論文所討論的技術細節。

Self-Principled Critique Tuning (SPCT)

受到初步實驗結果的啟發,研究者提出了一種用于逐點通用獎勵模型的新方法,能夠學習生成具有適應性和高質量的原則,以有效引導批評內容的生成,該方法被稱為自我原則批評調整(SPCT)。 

如圖 3 所示,SPCT 包含兩個階段:

1. 拒絕式微調(rejective fine-tuning),作為冷啟動階段;

2. 基于規則的在線強化學習(rule-based online RL),通過不斷優化生成的準則和評論,進一步增強泛化型獎勵生成能力。

此外,SPCT 還能促使獎勵模型在推理階段展現出良好的擴展能力。

圖片

研究者們觀察到,高質量的準則能夠在特定評判標準下有效引導獎勵的生成,是提升獎勵模型表現的關鍵因素。然而,對于通用型獎勵模型而言,如何自動生成適應性強、指導性強的準則仍是一個核心難題。

為此,他們提出將準則的作用由傳統的理解階段的輔助性輸入,轉變為獎勵生成過程中的核心組成部分。具體而言,這項研究不再將準則僅作為模型生成前的提示信息,而是使模型能夠在生成過程中主動生成并運用準則,從而實現更強的獎勵泛化能力與推理階段的可擴展性。

在該研究的設定中,GRM 可以自主生成準則,并在此基礎上生成對應的批評內容,其過程可形式化表示為: 

圖片

其中,p_θ 表示由參數 θ 所定義的準則生成函數,該函數與獎勵生成函數 r_θ 共享同一模型架構。這樣的設計使得準則可以根據輸入的 query 和響應自適應生成,從而動態引導獎勵的生成過程。此外,準則及其對應批評的質量與細粒度可以通過對 GRM 進行后訓練進一步提升。

當模型具備大規模生成準則的能力后,GRM 便能夠在更合理的準則框架下輸出更細致的獎勵評價,這對于推理階段的可擴展性具有關鍵意義。

基于規則的強化學習

為同步優化 GRM 中的原則生成與批判生成,DeepSeek 提出 SPCT 框架,整合了拒絕式微調與基于規則的強化學習。拒絕式微調作為冷啟動階段。

拒絕式微調(冷啟動階段) 的核心目標是使 GRM 能夠生成格式正確且適配多種輸入類型的原則與批判。

不同于 Vu 等人(2024)、Cao 等人(2024)和 Alexandru 等人(2025)將單響應、配對響應和多響應格式的 RM 數據混合使用的方案,DeepSeek 采用第 2.1 節提出的逐點 GRM,能以統一格式為任意數量響應生成獎勵。

數據構建方面,除通用指令數據外,DeepSeek 還通過預訓練 GRM 對 RM 數據中不同響應數量的查詢 - 響應對進行軌跡采樣,每個查詢 - 響應對采樣圖片次。拒絕策略也采用統一標準:拒絕預測獎勵與真實值不符(錯誤)的軌跡,以及所有圖片次軌跡均正確(過于簡單)的查詢 - 響應對。形式化定義為:令圖片表示查詢 x 第 i 個響應圖片的真實獎勵,當預測逐點獎勵圖片滿足以下條件時視為正確:

圖片

這里需確保真實獎勵僅包含一個最大值。然而,與 Zhang 等人(2025a)的研究類似,DeepSeek 發現預訓練 GRM 在有限采樣次數內難以對部分查詢及其響應生成正確獎勵。

因此,他們選擇性地在 GRM 提示中追加image.png(稱為暗示采樣),期望預測獎勵能與真實值對齊,同時保留非暗示采樣方式。對于暗示采樣,每個查詢及其響應僅采樣一次,僅當預測錯誤時才拒絕軌跡。相較于 Li 等人(2024a)和 Mahan 等人(2024)的研究,我們觀察到暗示采樣軌跡有時會簡化生成的批判(尤其在推理任務中),這表明 GRM 在線強化學習的必要性和潛在優勢。

通過基于規則的在線 RL,研究者對 GRM 進行了進一步的微調。與 DeepSeek R1 不同的是,沒有使用格式獎勵。相反,為了確保格式和避免嚴重偏差,KL 懲罰采用了較大的系數。從形式上看,對給定查詢 x 和響應圖片的第 i 次輸出 o_i 的獎勵為:

逐點獎勵是圖片從 o_i 中提取的。

獎勵函數鼓勵 GRM 通過在線優化原則和批判來區分最佳響應,從而實現有效的推理時間擴展。獎勵信號可以從任何偏好數據集和標注的 LLM 響應中無縫獲取。

SPCT 的推理時擴展

為了進一步提高 DeepSeek-GRM 在使用更多推理計算生成通用獎勵方面的性能,研究者探索了基于采樣的策略,以實現有效的推理時可擴展性。

利用生成獎勵進行投票。回顧第 2.1 節中的方法,逐點 GRM 的投票過程定義為獎勵總和:

圖片

其中,圖片是第 i 個響應(i = 1, ..., n)的最終獎勵。由于 S_i,j 通常設置在一個較小的離散范圍內,例如 {1,...,10},因此投票過程實際上將獎勵空間擴大了 k 倍,并使 GRM 能夠生成大量原則,從而有利于提高最終獎勵的質量和粒度。

一個直觀的解釋是,如果每個原則都可以被視為判斷視角的代表,那么更多的原則可能會更準確地反映真實的分布情況,從而提高效率。值得注意的是,為了避免位置偏差和多樣性,在采樣之前會對回答進行洗牌。

元獎勵模型指導投票。DeepSeek-GRM 的投票過程需要多次采樣,由于隨機性或模型的局限性,少數生成的原則和評論可能存在偏差或質量不高。因此,研究者訓練了一個元 RM 來指導投票過程。

引導投票非常簡單: 元 RM 對 k 個采樣獎勵輸出元獎勵,最終結果由 k_meta ≤ k 個元獎勵的獎勵投票決定,從而過濾掉低質量樣本。

獎勵模型 Benchmark 上的結果

不同方法和模型在獎勵模型基準測試上的整體結果如表 2 所示。

圖片

不同方法在推理階段的擴展性能結果如表 3 所示,整體趨勢可見圖 1。 

圖片

表 4 展示了 SPCT 各個組成部分所做的消融實驗結果。

研究者們還進一步研究了 DeepSeek-GRM-27B 在推理階段和訓練階段的擴展性能,通過在不同規模的 LLM 上進行后訓練進行評估。所有模型均在 Reward Bench 上進行測試,結果如圖 4 所示。 

圖片

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-04-07 08:42:00

2025-05-16 08:58:09

2025-04-11 12:04:58

2021-01-28 16:58:12

數字貨幣加密貨幣區塊鏈

2025-02-13 09:20:00

2025-05-01 10:33:59

2025-05-21 14:01:22

AIDeepSeek-V硬件

2017-12-28 10:20:34

2018-05-03 21:21:24

蘋果iOS 11.4測試版

2025-02-24 12:22:13

DeepSeek開源模型

2025-02-17 08:37:00

模型DeepSeekAI

2025-02-25 09:13:16

2017-04-17 09:01:39

科技新聞早報

2023-05-29 08:38:56

popover控制懸浮層

2025-02-19 15:30:00

模型訓練數據

2025-02-25 12:08:26

2025-02-21 15:18:20

2025-02-17 09:10:00

英偉達模型AI

2025-02-25 08:20:50

AI程序員DeepSeek

2025-05-29 09:07:37

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲一区中文字幕 | 午夜精品一区二区三区在线观看 | 国产精品成人一区二区三区夜夜夜 | 97精品超碰一区二区三区 | 一级黄色生活视频 | 亚洲精品91| 午夜资源| 欧美日一区二区 | 中文字幕在线视频一区二区三区 | 日本三级全黄三级三级三级口周 | 人人鲁人人莫人人爱精品 | 欧美日韩一区在线 | 日韩在线小视频 | 中文在线日韩 | 国产成人精品区一区二区不卡 | 噜噜噜噜狠狠狠7777视频 | 伊人国产精品 | 国产91黄色| 国产欧美一区二区在线观看 | 国产中文字幕在线观看 | 亚洲一区二区三区视频在线 | av大片 | 怡红院怡春院一级毛片 | 射久久| 亚洲国产精品久久久久 | 中文字幕第90页 | 欧洲一区视频 | 亚洲人成在线观看 | 亚洲精品一区二区三区免 | 久久一| 高清欧美性猛交xxxx黑人猛交 | 国产欧美一区二区三区在线看 | 毛片链接 | 国产精品毛片一区二区三区 | 欧美精品一区二区三区在线 | 久久av资源网| 日韩人体视频 | 国产成人99久久亚洲综合精品 | 求个av网址 | 国产一级视频在线播放 | 在线黄 |