成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<rt id="s4ek8"></rt>

<dl id="s4ek8"></dl>

<code id="s4ek8"><tr id="s4ek8"></tr></code>

<rt id="s4ek8"><delect id="s4ek8"></delect></rt>

<li id="s4ek8"></li>

<button id="s4ek8"></button>

<button id="s4ek8"></button>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

清華大學 | 強化學習是否激勵LLM中超越基本模型的推理能力？

發布于 2025-4-27 07:32

瀏覽

0收藏

論文

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?2504.13837

清華大學 | 強化學習是否激勵LLM中超越基本模型的推理能力？-AI.x社區

TL;DR:

清華大學 | 強化學習是否激勵LLM中超越基本模型的推理能力？-AI.x社區

雖然強化學習（RL）訓練的模型在較小的 k 值（例如，k = 1）下優于其基本模型，但基本模型可以在較大的 k 值下獲得與 RL 對應物相比的可比甚至更高的 pass@k 分數。
進一步分析表明，RL 訓練模型生成的推理路徑已經包含在基礎模型的抽樣分布中，表明 RL 訓練模型中表現出的大部分推理能力已經由基礎模型獲得。
RL 訓練通過將模型的輸出分布偏向更有可能產生獎勵的路徑來提高性能，從而更有效地采樣正確的響應。
然而，這也限制了它們的探索能力，導致與基本模型相比推理能力邊界更窄。
在使用 RLVR 訓練的視覺推理任務中觀察到類似的結果。
此外，發現蒸餾可以真正將新知識引入模型。

RLVR對推理能力邊界的影響

分析按任務類別組織，涵蓋三個代表性領域：數學、代碼生成和視覺推理。對于所有涉及基礎和 RL 訓練模型的采樣過程，使用 0.6 的溫度和 0.95 的 top-p 值，最多可生成 16,384 個令牌。

清華大學 | 強化學習是否激勵LLM中超越基本模型的推理能力？-AI.x社區

用于評估 RLVR 對不同任務中 LLM 推理邊界的影響的實驗裝置

用于數學推理的RLVR

將基本大語言模型（LLM）（Qwen-2.5 和 LLaMA-3.1–8B）的性能與其 RLVR 訓練的對應物（在 GSM8K 和數學數據集上使用 GRPO 訓練）進行比較。
在各種數學基準（GSM8K、MATH500、Minerva、奧林匹克、AIME24、AMC23）上使用 pass@k（在 k 次嘗試內生成正確答案的概率）評估模型。
包括與Oat-Zero-7B的額外比較，這是一個使用Oat-Zero框架訓練的 RL 模型。

清華大學 | 強化學習是否激勵LLM中超越基本模型的推理能力？-AI.x社區

當 k 較小時（例如，k = 1，相當于平均情況精度），RLVR 增加了采樣正確答案的可能性。
RLVR 縮小了模型的整體問題解決范圍，基本模型在更大的 k 值下優于 RL 模型就證明了這一點。

用于代碼生成的RLVR

模型：Code-R1（特別是 CodeR1-Zero-Qwen2.5–7B）使用基于預定義測試用例的二進制正確性獎勵，通過 RLVR 進行訓練。該模型基于 Qwen2.5-7B-Instruct-1M 并在 12K LeetCode 和 TACO 樣本上進行訓練。
評估：性能在三個代碼生成基準上進行評估：LiveCodeBench v5（880 個問題）、HumanEval+ 和 MBPP+。

清華大學 | 強化學習是否激勵LLM中超越基本模型的推理能力？-AI.x社區

RLVR 提高了代碼生成任務中的單樣本性能（pass@1），類似于它對數學推理任務的影響。
RLVR 對模型的推理邊界或覆蓋范圍產生負面影響。雖然原始模型顯示出通過增加采樣（k）解決更多問題的潛力，但 RLVR 訓練的模型停滯不前。具體來說，在 k = 128 時，原始模型解決了約 50% 的問題，而 RLVR 模型在 LiveCodeBench 上僅解決了約 42.8% 的問題。
盡管 RLVR 提高了初始性能，但與原始模型相比，當允許多次解決嘗試時，它限制了模型解決更廣泛問題的潛力。這表明在單樣本精度和探索能力之間存在權衡。

用于視覺推理的RLVR

模型：Qwen-2.5-VL-7B（一種視覺語言模型）在幾何 3K（Geometry3K）數據集上使用 EasyR1 框架進行訓練。
評估數據：MathVista-TestMini 和 MathVision-TestMini 的過濾版本，排除選擇題以避免猜測偏差。過濾導致 MathVista 出現 460 個問題，MathVision 出現 114 個問題。

清華大學 | 強化學習是否激勵LLM中超越基本模型的推理能力？-AI.x社區

RLVR 不斷提高 LLM 的視覺推理性能，類似于它對數學和編碼基準的影響。
這一改進歸因于可解決問題的更廣泛覆蓋，這意味著該模型可以在 RLVR 訓練后解決更廣泛的問題。
在挑戰性問題中對思維鏈（CoT）的手動檢查表明，性能的提高是由于模型學習有效的推理路徑，而不是隨機猜測。具體來說，對于原始和 RL 模型，8 個被檢查的問題中有 7 個至少有一個正確的 CoT 導致正確的答案。這驗證了 CoT 方法在提高推理能力方面的有效性。

深度分析

基本模型中已經存在的推理模式

比較基本模型的可解問題集及其在 AIME24（數學問題）和編碼任務上的相應 RL 訓練版本。

執行的困惑分析：測量由 RL 訓練模型（YRL）和基礎模型本身（YBase）生成的響應的基礎模型（PPLBase）生成的響應的困惑，并將它們與來自更強模型（OpenAI-o1，YGT）的響應進行比較。

清華大學 | 強化學習是否激勵LLM中超越基本模型的推理能力？-AI.x社區

由基礎和 RL 模型評估的不同來源響應的困惑分布

RLVR 沒有引入新的推理能力：RL 訓練的模型沒有表現出超出基本模型中已經存在的推理能力。RL 模型利用的推理路徑已經存在于基本模型的輸出分布中。這得到了困惑分析的支持，表明 RL 模型的響應很可能是由基本模型產生的。
RLVR 提高了采樣效率：雖然沒有引入新功能，但 RLVR 提高了對基本模型中已經存在的正確推理路徑進行采樣的可能性，從而在 pass@1 方面獲得更好的性能。
RLVR 縮小了推理邊界：采樣效率的提高是以減少探索和生成響應的多樣性為代價的，這導致更大的 k 值降低 pass@k（在 k 次嘗試中解決問題）。這歸因于 RL 傾向于減少輸出熵。

蒸餾擴展推理邊界

將大型推理模型（DeepSeek-R1）蒸餾為較小的基本模型（Qwen-2.5-Math-7B）。蒸餾模型（DeepSeek-R1-Distill-Qwen-7B）的性能與：

基本模型（Qwen-2.5-Math-7B）
它的 RL 訓練對應物（Qwen-2.5-Math-7B-Oat-Zero）
指令調整模型（Qwen-2.5-Math-7B-Instruct）

清華大學 | 強化學習是否激勵LLM中超越基本模型的推理能力？-AI.x社區

base、Instruct、RL 和蒸餾模型的覆蓋率比較

蒸餾顯著提高了基礎模型的推理能力。
與 RL 受到基礎模型推理能力的限制不同，蒸餾引入了從更強的教師模型中學到的新推理模式，允許蒸餾模型超越基礎模型的限制。

不同RL算法的影響

算法：幾種流行的 RL 算法（近端策略優化算法（PPO）、通用相對策略優化算法（GRPO）、強化學習++（Reinforce++）、RLOO、ReMax、DAPO）使用 VeRL 框架重新實現。
數據集：Omni-MATH-規則數據集分為訓練集和域內測試集。MATH500 用作域外基準測試。
指標：采樣效率差距（ΔSE）定義為 RL 訓練模型的 pass@1 和基本模型的 pass@256 之間的差異。較低的 ΔSE 表示更好的采樣效率。

清華大學 | 強化學習是否激勵LLM中超越基本模型的推理能力？-AI.x社區

不同的 RL 算法

一般性能：不同的 RL 算法在 pass@1 和 pass@256 上表現出微小的差異，但沒有一個明顯縮小采樣效率差距（ΔSE）。所有算法的 ΔSE 都保持在 40 點以上。
DAPO：pass@1 分數略高，但在訓練期間每批需要更多的樣本（3-6 倍），pass@256 表現大幅下降。
RLOO 和 Reinforce++：在不同的 k 值（1 到 256）上始終表現良好，具有高效的培訓成本，在有效性和效率之間提供了良好的平衡。
ReMax：表現出較低的性能，可能是由于作為優勢基線的二元和高度可變的獎勵造成的不穩定。

RL訓練的漸近效應

使用不同數量的訓練步驟（例如，150、450）使用 RL 訓練的模型。使用訓練、域內測試和域外測試集上的 pass@1（精確匹配準確度）和 pass@256（前 256 個候選者內的準確度）指標來評估性能。

清華大學 | 強化學習是否激勵LLM中超越基本模型的推理能力？-AI.x社區

不同的 RL 訓練步驟

增加 RL 訓練步驟顯著提高了訓練集上的 pass@1（從 26.1 到 42.5）。
然而，在域內和域外測試集上 pass@1 的改進超過 150 步是微不足道的，這表明訓練集可能過度擬合。
增加訓練步驟會導致所有數據集的 pass@256 下降，最低性能為 450 步。這表明隨著訓練的進行，推理邊界和探索能力會降低，這可能是由于輸出熵的減少。
更長的 RL 訓練（超過 150 步）可能不會提供實質性的好處，甚至可能由于過度擬合和減少探索而阻礙性能。

本文轉載自??柏企閱文??，作者：柏企

標簽

已于2025-4-27 10:44:06修改

贊

收藏

回復

舉報

回復

相關推薦

Nature：最大擴散強化學習

ceesoft ? 4042瀏覽 ? 0回復
清華大學最新深度時序模型綜述+5k star開源代碼！

海因斯DK ? 5142瀏覽 ? 0回復
清華大學揭露RAG的雙面性：全面分析揭示大模型中RAG噪聲的作用

AI論文解讀 ? 4672瀏覽 ? 0回復
從具身智能再談強化學習，為什么需要強化學習，以及強化學習的應用場景

AI探索時代 ? 3256瀏覽 ? 0回復
清華大學NeurIPS'24：時序大模型AutoTimes，結合In-context Learning提升預測效果

海因斯DK ? 5899瀏覽 ? 0回復
入口控制：多智能體強化學習在自動駕駛中的應用研究

xuxiangda ? 3798瀏覽 ? 0回復
為啥強化學習開始成為了大語言模型（LLM）的新寵？

智駐未來 ? 2891瀏覽 ? 0回復
清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理

Aceryt ? 2542瀏覽 ? 0回復
DeepSeek-R1：通過強化學習激發大語言模型的推理潛能

柏企閱文 ? 4617瀏覽 ? 0回復
清華大學深度解析：RLHF 真的能規?；瘑幔?/a>

sbf_2000 ? 1951瀏覽 ? 0回復
強化學習與大模型后訓練：DeepSeek R1 如何獲得推理能力？

lintoms ? 4798瀏覽 ? 0回復
斯坦福大學團隊使用多智能體強化學習訓練社交推理語言模型

xuxiangda ? 2457瀏覽 ? 0回復
強化學習與軟件工程：開源軟件獎勵演化的強化學習

AI研究前瞻 ? 2073瀏覽 ? 0回復
Logic-RL：基于規則強化學習的推理釋放

頓數AI ? 2225瀏覽 ? 0回復
Search-R1：強化學習增強大語言模型推理+搜索能力

十一月雨_55 ? 2434瀏覽 ? 0回復
ReSearch: 突破性強化學習框架實現大模型推理搜索能力無縫整合

頓數AI ? 5288瀏覽 ? 0回復
Fin-R1：通過強化學習實現金融推理的大語言模型

AIRoobt ? 1729瀏覽 ? 0回復
「DeepSeek 技術解析」：LLM 訓練中的強化學習算法

Baihai_IDP ? 1061瀏覽 ? 0回復
當大語言模型遇上強化學習：一文讀懂強化預訓練（RPT）如何重塑LLM的推理基因

智駐未來 ? 716瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： ScholarCopilot：借助精準引用訓練大語言模型助力學術寫作

下一篇：復旦：基于強化微調的統一多模態思維鏈獎勵模型

社區精華內容

目錄

主站蜘蛛池模板：国产自产c区 | 欧美成人精品一区二区男人看 | 久草在线青青草 | 在线精品亚洲欧美日韩国产 | 久久欧美高清二区三区 | 久久精品国产一区二区电影 | 亚洲人成在线播放 | 尹人av| 自拍视频在线观看 | 国产精品一区二区欧美 | 91色在线| 国产美女在线观看 | 欧美日韩a| 黄页网址在线观看 | 亚洲欧美一区二区三区情侣bbw | 久久久久久久久蜜桃 | 欧美三区 | www.99热| 一级在线免费观看 | 一区精品视频 | 国产1页| 成人动慢 | 一区在线播放 | h在线免费观看 | 亚洲欧美另类综合偷拍 | 男女一区二区三区 | 国产欧美精品一区二区三区 | 久久久一区二区 | 欧美高清hd | 欧美精品video | 久久亚洲综合 | 国产免费一二三区 | 一区二区三区四区不卡视频 | 国产一级特黄aaa大片评分 | 国产精品国产三级国产aⅴ浪潮 | 久久精品视频网站 | 男人的天堂avav | av电影一区| 自拍视频网站 | 欧美一区 | 中文字幕视频一区二区 |

<rt id="ai4q4"></rt>

<code id="ai4q4"><delect id="ai4q4"></delect></code>

<abbr id="ai4q4"></abbr>

<code id="ai4q4"><tr id="ai4q4"></tr></code>

<button id="ai4q4"></button>

<button id="ai4q4"><source id="ai4q4"></source></button>