成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

清華團隊深度實證:RL 真能讓大模型進化嗎?能力邊界仍被基座“鎖死”!

開發 測試
近日,清華大學LeapLab團隊聯合上海交大,發布了一篇題為《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新論文,給最近火熱的RLVR(帶可驗證獎勵的強化學習)又“潑了一盆冷水”。

強化學習(RL)真的能讓大模型獲得超越基礎模型的新推理能力嗎?

近日,清華大學LeapLab團隊聯合上海交大,發布了一篇題為《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新論文,給最近火熱的RLVR(帶可驗證獎勵的強化學習)又“潑了一盆冷水”。

論文地址:https://arxiv.org/pdf/2504.13837論文地址:https://arxiv.org/pdf/2504.13837

論文標題翻譯過來是:強化學習(RL)真的能讓大模型獲得推理能力上的躍遷嗎?

論文結論是:RLVR提升的,其實只是采樣效率,而不是讓模型學會了真正全新的推理能力。

換句話說:RLVR只是把基礎模型本來就會的東西,采樣采得更有效率了。

這份研究直接打破了AI圈子里的“先驗知識”,大家都覺得RLVR是讓大模型變聰明的“加速器”,特別是在數學、代碼等需要推理的任務上。

比如OpenAI的o1、DeepSeek-R1、Kimi-1.5,都是靠RLVR后處理,成績一騎絕塵。原理很簡單:先有個基礎大模型→用RLVR強化一下→通過自動判分(比如答案對不對、代碼測不測得過)給獎勵。

理論上,它能自我提升,學到以前沒見過的新解題套路。于是,這幾年,大家都在說,RLVR能讓大模型“自我進化”,推理能力突破天花板。

清華團隊的“靈魂拷問”:RLVR,真能越過基座嗎?

清華團隊這篇論文,直接拋出了“靈魂三問”:

  • RLVR強化訓練,究竟有沒有讓大模型獲得“超越基座模型”的全新推理能力?
  • 模型的推理邊界到底被RLVR拓寬了嗎?還是只是換了一種方式采樣?
  • 我們是否過于高估了RLVR的“自我進化”魔力?

對于上述三個問題,作者用pass@k作為研究方法的核心。因為傳統的模型評測,大多用“平均準確率”或“單次采樣成功率”來衡量模型能否解題。但作者敏銳地意識到,這種評估方式其實低估”了模型的潛力。原因是:有些難題,模型可能前幾次都答錯,但多采樣幾次,或許就能“撞”出正確答案。

于是,論文采用了pass@k這個指標:對于每道題,采樣k次,只要有一次答對,就算成功。k越大,越能“榨干”模型內在的推理極限。

核心邏輯是:如果RLVR真能帶來新能力,那在k再大時,它也應該比基座模型更能解出難題。

實驗結果有點顛覆大家認知——

RLVR訓練的模型,在k小的時候表現更好,但k大了以后,基礎模型能超過它!

也就是:RLVR訓練讓模型更高效采樣出正確答案,但沒有帶來全新的推理能力,能力邊界始終被基座模型“鎖死”。

案例1:數學推理

以AIME24數學競賽題為例,RLVR模型一開始比基座模型高出30%的準確率,但多采樣后,基座模型最終能解出更多題目,RLVR的“能力天花板”反而更低。

圖片圖片

案例2:代碼生成

在LiveCodeBench等編程基準上,RLVR模型單采樣表現亮眼,但當k采樣數提升到128時,基座模型解題覆蓋率反超RLVR。

圖片圖片

案例3:視覺推理

多模態視覺推理同樣復現上述現象——RLVR提升了采樣效率,卻沒讓模型產生全新的多模態推理路徑。

圖片圖片

RLVR的“聰明”,其實是把基礎模型會的東西,輸出概率調高了,真正的新推理路徑?并沒有,基礎模型多采樣就能覆蓋所有RLVR模型能做的題

甚至,RLVR還收窄了模型的探索能力——它會更集中在“能得分的套路”上,但反而失去一些“歪打正著”的能力,導致極限覆蓋沒基礎模型廣。

無論是代碼生成(LiveCodeBench、HumanEval+),還是視覺推理(MathVista、MathVision),趨勢都是一樣:RLVR提升了單次成功率,但大采樣下基礎模型能覆蓋更多難題。

為什么會這樣?

清華的這篇論文認為有兩點原因:

一是大模型的“先驗”太強了。RLVR本質上是在基礎模型原有輸出分布里找高分的“套路”,不走新路;RL算法本身不適合探索超大動作空間(語言的組合爆炸),靠獎勵信號很難跳出原有思路。

二是探索能力反而被抑制。RLVR讓模型更“穩”,但也更“保守”,輸出熵降低,探索新解法的能力變弱。

RLVR在大模型推理這件事上,和AlphaGo那種“純RL自我進化”完全不是一回事。大模型的RLVR只是“采樣分布微調”,不是“能力進化”。

怎么解決?

論文做了一個實驗,把更強的模型的推理鏈條喂給小模型,小模型能真的學到新花樣,推理上限突破原有格局。

所以,如果真想讓模型能力更進一步,靠RLVR遠遠不夠,得靠知識蒸餾“老師帶學生”那一套。

即“讓模型變聰明”的關鍵,或許在于“注入新知識”(如蒸餾),而不是單純靠獎勵強化。

或者探索“更強的探索范式”,比如結合RL和生成式探索、提升模型對“低概率創新路徑”的容忍度等。

圖源:清華大學LeapLab實驗室官網

責任編輯:武曉燕 來源: 大數據文摘
相關推薦

2025-04-25 09:22:44

2023-02-08 08:00:00

算法人工智能大數據

2023-09-05 14:43:15

2025-02-10 09:35:00

2023-05-31 15:15:53

2023-10-07 08:28:06

語言模型代碼技術

2023-09-06 13:17:00

AI數據

2024-02-27 09:14:01

AI模型

2021-02-07 10:01:31

AI 數據人工智能

2025-04-27 09:23:00

模型訓練AI

2024-07-22 08:10:00

數據模型

2024-12-10 07:00:00

大模型密度定律人工智能

2023-11-15 15:37:21

大模型人工智能

2023-03-15 09:36:14

模型

2025-06-03 08:51:00

2024-09-13 10:06:21

2024-12-09 17:20:29

2011-02-22 14:49:23

vsftpdsubsys

2023-06-15 12:03:32

2023-10-31 17:28:00

數據訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 伊人网综合在线 | 日本精品久久 | 日本手机看片 | 亚洲国产成人精品在线 | 欧美一级免费看 | 一级毛片高清 | 欧美日韩精品一区二区三区蜜桃 | 玖玖玖在线观看 | 人成在线视频 | 国产精品欧美一区二区三区不卡 | 欧美一区二区三区在线观看视频 | 国产亚洲精品精品国产亚洲综合 | 日韩美香港a一级毛片免费 国产综合av | 久久久久久久久久久久久91 | 国产乱码高清区二区三区在线 | 日本不卡一区二区三区 | 精品在线视频播放 | 日日干夜夜草 | 色毛片 | 午夜男人天堂 | 欧美亚洲综合久久 | 免费黄色a视频 | 久久人| 色片在线观看 | 精品免费国产一区二区三区四区介绍 | 伊大人久久 | 欧美在线视频一区二区 | 久久亚洲一区二区 | 国产欧美一区二区精品忘忧草 | 正在播放国产精品 | 免费在线看黄视频 | 精品中文字幕在线观看 | 久久久久久国产一区二区三区 | 二区三区视频 | av高清毛片 | 97精品超碰一区二区三区 | 久久一区二区三区四区 | 夜夜操操操 | 一区二区三区精品在线视频 | 国产玖玖 | 亚洲欧美激情国产综合久久久 |