成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

無需數據標注!測試時強化學習,模型數學能力暴增 | 清華&上海AI Lab

人工智能 新聞
清華和上海AI Lab周伯文團隊用這樣的方法,對模型進行了強化。

無需數據標注,在測試時做強化學習,模型數學能力暴增159%!

清華和上海AI Lab周伯文團隊用這樣的方法,對模型進行了強化——

結果模型在多個數據集上的成績均大幅提升,尤其是Qwen-2.5-Math-7B,它做AIME 2024競賽題的成績直接提高了159%。

圖片

實驗過程中,強化學習的數據均由被訓練的模型自身生成。

作者還發現,訓練后的模型性能,準確性已經超過了用于訓練它的偽標簽(測試時強化學習過程中產生)。

DeepMind工程師評價,這種測試時強化學習的方式將改變LLM的格局:

它利用預訓練模型和特定任務的提示進行實時自適應,而無需大量帶標簽的數據集,這是向前邁出的重要一步。

圖片

模型自己生成強化學習數據

作者提出的測試時強化學習(TTRL)過程是測試時擴展和測試時訓練的結合,具體可以分為“生成、投票、強化”三個大步驟。

圖片

第一步生成的目的,是讓模型針對每個輸入的prompt,生成盡可能多樣化的候選答案,該過程通過測試時推理來實現。

其思路是在推理階段增加計算資源以獲得更好的性能,具體到TTRL采用的是增加采樣數量的方式,即對每個prompt,讓模型采樣生成N個不同的答案,而不是只生成一個確定性最高的輸出。

作者的實驗中,當在AIME 2024數據集上應用TTRL訓練Qwen2.5-Math-7B模型時,每個prompt采樣64次(N=64),溫度系數設為1.0,以鼓勵模型生成多樣化的答案。

投票過程從上一步生成的N個候選答案出發,通過多數投票的方式來估計正確答案,并將其作為偽標簽。

圖片

TTRL在實際應用投票機制時還引入了一個參數 Maj@N,表示多數投票的估計準確率。

它衡量的是偽標簽與真實標簽的一致性。通過控制Maj@N,可以權衡偽標簽的質量和數量。

最后一步利用強化學習,基于上一步估計出的偽標簽,來優化語言模型的策略,使其傾向于給出正確答案。

TTRL采用GRPO算法,還加入了重要性采樣和蒙特卡洛估計等技術,以提高訓練效率和穩定性。

模型數學能力大幅提升

為了評估TTRL的效果,作者在AIME 2024、AMC和MATH-500三個數據集上對調整前后的三款模型進行了測試。

  • 在AIME 2024數據集上,對于Qwen2.5-Math-7B基礎模型,TTRL將其準確率從16.7%提高到43.3%,提升幅度高達159.3%,超越了所有在大規模標注數據上訓練的模型。
  • 在AMC數據集上,Qwen2.5-Math-7B、Qwen2.5-Math-1.5B和LLaMA模型的準確率分別獲得了74.9%、63.1%和68.4%的大幅提高。
  • MATH-500數據集上的表現更為突出,Qwen2.5-Math-7B和Qwen2.5-Math-1.5B分別實現了66.4%和142.4%的驚人提升,LLaMA模型的準確率也提高了29.3%。

平均而言,TTRL使Qwen2.5-Math-7B模型在三個數據集上的性能提高了84.1%。

圖片

進一步的泛化性實驗表明,在一個數據集上應用TTRL后,性能的提高可以自然遷移到其他數據集,甚至是從未參與訓練的任務。

圖片

為了分析TTRL方法有效的原因,作者比較了TTRL訓練前后模型的多數投票性能。

結果,應用TTRL后,模型的多數投票準確率(Maj@64)顯著高于原始的Qwen模型,說明通過多數投票得到的偽標簽質量優于單個模型輸出。

圖片

并且強化學習具備糾錯能力。即使偽標簽并非完全準確,強化學習也可以通過獎懲機制引導模型朝著正確方向優化。

從AIME 2024上標簽準確率和獎勵準確率的變化曲線中可以看到,即使在標簽準確率較低的階段,獎勵準確率也能維持在90%以上。

圖片

作者簡介

這項研究的領導者是清華大學C3I課題組博士生張開顏和上海AI實驗室青年研究員崔淦渠。

張開顏的導師是上海人工智能實驗室主任、首席科學家周伯文教授;崔淦渠則畢業于清華NLP實驗室,讀博期間導師是劉知遠副教授。

本文共同一作是張開顏和同樣來自清華的Yuxin Zuo,周伯文和C3I課題組博士后丁寧是本文的通訊作者。

圖片

論文地址:
https://arxiv.org/abs/2504.16084

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-04-25 09:12:00

2025-06-25 09:28:38

2025-06-03 08:51:00

2025-04-15 09:19:00

模型AI數據

2025-04-27 09:16:00

模型AI數據

2025-06-23 09:09:00

2024-07-26 09:33:22

2024-11-05 14:20:00

AI模型

2025-02-10 14:05:00

訓練模型AI

2025-01-13 02:00:00

模型訓練數據

2024-09-23 08:30:00

AI模型

2024-12-19 09:00:00

模型數學訓練

2025-05-30 04:00:00

IBMRLVRGRPO

2023-08-28 06:52:29

2024-09-10 15:10:00

智能強化學習框架

2025-04-27 09:23:00

模型訓練AI

2025-05-12 09:02:00

2025-01-23 09:15:00

數據技術模型

2025-06-03 09:05:00

2025-06-18 09:03:07

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天干视频网 | 亚洲国产欧美一区二区三区久久 | 欧美色性| 亚洲一区二区在线播放 | 久久久久国产精品人 | 91网站在线播放 | 亚洲一区国产 | 日韩免费在线 | 日韩欧美一区二区三区四区 | 亚洲乱码国产乱码精品精98午夜 | 欧美日韩1区 | 日韩欧美国产精品一区 | 天天爽天天操 | 日韩精品一区二区三区第95 | 久久久久成人精品亚洲国产 | 蜜桃综合在线 | 亚洲国产精品久久久久久 | 日韩精品一区二区三区 | 免费精品久久久久久中文字幕 | 欧美精品国产精品 | 亚洲免费视频网站 | 久久狼人天堂 | 91麻豆精品一区二区三区 | 韩国精品在线 | 少妇淫片aaaaa毛片叫床爽 | 日本高清视频网站 | 日韩伦理一区二区 | 欧美性生交大片免费 | 久久亚洲一区二区三区四区 | 青青艹在线视频 | 黑人巨大精品欧美一区二区免费 | 久久精品免费看 | 久久国内精品 | 成人免费视频 | 亚洲精品乱码久久久久久蜜桃91 | 亚洲一区二区三区观看 | 7777久久| 久久久久久久久久久久久91 | 欧美一级大片免费看 | caoporn视频在线 | 国户精品久久久久久久久久久不卡 |