成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型RL不止數學代碼!7B獎勵模型搞定醫學法律經濟全學科, 不用思維鏈也能做題

人工智能 新聞
騰訊&蘇州大學團隊提出新框架RLVR,將強化學習訓練擴展到醫學、化學、法律、心理學、經濟學等多學科。

一個7B獎勵模型搞定全學科,大模型強化學習不止數學和代碼。

o1/r1的強化學習很強,但主要探索了數學和代碼領域,因為這兩個領域的數據結構化程度高,獎勵函數/獎勵模型比較好設計。

那么,想提升大模型在其他學科領域的能力該怎么辦?

騰訊&蘇州大學團隊提出新框架RLVR,將強化學習訓練擴展到醫學、化學、法律、心理學、經濟學等多學科。

RLVR使用基于生成模型的軟獎勵,與傳統基于二元規則的獎勵相比,在泛化、穩健性和可擴展性方面有顯著的提升。

圖片

除論文外,還開源了獎勵模型和多學科數據集。

圖片

7B獎勵模型搞定全學科

研究基于一個有趣的發現:當任務有客觀參考答案時,不同大型語言模型在做二元判斷(正確/錯誤)時表現出高度一致性。

這或許意味著,并不需要在每個領域都訓練一個大規模的獎勵模型。相反,直接用現成的大語言模型來充當驗證器就能有效。

像這樣的二元獎勵雖然簡單直接,但在參考答案缺乏結構化的領域又不直接適用。

于是研究團隊進一步引入基于模型的軟獎勵(model-basedsoft scroing),相比直接給出0或1的二元硬標簽,軟獎勵根據生成式驗證器判斷的置信度打分,有了更高的靈活性。

受啟發于“大模型判斷高度一致”的發現,團隊用72B參數的Qwen2.5-Instruct蒸餾出一個7B的獎勵模型。蒸餾過程不需要領域特定的標注,完全依靠在線探索階段采集的數據進行訓練。

整個過程分為3步流水線:

圖片

實驗數據從ExamQA中隨機采樣了6000個問題,廣泛分布于理工人文各學科。

圖片

實驗對比基礎模型(Base)、微調基礎模型(SFT)、基于規則的RL、使用SFT模型作為驗證器,以及本文蒸餾的RM-7B模型作為驗證器的多種方法,有以下結論:

  • RM-7B在自由形式答案任務中表現出色
  • 基于模型的獎勵在處理非結構化參考答案場景中優于基于規則的獎勵
  • 軟獎勵在處理多學科任務中,面對復雜判斷時比二元獎勵表現更好

圖片

此外實驗還驗證了基于模型的獎勵在數據量增加時可擴展性更好。

圖片

在討論部分,作者指出本研究中未使用思維鏈推理(CoT),雖然CoT在有參考和無參考的場景中都有用,但對于評估同語言的參考答案和模型響應之間的語義等價性,深入的推理依據是否必要仍有待研究。此外,在RLVR的過程獎勵建模中,當中間步驟缺乏直接監督時,如何分配獎勵也是一個開放問題。

本研究也不對參考答案或模型響應設置格式約束,這樣做好處是減少了數據標準化和模式設計的人力投入,但格式相關約束和獎勵在這種情況下的作用仍需重新審視。

One More Thing

論文作者騰訊涂兆鵬發帖介紹了這篇文章,探討強化學習是否可以擴展到數學和編碼任務之外。

圖片

評論區有網友指出很有可能成立,因為不同的訓練方法可以看成有不同邊界條件的學習空間。

涂兆鵬也認為這個視角與RLVR方法的觀點一致。

圖片

論文地址:
https://arxiv.org/abs/2503.23829

HuggingFace:
https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-06-03 10:43:34

2024-02-04 08:00:00

Zephyr 7B大語言模型算法

2024-07-17 12:13:11

2024-05-09 08:33:33

2024-04-02 09:17:50

AI數據開源

2024-06-11 14:30:18

2024-03-25 08:00:00

2024-02-07 12:39:00

AI數據

2023-10-11 12:32:53

AI模型

2024-07-17 13:40:01

2025-02-10 14:30:00

模型數據開源

2025-02-25 12:30:00

2025-06-18 08:47:00

2023-10-13 19:58:33

Mistral7B模型

2025-06-25 08:54:03

模型訓練AI

2024-08-13 15:40:00

2023-12-19 13:18:36

AI數據

2025-02-17 14:43:51

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91精品国产综合久久久久久蜜臀 | 亚洲区一 | 亚洲国产一区二区在线 | 欧美a在线看 | 免费看av大片 | 欧美 日韩 亚洲91麻豆精品 | 国产欧美日韩在线播放 | 国产精品视频一区二区三区不卡 | 国产精品免费看 | 美女在线一区二区 | 精品国产精品国产偷麻豆 | 亚洲第一视频网 | 日韩在线观看中文字幕 | 亚洲一区二区在线免费观看 | 午夜一级大片 | 日韩综合一区 | 国产成人a亚洲精品 | av在线播放国产 | 中文字幕一区二区三区在线观看 | 国产精品一区在线播放 | 成人黄色在线 | 欧美亚洲视频在线观看 | 国产精品亚洲综合 | 欧美一级久久 | 日韩av免费在线观看 | 国产精品久久久 | 欧美二区在线 | 精品福利在线视频 | 一区二区三区亚洲 | 欧美日韩在线一区二区 | 亚洲精品一区二区 | av中文字幕在线 | 国产亚洲一区二区三区 | 午夜免费在线 | 91av小视频 | 一区视频在线免费观看 | 中文字幕第九页 | 欧美成人精品一区二区男人看 | 亚洲狠狠爱 | 日韩高清国产一区在线 | 天天爱爱网|