成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

僅需一萬塊錢!清華團(tuán)隊(duì)靠強(qiáng)化學(xué)習(xí)讓7B模型數(shù)學(xué)打敗GPT-4o

人工智能 新聞
近日,清華大學(xué)NLP實(shí)驗(yàn)室、上海AI Lab、清華大學(xué)電子系、OpenBMB社區(qū)等團(tuán)隊(duì)提出一種新的結(jié)合過程獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法——PRIME(Process Reinforcement through IMplicit REwards)。

OpenAI o1和o3模型的發(fā)布證明了強(qiáng)化學(xué)習(xí)能夠讓大模型擁有像人一樣的快速迭代試錯(cuò)、深度思考的高階推理能力,在基于模仿學(xué)習(xí)的Scaling Law逐漸受到質(zhì)疑的今天,基于探索的強(qiáng)化學(xué)習(xí)有望帶來新的Scaling Law。

近日,清華大學(xué)NLP實(shí)驗(yàn)室、上海AI Lab、清華大學(xué)電子系、OpenBMB社區(qū)等團(tuán)隊(duì)提出一種新的結(jié)合過程獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法——PRIME(Process Reinforcement through IMplicit REwards)

圖片

采用PRIME方法,研究人員不依賴任何蒸餾數(shù)據(jù)和模仿學(xué)習(xí),僅用8張A100,花費(fèi)一萬塊錢左右,不到10天時(shí)間,就能高效訓(xùn)練出一個(gè)數(shù)學(xué)能力超過 GPT-4o、Llama-3.1-70B的7B模型 Eurus-2-7B-PRIME。

具體而言,研究人員利用Qwen2.5-Math-7B-Base作為基座模型,訓(xùn)練出了新模型Eurus-2-7B-PRIME,并在美國IMO選拔考試AIME 2024上的準(zhǔn)確率達(dá)到26.7%,大幅超越GPT-4o,Llama3.1-70B和Qwen2.5-Math-7B-Instruct,且僅使用了Qwen Math數(shù)據(jù)的 1/10。其中,強(qiáng)化學(xué)習(xí)方法PRIME為模型帶來了16.7%的絕對提升,遠(yuǎn)超已知的任何開源方案。

圖片
圖片

該項(xiàng)目一經(jīng)開源就在海外AI社區(qū)爆火,短短幾天Github取得近300star。

未來,基于PRIME方法和更強(qiáng)的基座模型有潛力訓(xùn)練出接近OpenAI o1的模型。

PRIME方法介紹

長久以來,開源社區(qū)嚴(yán)重依賴數(shù)據(jù)驅(qū)動(dòng)的模仿學(xué)習(xí)來增強(qiáng)模型推理能力,但這種方法的局限也顯而易見——更強(qiáng)的推理能力需要更高質(zhì)量的數(shù)據(jù),但高質(zhì)量數(shù)據(jù)總是稀缺,使得模仿和蒸餾難以持續(xù)。

雖然OpenAI o1和o3的成功證明了強(qiáng)化學(xué)習(xí)有著更高的上限,但強(qiáng)化學(xué)習(xí)有著兩個(gè)關(guān)鍵挑戰(zhàn):(1)如何獲得精準(zhǔn)且可擴(kuò)展的密集獎(jiǎng)勵(lì);(2)如何設(shè)計(jì)可以充分利用這些獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)算法。

PRIME算法從隱式過程獎(jiǎng)勵(lì)(implicit process reward)的思想出發(fā)解決這兩個(gè)問題。隱式過程獎(jiǎng)勵(lì)模型可以僅在輸出獎(jiǎng)勵(lì)模型(outcome reward model, ORM)的數(shù)據(jù),即答案的最終對錯(cuò)上進(jìn)行訓(xùn)練,而隱式地建模過程獎(jiǎng)勵(lì),最終自動(dòng)訓(xùn)練出一個(gè)過程獎(jiǎng)勵(lì)模型,這整個(gè)過程都有嚴(yán)格的理論保證。

詳細(xì)推導(dǎo)見:https://huggingface.co/papers/2412.01981

圖片

基于隱式過程獎(jiǎng)勵(lì)模型的這種性質(zhì),研究人員指出將其應(yīng)用于強(qiáng)化學(xué)習(xí)有三大優(yōu)勢:

  • 過程獎(jiǎng)勵(lì):隱式過程獎(jiǎng)勵(lì)模型能夠?yàn)槊總€(gè) token 提供價(jià)值估計(jì),在提供過程獎(jiǎng)勵(lì)的同時(shí)無需訓(xùn)練額外的價(jià)值模型(value model)
  • 可擴(kuò)展性:隱式過程獎(jiǎng)勵(lì)模型只需結(jié)果標(biāo)簽即可在線更新。所以,我們可以結(jié)合策略模型采樣與結(jié)果驗(yàn)證器來直接更新PRM,有效緩解分布偏移與可擴(kuò)展性問題。
  • 簡潔性:隱式過程獎(jiǎng)勵(lì)模型本質(zhì)上就是一種語言模型。在實(shí)踐中,研究人員發(fā)現(xiàn)可以直接用初始的策略模型初始化PRM。

隱式過程獎(jiǎng)勵(lì)解決了PRM在大模型強(qiáng)化學(xué)習(xí)中怎么用,怎么訓(xùn),怎么擴(kuò)展的三大問題,甚至不需要訓(xùn)練額外的獎(jiǎng)勵(lì)模型就可以開始強(qiáng)化學(xué)習(xí),易用性和可擴(kuò)展性極佳。

具體的PRIME算法流程如下圖所示,它是一種在線強(qiáng)化學(xué)習(xí)算法,能夠?qū)⒚總€(gè)token的過程獎(jiǎng)勵(lì)無縫應(yīng)用于強(qiáng)化學(xué)習(xí)流程中。

圖片

實(shí)驗(yàn)結(jié)果

研究人員詳細(xì)比較了PRIME算法和基線方法。

相比于僅用結(jié)果監(jiān)督,PRIME有著2.5倍的采樣效率提升,在下游任務(wù)上也有著顯著提升。

圖片
圖片

研究人員還驗(yàn)證了PRM在線更新的重要性,可以看到,在線的PRM更新要顯著優(yōu)于固定不更新的PRM,這也證明了PRIME算法設(shè)計(jì)和合理性。

圖片

此外,研究人員還額外收集數(shù)據(jù),基于Qwen2.5-Math-Instruct訓(xùn)練了SOTA水平的EurusPRM,能夠在Best-of-N采樣中達(dá)到開源領(lǐng)先水平。

圖片

Showcase演示

Question (AIME 2024試題,Claude-3.5-Sonnet做錯(cuò))

圖片

Answer

圖片

Question

Which number is larger? 9.11 or 9.9?

Answer

圖片

強(qiáng)化學(xué)習(xí)是連接已有智能體(大模型)和現(xiàn)實(shí)世界(世界模型,具身智能)的橋梁,以及將世界反饋內(nèi)化為模型智能的路徑,將在下一代人工智能的發(fā)展中起到重要作用。PRIME 算法創(chuàng)新性地將隱式過程獎(jiǎng)勵(lì)與強(qiáng)化學(xué)習(xí)結(jié)合,解決了大模型強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)稀疏問題,有望推動(dòng)大模型復(fù)雜推理能力的進(jìn)一步提升。

blog鏈接:https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896fGitHub鏈接:https://github.com/PRIME-RL/PRIME

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-02-07 12:39:00

AI數(shù)據(jù)

2025-02-25 12:30:00

2025-06-10 09:07:00

2024-09-23 15:04:16

2025-03-11 13:07:58

2025-04-16 15:28:31

模型AI數(shù)據(jù)

2025-04-11 09:10:00

模型開源AI

2025-03-10 01:00:00

2025-01-02 13:00:00

2024-05-09 08:33:33

2024-09-23 15:10:00

2024-06-11 14:30:18

2024-05-21 11:35:48

阿里云通義千問

2025-04-15 09:19:00

模型AI數(shù)據(jù)

2025-02-27 13:45:00

2025-06-04 13:53:22

代碼模型AI

2024-08-05 08:46:00

模型測評(píng)

2024-09-03 14:30:00

機(jī)器人模型

2024-09-23 08:30:00

AI模型

2024-05-21 12:23:17

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 美美女高清毛片视频免费观看 | 中文视频在线 | 成人免费看片网 | 国产人久久人人人人爽 | 精品videossex高潮汇编 | 国产亚洲精品精品国产亚洲综合 | 国产区一区二区三区 | 人成在线视频 | 久久亚洲91| 成人亚洲精品久久久久软件 | 伊人二区| 色噜噜亚洲男人的天堂 | 国产一区二区中文字幕 | 91啪亚洲精品| www国产亚洲精品 | 色爱综合网 | 欧美日韩看片 | 日韩欧美一级片 | 在线观看av免费 | 国产一区二区三区视频 | 欧美一区二区在线播放 | 国产高清无av久久 | 久久1区| 日本三级在线视频 | 国产精品欧美一区二区 | 91啪亚洲精品 | 久久亚洲经典 | 亚洲 欧美 日韩在线 | 国产成人高清在线观看 | 欧美日韩亚洲国产综合 | 亚洲成av片人久久久 | 欧美日韩一卡二卡 | 国产精品久久久久久久久久久久久 | 国产精品精品视频一区二区三区 | 亚洲国产aⅴ成人精品无吗 欧美激情欧美激情在线五月 | 成人国产精品久久久 | 欧美国产精品一区二区 | 91p在线观看 | 黄色日本视频 | 亚洲成人一区二区三区 | 久久毛片|