成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

200美金,人人可手搓QwQ,清華、螞蟻開源極速RL框架AReaL-boba

人工智能 新聞
本周,螞蟻技術(shù)研究院和清華大學(xué)交叉信息院吳翼團(tuán)隊(duì),聯(lián)合發(fā)布了訓(xùn)練速度最快最穩(wěn)定的開源強(qiáng)化學(xué)習(xí)訓(xùn)練框架 AReaL(Ant Reasoning RL),并公開全部數(shù)據(jù)和完成可復(fù)現(xiàn)的訓(xùn)練腳本。

由于 DeepSeek R1 和 OpenAI o1 等推理模型(LRM,Large Reasoning Model)帶來了新的 post-training scaling law,強(qiáng)化學(xué)習(xí)(RL,Reinforcement Learning)成為了大語言模型能力提升的新引擎。然而,針對(duì)大語言模型的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練門檻一直很高:

  • 流程復(fù)雜、涉及模塊多(生成、訓(xùn)練、獎(jiǎng)勵(lì)判定等),為實(shí)現(xiàn)高效穩(wěn)定的分布式訓(xùn)練帶來很多挑戰(zhàn);
  • R1/o1 類推理模型的輸出長度很長(超過 10K),并且隨著訓(xùn)練持續(xù)變化,很容易造成顯存和效率瓶頸;
  • 開源社區(qū)缺乏高質(zhì)量強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù),以及完整可復(fù)現(xiàn)的訓(xùn)練流程。

本周,螞蟻技術(shù)研究院和清華大學(xué)交叉信息院吳翼團(tuán)隊(duì),聯(lián)合發(fā)布了訓(xùn)練速度最快最穩(wěn)定的開源強(qiáng)化學(xué)習(xí)訓(xùn)練框架 AReaL(Ant Reasoning RL),并公開全部數(shù)據(jù)和完成可復(fù)現(xiàn)的訓(xùn)練腳本。在最新的 AReaL v0.2 版本 AReaL-boba 中,其 7B 模型數(shù)學(xué)推理分?jǐn)?shù)刷新同尺寸模型 AIME 分?jǐn)?shù)紀(jì)錄,并且僅僅使用 200 條數(shù)據(jù)復(fù)刻 QwQ-32B,以不到 200 美金成本實(shí)現(xiàn)最強(qiáng)推理訓(xùn)練效果。

  • 項(xiàng)目鏈接:https://github.com/inclusionAI/AReaL
  • HuggingFace數(shù)據(jù)模型地址:https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a

關(guān)于 AReaL-boba

AReaL 源自開源項(xiàng)目 ReaLHF,旨在讓每個(gè)人都能用強(qiáng)化學(xué)習(xí)輕松訓(xùn)練自己的推理模型和智能體。AReaL 承諾完全開放與可復(fù)現(xiàn),團(tuán)隊(duì)將持續(xù)發(fā)布與訓(xùn)練 LRM 相關(guān)的所有代碼、數(shù)據(jù)集和訓(xùn)練流程。所有核心組件全部開源,開發(fā)者可無阻礙地使用、驗(yàn)證和改進(jìn) AReaL。

本次最新版本「boba」的命名一方面源自團(tuán)隊(duì)對(duì)珍珠奶茶的偏愛,另一面也是希望強(qiáng)化學(xué)習(xí)技術(shù)能如奶茶成為大眾飲品一般,滲透至 AI 開發(fā)的每個(gè)日常場(chǎng)景,普惠整個(gè)社區(qū)。

AReaL-boba 發(fā)布亮點(diǎn)

訓(xùn)練速度最快的開源框架

AReaL-boba 是首個(gè)全面擁抱 xAI 公司所采用的 SGLang 推理框架的開源訓(xùn)練系統(tǒng),對(duì)比初代 AReaL 訓(xùn)練大幅度提升訓(xùn)練吞吐:通過集成 SGLang 框架及多項(xiàng)工程優(yōu)化,AReaL-boba 可以無縫適配各種計(jì)算資源下的強(qiáng)化學(xué)習(xí)訓(xùn)練,實(shí)現(xiàn)吞吐在 1.5B 模型尺寸上速度提升 35%,在 7B 模型速度提升 60%,32B 模型速度提升 73%。

圖片

圖 1:AreaL-boba 對(duì)比初代 AReaL 訓(xùn)練大幅度提升訓(xùn)練吞吐

使用 AReaL-boba 即可以 128 張 H800 規(guī)模在 1 天內(nèi)訓(xùn)練完成 SOTA 1.5B 推理模型,以 256 張 H800 規(guī)模在 2 天內(nèi)完成 SOTA 7B 推理模型訓(xùn)練。

AReaL 希望讓整個(gè)社區(qū)不論單機(jī)器,還是大規(guī)模分布式訓(xùn)練,都可以輕松高效率駕馭強(qiáng)化學(xué)習(xí)。

7B 模型數(shù)學(xué)推理分?jǐn)?shù)斷崖領(lǐng)先

AReaL 團(tuán)隊(duì)以 Qwen-R1-Distill-7B 模型為基礎(chǔ)模型,通過大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練,即可在 2 天內(nèi)取得領(lǐng)域最佳的數(shù)學(xué)推理能力,實(shí)現(xiàn) AIME 2024 61.9 分、AIME 2025 48.3 分,刷新開源社區(qū)記錄,也大幅超越了 OpenAI o1-preview。相比基礎(chǔ)模型,AReaL-boba 通過強(qiáng)化學(xué)習(xí)讓模型能力實(shí)現(xiàn)躍升 —— 在 AIME 2024 上提升 6.9 分,在 AIME 2025 提升 8.6 分 —— 再次證明了 RL Scaling 的價(jià)值。

圖片

表 1: 同類參數(shù)模型的不同基準(zhǔn)測(cè)試分?jǐn)?shù)

同時(shí) AReaL-boba 不僅開源了推理模型,也開源所有的訓(xùn)練數(shù)據(jù) AReaL-boba-106k,以及全部的訓(xùn)練腳本和評(píng)估腳本,確保人人可復(fù)現(xiàn)。在項(xiàng)目官方倉庫上,AReaL 團(tuán)隊(duì)也放出了極其詳細(xì)的技術(shù)筆記,總結(jié)了大量訓(xùn)練中的關(guān)鍵點(diǎn),包括 PPO 超參數(shù)、獎(jiǎng)勵(lì)函數(shù)設(shè)置、正則化設(shè)置、長度上限設(shè)置等等。 

通過創(chuàng)新性數(shù)據(jù)蒸餾技術(shù),200 條數(shù)據(jù)復(fù)現(xiàn) QwQ-32B

在 32B 模型尺寸上,AReaL 團(tuán)隊(duì)進(jìn)一步精簡訓(xùn)練數(shù)據(jù)并發(fā)布數(shù)據(jù)集 AReaL-boba-SFT-200 以及相關(guān)訓(xùn)練腳本。基于 R1-Distill-Qwen-32B,AReaL-boba 使用僅僅 200 條數(shù)據(jù)并以輕量級(jí) SFT 的方式,在 AIME 2024 上復(fù)刻了 QwQ-32B 的推理結(jié)果,相當(dāng)于僅僅使用了 200 美金的計(jì)算成本,讓所有人都可以以極低的成本實(shí)現(xiàn)最強(qiáng)的推理訓(xùn)練效果。

圖片

表 2:同類參數(shù)模型的 AIME 2024 分?jǐn)?shù)

結(jié)語

AReaL 團(tuán)隊(duì)的核心成員均來自于螞蟻研究院強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室以及交叉信息研究院吳翼團(tuán)隊(duì),項(xiàng)目也借鑒了大量優(yōu)秀的開源項(xiàng)目,比如 DeepScaleR、SGLang、QwQ、Open-Reasoner-Zero、OpenRLHF、veRL、Light-R1 和 DAPO。作為國內(nèi)第一個(gè)完整開源(數(shù)據(jù)、代碼、模型、腳本全開源)的強(qiáng)化學(xué)習(xí)項(xiàng)目團(tuán)隊(duì),AReaL 希望能真正實(shí)現(xiàn) AI 訓(xùn)練的普惠。

AReaL 團(tuán)隊(duì)在項(xiàng)目列表中也列出了團(tuán)隊(duì)后續(xù)的開源計(jì)劃和目標(biāo),包括異步訓(xùn)練、訓(xùn)練吞吐優(yōu)化、數(shù)據(jù)集和算法升級(jí),以及代碼和 Agent 智能體能力支持。讓我們期待 AReaL 團(tuán)隊(duì)的下一個(gè) release,猜猜是哪一款奶茶呢?

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-04-02 09:00:00

模型開源AI

2025-06-06 09:10:00

模型開源AI

2025-03-19 09:15:00

AI算法模型

2024-07-09 09:36:17

2022-07-05 07:59:00

VSCode開源項(xiàng)目

2009-02-26 18:35:43

2025-03-10 09:20:00

2025-06-05 08:40:00

2022-07-05 14:26:36

隱私計(jì)算開源

2024-08-01 17:20:55

2025-06-20 08:40:32

2011-11-04 15:03:36

照片客戶端人人飛傳

2011-09-27 07:26:33

程序員

2012-04-10 17:37:57

2025-05-28 11:55:56

模型開源框架

2024-01-29 13:56:55

AI數(shù)據(jù)

2025-01-23 13:05:42

2015-03-13 11:24:28

開源

2023-04-13 15:32:09

數(shù)據(jù)集開源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 成人在线国产 | 国产日韩一区二区三区 | 欧美精品v | 国产在线观看网站 | 91精品国产乱码久久久久久久久 | 夏同学福利网 | 成人在线视频免费观看 | 国产精品精品视频一区二区三区 | 国产一区二区影院 | 天天曰夜夜操 | 99伊人 | 久久激情五月丁香伊人 | 欧洲av一区 | 亚洲一区二区三区乱码aⅴ 四虎在线视频 | 久草视频在线播放 | 人人干人人干人人 | 超碰网址 | 欧美精品二区 | 亚洲国产成人精品女人久久久野战 | 精品二区视频 | 日韩一区中文字幕 | 亚洲第一黄色网 | 一级大片网站 | 久艹av | 日韩一区二区三区在线 | caoporn国产| www国产成人免费观看视频 | 精品国产乱码久久久久久图片 | 成人二区三区 | 美国一级毛片a | 婷婷99 | 色综合网站 | 亚洲欧美日韩精品久久亚洲区 | 毛片免费看 | 天天拍天天草 | 久久久精品影院 | 亚洲成人免费视频 | 蜜桃毛片| 日韩精品一区二区三区中文在线 | 视频一区二区在线观看 | 亚洲综合电影 |