超低成本復現QwQ！數學推理模型訓練迎來RL暴擊，數據代碼模型全開源 | 螞蟻&清華出品

作者：量子位 2025-04-02 09:00:00

人工智能新聞

螞蟻清華聯手開源的強化學習框架AReaL-boba，直接把推理模型訓練帶到了Next Level——

用上這個開源框架，2天時間就能刷新7B數學推理紀錄！

螞蟻清華聯手開源的強化學習框架AReaL-boba，直接把推理模型訓練帶到了Next Level——

訓練成本下降的同時，訓練速率、推理能力還大幅提升的那種。

除了前面提到的7B模型，在32B模型上，只需兩百美元、200條數據，就可以輕松復現QwQ-32B，就是數學推理能力媲美DeepSeek-R1，一戰封神的那個。

而且開源的內容非常全面，不僅只是模型，所有訓練代碼，數據，模型參數以及訓練細節都通通開源了，還有超級詳細的技術筆記可以看，感覺像是被技術團隊手把手教導。

一個技術小白也能手搓一個頂尖大模型了。

AReaL-boba，人人可復現QwQ

AReaL，Ant Reasoning RL，是Ant Research RL Lab等開源的高效強化學習系統。在此基礎之上，該版本取名為boba，是因為團隊希望AReaL像珍珠奶茶一樣讓強化學習普惠整個社區，讓開發者無論資源規模均可觸達SOTA效果。

通過開源全部代碼、數據與模型參數，AReaL-boba在訓練效率、推理能力與成本控制上實現三重突破。

首先是訓練效率上的提升，全面集成SGLang推理框架。

AReaL-boba是首個擁抱SGLang的開源訓練系統，大幅優化訓練吞吐性能。

（SGLang是一個xAI公司采用的面向復雜語言模型的高性能推理框架，它通過共同設計后端運行時和前端語言，讓模型交互更快、更可控。市面上主流模型和企業都已大規模部署，每天產生數萬億個token）

對比原始版本，在1.5B模型尺寸上吞吐提升35%，7B模型提升60%，32B模型提升73%。

而且無縫適配各種計算資源，既支持單機，也支持大規模分布式訓練，突破傳統RL訓練資源瓶頸。

在大規模分布式訓練效率上有顯著的提升，一個直觀的例子：

128卡集群1天完成1.5B模型訓練，256卡2天完成7B模型訓練。

這樣一來，中小團隊也能在有限算力下快速迭代模型，真正實現”人人可駕馭強化學習”。

其次，推理能力大幅提升，尤其7B模型性能斷層領先。

當前最考驗推理模型能力的，無疑是它在數學推理領域的表現。

在這一領域中，AReaL-boba基于Qwen-R1-Distill-7B模型，通過大規模強化學習訓練，僅用2天即實現SOTA水平——

AIME 2024 61.9分，AIME 2025 48.3分，相比于o1-preview也是大幅領先。

相較于基礎模型Qwen-R1-Distill-7B，使用AReaL-boba后模型推理能力也有不少提升——

分別在AIME2024、AIME2025提升6.9、8.6分。

而想要擁有這樣一個SOTA級別的推理模型并不難，團隊不僅把能開源的都開源了，還有超級詳細的技術筆記送上。

團隊不僅開源了推理模型，也開源了所有所有訓練數據AReaL-boba-106k，以及全部的訓練腳本和評估腳本，保證人人可以復現。

而過程中遇到問題也不用擔心，在項目官方倉庫上，AReaL 團隊也放出了極其詳細的技術筆記，總結了大量訓練中的關鍵點，包括 PPO 超參數、獎勵函數設置、正則化設置、長度上限設置等等。

刷新小模型推理上限的同時，也通過技術透明化推動創新生態。

像我這樣一個技術小白，研究一下也能手搓個小模型出來。

最后，使用創新性蒸餾技術，極簡數據復現頂尖模型。

前段時間，QwQ-32B橫空出世，其強大的推理性能引發諸多關注。

它在數學推理、編碼能力和一般問題解決能力上，超過了一眾領先模型，包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini和原始DeepSeek-R1。

現在AReaL-boba推出超精簡訓練方案，直接把32B大模型訓練的所需成本給打下來。

數據上面，僅需200條數據的AReaL-boba-200數據集。

使用Qwen-32B-Distill基礎模型，通過輕量級SFT技術即可復現QwQ-32B的AIME2024效果。

整個計算成本，僅需200美元。

這一創新讓頂級推理能力的訓練門檻從“實驗室專享”降為”人人可及”，開創了小數據驅動大模型的新范式。

首個完整開源的團隊

AReaL團隊的核心成員均來自于螞蟻研究院強化學習實驗室以及清華交叉信息研究院吳翼老師團隊。

上個月，他們初始版本針對1.5B和7B推理模型優化，比如借助AReaL使用RL訓練1.5B蒸餾模型，在40小時內超越o1-Preview的數學推理能力。

同樣也給出了詳細的訓練細節。

作為國內第一個完整開源（數據、代碼、模型、腳本全開源）的項目團隊，他們表示致力于真正實現AI訓練的普惠。

其實從此次boba版本的發布也能看出，通過開源開放，讓AI訓練成為社區共享的基礎設施。其三大技術突破（極速訓練、推理登頂、低成本復現）形成的技術飛輪，推動強化學習大規模訓練的發展。

在項目列表中，他們也揭示了后續的開源計劃和目標——

包括異步訓練，更快的訓練吞吐，更好的數據集和算法，以及代碼和Agent智能體能力的支持。

也是十分期待了。

實際上，螞蟻的AI研發也非常值得關注，成果SOTA，場景天然，產品還是國民級的。

項目鏈接：

https://github.com/inclusionAI/AReaL

HuggingFace數據模型地址：

https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a

責任編輯：張燕妮來源：量子位

模型開源 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

超低成本復現QwQ！數學推理模型訓練迎來RL暴擊，數據代碼模型全開源 | 螞蟻&清華出品

AReaL-boba，人人可復現QwQ

首個完整開源的團隊