成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RL后訓(xùn)練步入超節(jié)點(diǎn)時(shí)代!華為黑科技榨干算力,一張卡干倆活

人工智能 新聞
RL后訓(xùn)練已成為大模型性能突破的「殺手锏」,而算力浪費(fèi)和集群效率低成為一大難題。這次,華為團(tuán)隊(duì)祭出兩大黑科技直接破局。不僅在CloudMatrix 384超節(jié)點(diǎn)實(shí)現(xiàn)MoE大模型訓(xùn)推共卡,資源利用率翻倍,還打破了同步算法限制,讓訓(xùn)練速度再提升50%。

在大模型競賽白熱化的當(dāng)下,「強(qiáng)化學(xué)習(xí)后訓(xùn)練」已成為突破LLM性能天花板的核心路徑。

爆火出圈的OpenAI o1、DeepSeek-R1等模型,背后都是依靠RL后訓(xùn)練點(diǎn)石成金。

相較于預(yù)訓(xùn)練階段的「廣撒網(wǎng)」式知識獲取,RL 后訓(xùn)練通過驅(qū)動模型與外部環(huán)境進(jìn)行動態(tài)交互,直接塑造了LLM在復(fù)雜任務(wù)中的推理效能。

當(dāng)前,RL后訓(xùn)練階段已經(jīng)吃掉了訓(xùn)練全流程20%的算力,未來會飆升到50%,直接影響模型的性能和成本。

在傳統(tǒng)RL后訓(xùn)練中,訓(xùn)練和推理得排隊(duì)干活,也就說大量算力都在「摸魚」。

對此,華為團(tuán)隊(duì)拿出「RL Fusion訓(xùn)推共卡」和「StaleSync準(zhǔn)異步并行」兩大黑科技,把訓(xùn)練效率和資源利用率拉滿。

· RL Fusion: 讓一張卡同時(shí)兼顧訓(xùn)練和推理兩件事,資源利用率和吞吐翻倍。 

· StaleSync :打破了同步限制,讓集群擴(kuò)展效率超90%,訓(xùn)練吞吐再提50%。

CloudMatrix超節(jié)點(diǎn),就像大模型的「超級加速器」,讓百億、甚至千億級模型訓(xùn)練更快更省。

至此,大模型強(qiáng)化學(xué)習(xí)訓(xùn)練正式邁入超節(jié)點(diǎn)時(shí)代!

RL后訓(xùn)練「算力黑洞」

如今,強(qiáng)化學(xué)習(xí),已成為激活大模型推理思考能力的關(guān)鍵buff。

不論是語言模型的對話優(yōu)化,還是多模態(tài)模型的復(fù)雜任務(wù)適配,RL后訓(xùn)練都在提升模型精度、泛化性、用戶體驗(yàn)方面,發(fā)揮著不可替代的作用。

然而,這種性能提升的代價(jià)是巨大的算力需求。

尤其是在現(xiàn)有主流On-Policy算法下,訓(xùn)練與推理的嚴(yán)格交替導(dǎo)致了資源利用率低下。

總的來說,RL后訓(xùn)練作為大模型訓(xùn)練最后沖刺階段,面臨著兩大不容忽視的挑戰(zhàn)。

  • On-Policy算法的同步枷鎖

在大模型后訓(xùn)練過程中,Actor模型的訓(xùn)練與推理(生成)過程構(gòu)成主要負(fù)載。

在傳統(tǒng)「訓(xùn)推分離」架構(gòu)下,主流的On-Policy策略要求訓(xùn)練和推理任務(wù)交替執(zhí)行,互相等待,導(dǎo)致大量計(jì)算資源處于閑置狀態(tài)。

這種「輪流休息」的模式,在小規(guī)模集群場景下已然造成顯著浪費(fèi),若在千卡/萬卡集群中更是放大為「算力黑洞」,推高了LLM后訓(xùn)練成本。

因此,訓(xùn)推共卡技術(shù),成為提升集群資源利用率的核心突破口。

  • 大規(guī)模集群的擴(kuò)展困境

另一方面,隨著MoE模型普及,專家并行(EP)、張量并行(TP)、數(shù)據(jù)并行(DP)等多模型異構(gòu)并行策略組合,使得任務(wù)調(diào)度復(fù)雜度呈指數(shù)級增長。

而現(xiàn)有框架在大規(guī)模集群中,難以讓其實(shí)現(xiàn)高效協(xié)同,進(jìn)而導(dǎo)致了擴(kuò)展效率顯著下降。

如何通過軟硬協(xié)同打破資源瓶頸,釋放潛在的紅利,成為華為團(tuán)隊(duì)聚焦突破的關(guān)鍵方向。

RL Fusion

一卡干倆活,利用率吞吐翻倍

針對RL后訓(xùn)練資源利用率低的問題,華為團(tuán)隊(duì)深入剖析異構(gòu)模型和多任務(wù)場景的負(fù)載特點(diǎn),提出了創(chuàng)新性的RL Fusion訓(xùn)推共卡技術(shù)。

簡單來說,就是讓一張卡既做訓(xùn)練又做推理,效率直接翻倍。

RL Fusion支持訓(xùn)練推理共卡、全共卡等多種靈活部署模式(如圖1),可實(shí)現(xiàn)推理階段資源調(diào)度的精細(xì)化可控管理。

它還支持張量并行(TP)、數(shù)據(jù)并行(DP)、流水線并行(PP)等多維并行策略的動態(tài)無縫切換,實(shí)現(xiàn)計(jì)算資源「一箭雙雕」,即在同一計(jì)算資源上執(zhí)行Actor模型生成和訓(xùn)練2個(gè)任務(wù)。

圖片

圖1:訓(xùn)推分離、訓(xùn)推共卡、全共卡部署計(jì)算資源利用情況示意圖

值得一提的是,在小規(guī)模場景下,RL Fusion還能把Reference及Reward模型的資源「榨干」,進(jìn)一步實(shí)現(xiàn)「一箭四雕」,效率直接拉滿。

此外,針對大規(guī)模高稀疏比MoE模型,華為通過對訓(xùn)推態(tài)內(nèi)存進(jìn)行極致分析,首次提出了訓(xùn)推內(nèi)存0冗余切換,實(shí)現(xiàn)訓(xùn)推EP動態(tài)切換,如圖2所示。

圖片

圖2:MoE大模型訓(xùn)推EP動態(tài)變化示意圖

在訓(xùn)練態(tài)及推理態(tài)切換過程中,通過「分桶」管理參數(shù),可消除由于EP變化造成的冗余內(nèi)存。

同時(shí),推理時(shí)把訓(xùn)練的優(yōu)化器及梯度,完全卸載到主機(jī)側(cè),盡可能將NPU內(nèi)存留給推理態(tài),保證長序列下推理階段吞吐(如圖3所示)。

圖片

圖3:MoE大模型訓(xùn)推訓(xùn)推內(nèi)存0冗余切換技術(shù)示意圖

不僅如此,通過對訓(xùn)推共卡中權(quán)重通信、內(nèi)存加卸載進(jìn)行系統(tǒng)性優(yōu)化后,訓(xùn)推切換過程優(yōu)化到秒級,快如閃電。

由此,RL Fusion能讓強(qiáng)化學(xué)習(xí)后訓(xùn)練集群利用率倍增,成本省一大截。

StaleSync

水平擴(kuò)展效率超90%,訓(xùn)練吞吐再提50%

針對大規(guī)模集群擴(kuò)展性低的問題,華為團(tuán)隊(duì)摒棄全同步迭代方式,設(shè)計(jì)了準(zhǔn)異步機(jī)制StaleSync(如圖4所示)。

StaleSync機(jī)制能容忍梯度「陳舊性」,讓不同RL階段的任務(wù)在「陳舊度閾值」內(nèi)并行執(zhí)行。

這使得CloudMatrix 384超節(jié)點(diǎn)的水平擴(kuò)展效率超90%。

圖片

圖4:StaleSync準(zhǔn)異步并行技術(shù)示意圖

這一創(chuàng)新得益于對RL計(jì)算任務(wù)的細(xì)致分析。

在RL訓(xùn)練中,研究團(tuán)隊(duì)發(fā)現(xiàn),不同計(jì)算任務(wù)的算力需求各異。

基于這一特點(diǎn),新的后訓(xùn)練系統(tǒng)結(jié)合了共置和分離架構(gòu)的優(yōu)勢,平衡了各個(gè)RL計(jì)算任務(wù)的資源需求,從而提高了整體硬件資源的利用率。

圖片

圖5:共置/分離架構(gòu)下同策訓(xùn)練方案示意圖和缺點(diǎn)

此外,在Actor Rollout過程中,長尾樣本的存在導(dǎo)致了效率的降低。

為了解決此問題,新系統(tǒng)引入了準(zhǔn)異步調(diào)度機(jī)制:

當(dāng)生成結(jié)束的樣本達(dá)到一定閾值時(shí),數(shù)據(jù)立刻流向下一階段的計(jì)算任務(wù),允許未完成的推理樣本的訓(xùn)練存在一定滯后性,從而提高了整體后訓(xùn)練吞吐。

在保證模型精度的前提下,StaleSync方案使系統(tǒng)整體訓(xùn)練吞吐量提升了50%。

背后功臣:數(shù)據(jù)隊(duì)列DistQueue

為了滿足StaleSync的數(shù)據(jù)調(diào)度與管理要求,研究團(tuán)隊(duì)專門設(shè)計(jì)了分布式數(shù)據(jù)隊(duì)列DistQueue。

DistQueue實(shí)現(xiàn)了不同計(jì)算任務(wù)之間數(shù)據(jù)的拆分、緩存與動態(tài)讀取。

為了提高通信效率,DistQueue采取了分層數(shù)據(jù)傳輸零冗余通信兩項(xiàng)技術(shù),緩解了數(shù)據(jù)系統(tǒng)壓力。

以Pangu 718B-MoE訓(xùn)練并行策略為例(TP8,EP4,PP16),引入分層數(shù)據(jù)傳輸可將DistQueue的負(fù)載降低為1/128,從而支持后訓(xùn)練規(guī)模的進(jìn)一步擴(kuò)展。

圖片

圖6:分層數(shù)據(jù)傳輸技術(shù)示意圖

在后訓(xùn)練中,傳統(tǒng)的樣本Padding補(bǔ)齊方案存在大量冗余通信,降低了通信效率。

對此,研究者引入零冗余通信技術(shù),如圖7所示:

首先將各個(gè)樣本在序列維度進(jìn)行拼接;  

在各個(gè)進(jìn)程收到數(shù)據(jù)后,再根據(jù)原始序列長度進(jìn)行恢復(fù)。

這避免了Padding帶來的額外通信,大大提升了通信效率。

在盤古長序列訓(xùn)練集實(shí)測,研究團(tuán)隊(duì)發(fā)現(xiàn)上述優(yōu)化可降低80%以上的通信量,有效支撐大規(guī)模集群訓(xùn)練的擴(kuò)展效率。

圖片

圖7:DistQueue零冗余數(shù)據(jù)傳輸

實(shí)測

昇騰超節(jié)點(diǎn)見證效率躍升

RL Fusion與StaleSync的協(xié)同優(yōu)化,形成了「資源復(fù)用+任務(wù)并行」的雙重保障體系,顯著提升了效率。

在RL后訓(xùn)練中,下表1展示了不同加速配置方案對整體性能提升情況。

RL Fusion訓(xùn)推共卡,能夠消除RL后訓(xùn)練中模型級空泡,提高資源利用率,單個(gè)超節(jié)點(diǎn)吞吐提升了78.5%。

再結(jié)合StaleSync準(zhǔn)異步技術(shù),可以實(shí)現(xiàn)35k token/s吞吐效率,整體可提升1.5倍性能。

圖片

表1:單超節(jié)點(diǎn)RL后訓(xùn)練性能分析

表2展示了StaleSync對集群擴(kuò)展性的提升。

當(dāng)集群規(guī)模從1個(gè)超節(jié)點(diǎn)擴(kuò)展至4個(gè)超節(jié)點(diǎn)時(shí),StaleSync 的吞吐從35k tokens/s提升至127k tokens/s,擴(kuò)展線性度達(dá)91%;而全同步方案在同等規(guī)模下吞吐僅從25k tokens/s 增至 85k tokens/s,線性度約為85%。

圖片

表2:RL后訓(xùn)練性能分析

結(jié)語

在AI風(fēng)起云涌的當(dāng)下,RL后訓(xùn)練正成為大模型突圍的關(guān)鍵,而效率是決勝的王牌。

昇騰超節(jié)點(diǎn)以RL Fusion和StaleSync兩大殺招,攻克算力浪費(fèi)和集群擴(kuò)展的瓶頸,帶來了高效、高擴(kuò)展、高通用性的集群調(diào)度與融合方案。

一張卡干倆活、流水線永不停,單節(jié)點(diǎn)速度狂飆2.5倍,集群擴(kuò)展效率突破90%。

它如同一臺「加速引擎」,正為百億、千億級大模型的后訓(xùn)練注入強(qiáng)勁動力,點(diǎn)燃下一代AI效率革命的火花。


責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-02-27 12:42:54

2020-08-04 11:03:50

Python內(nèi)置異常開發(fā)

2021-12-02 15:30:55

命令內(nèi)存Linux

2022-09-05 10:46:46

昇騰

2011-04-28 15:25:35

噴墨打印機(jī)墨盒

2009-12-22 13:21:21

服務(wù)器

2009-07-21 09:32:16

虛擬化投資回報(bào)

2025-03-04 00:35:00

DeepSeek提示詞AI

2021-03-12 15:08:23

服務(wù)器性能優(yōu)化

2022-10-31 13:13:45

2020-05-14 14:21:50

谷歌AI數(shù)據(jù)

2024-09-29 09:21:46

2022-02-28 10:16:12

算力網(wǎng)絡(luò)新基建東數(shù)西算

2025-05-20 14:36:53

2022-07-21 14:55:24

算力

2023-07-06 14:52:36

數(shù)據(jù)分析師SQL

2020-03-24 16:09:43

華為
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: www.日本在线播放 | 国产黄色在线观看 | 国产aⅴ | 羞羞视频免费观看入口 | 日韩精品视频在线 | 久久99精品久久久久蜜桃tv | 久久国产精品久久国产精品 | 国产欧美在线一区二区 | 欧美xxxx黑人又粗又长 | 欧美精品1区| 日韩精品一区二区三区在线播放 | 欧美一区二区三区四区视频 | 欧美日韩一区二区三区四区 | 国产伦一区二区三区久久 | 国产视频三级 | 国产十日韩十欧美 | 午夜精品在线观看 | 国产高清免费视频 | 这里精品 | 亚洲精品久久视频 | 日韩成人免费中文字幕 | 激情久久网 | 国产在线精品一区二区 | 黄片毛片在线观看 | 91视频进入 | 成人免费大片黄在线播放 | 成人av色 | 免费观看一级毛片 | 日韩福利电影 | 亚洲一区二区三区四区五区午夜 | 国产乱码精品一区二区三区五月婷 | 国产精品视频一二三区 | 国产日韩欧美在线观看 | 亚洲精品一区国语对白 | 无码日韩精品一区二区免费 | 亚洲欧美在线一区 | 欧美国产日韩精品 | 国产精品一二三区 | 国产精品永久 | 成人亚洲 | 一区二区免费在线 |