成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek今日連開(kāi)3源!針對(duì)優(yōu)化的并行策略,梁文鋒本人參與開(kāi)發(fā)

人工智能 開(kāi)源
DualPipe從時(shí)間上優(yōu)化了計(jì)算與通信的調(diào)度,EPLB從空間上平衡利用計(jì)算資源,Profiling Data則提供了前兩者在實(shí)際應(yīng)用中效果的可視化證據(jù)。

按時(shí)整活!

DeepSeek開(kāi)源周第四天,直接痛快「1日3連發(fā)」,且全都圍繞一個(gè)主題:

優(yōu)化并行策略

  • DualPipe:一種創(chuàng)新的雙向流水線并行算法,能夠完全重疊前向和后向計(jì)算-通信階段,并減少“流水線氣泡”。它通過(guò)對(duì)稱的微批次調(diào)度,優(yōu)化了并行計(jì)算效率。
  • Expert Parallelism Load Balancer (EPLB):用于MoE的負(fù)載均衡算法,通過(guò)復(fù)制高負(fù)載專家并智能地分配專家到不同GPU上,確保計(jì)算資源的均衡利用。它包含兩種政策:層次化負(fù)載均衡和全局負(fù)載均衡。
  • Profiling Data:訓(xùn)練和推理框架的性能分析數(shù)據(jù),展示了通信-計(jì)算重疊策略和底層實(shí)現(xiàn)細(xì)節(jié)。

這三者中,DualPipe從時(shí)間上優(yōu)化了計(jì)算與通信的調(diào)度,EPLB從空間上平衡利用計(jì)算資源,Profiling Data則提供了前兩者在實(shí)際應(yīng)用中效果的可視化證據(jù)。

DualPipe的開(kāi)發(fā)團(tuán)隊(duì)中包括梁文鋒本人

發(fā)布后10分鐘不到,3者在GitHub上的星標(biāo)已經(jīng)破300了,且其中DualPipe的星標(biāo)飆升最快。

而DeepSeek一發(fā)推,網(wǎng)友的留言也排山倒海一般撲面而來(lái),幾乎都是不吝溢美之詞:

好活!令人興奮!
優(yōu)化策略可以重新定義行業(yè)的性能。

Day 4,直接1日3連發(fā)

DualPipe

DualPipe是在DeepSeek-V3中首次出現(xiàn)雙向流水線并行算法,現(xiàn)在代碼完全開(kāi)源。

它實(shí)現(xiàn)了前向與后向計(jì)算-通信階段的完全重疊,還減少了流水線氣泡(即某些設(shè)備在某些時(shí)刻空閑等待)

DualPipe采用了雙向微批次調(diào)度策略,其核心特點(diǎn)是:

  • 對(duì)稱設(shè)計(jì):反向方向的微批次與前向方向?qū)ΨQ排列,形成一種幾何平衡的調(diào)度結(jié)構(gòu)
  • 計(jì)算-通信重疊:兩個(gè)共享黑色邊框的單元格表示相互重疊的計(jì)算和通信過(guò)程
  • 雙向并行:同時(shí)在兩個(gè)方向上推進(jìn)微批次,最大化硬件利用率

傳統(tǒng)流水線并行方法如1F1B(one-forward-one-backward)在處理多GPU場(chǎng)景時(shí)會(huì)產(chǎn)生大量氣泡。

DualPipe通過(guò)重新安排微批次執(zhí)行順序,和對(duì)稱結(jié)構(gòu)緩解這個(gè)問(wèn)題。

EPLB

EPLB適用于V3/R1的專家并行負(fù)載均衡器,解決MoE模型在分布式訓(xùn)練和推理中的負(fù)載不平衡問(wèn)題。

在MoE架構(gòu)中,不同的輸入會(huì)激活不同的專家,可能導(dǎo)致某些專家過(guò)載,進(jìn)一步造成不同GPU的利用率不平衡。

EPLB采用“redundant experts”(冗余專家)策略

識(shí)別高負(fù)載專家→復(fù)制多個(gè)副本分配到不同GPU→在推理時(shí)動(dòng)態(tài)分配輸入到負(fù)載較輕的專家副本。

并帶有兩種普通的策略:

  • 分層負(fù)載平衡,專家并行較小的預(yù)填充階段使用。
  • 全局負(fù)載平衡,在專家并行規(guī)模較大的解碼階段采用。

V3/R1中的計(jì)算通信重疊分析數(shù)據(jù)

開(kāi)源第四彈的part 3,DeepSeek公開(kāi)分享了來(lái)自訓(xùn)練和推理框架的分析數(shù)據(jù),以幫助社區(qū)更好地了解通信計(jì)算重疊策略和低級(jí)實(shí)現(xiàn)細(xì)節(jié)

GitHub上注明,分析數(shù)據(jù)是使用PyTorch Profiler捕獲的。

下載后,開(kāi)發(fā)者可以通過(guò)導(dǎo)航到Chrome瀏覽器中的chrome://tracing(或Edge瀏覽器中的edge://tracing)將它進(jìn)行可視化。

Attention please——DeepSeek模擬了一個(gè)絕對(duì)平衡的MoE路由策略進(jìn)行分析。

首先,訓(xùn)練階段。

訓(xùn)練配置文件數(shù)據(jù)演示了DeepSeek在DualPipe中,對(duì)一對(duì)單獨(dú)的向前和向后數(shù)據(jù)塊的重疊策略。

每個(gè)數(shù)據(jù)塊包含4個(gè)MoE 層。

并行配置與DeepSeek-V3預(yù)訓(xùn)練設(shè)置一致EP64、TP1具有4K序列長(zhǎng)度。

為簡(jiǎn)單起見(jiàn),在profilng期間不包括PP通信。

其次,推理階段。

1)預(yù)填充。

對(duì)于預(yù)填充,配置文件使用EP32和TP1(與DeepSeek V3/R1的實(shí)際在線部署一致),提示長(zhǎng)度設(shè)置為4K,每個(gè)GPU的批量大小為16Ktokens。

在預(yù)填充階段,DeepSeek利用兩個(gè)微批次來(lái)重疊計(jì)算和多對(duì)多通信,同時(shí)確保注意力計(jì)算負(fù)載在兩個(gè)微批次之間平衡

——這意味著相同的提示可以在它們之間分配。

2)解碼。

(注:相關(guān)數(shù)據(jù)尚未準(zhǔn)備就緒,將于稍后發(fā)布)

解碼方面,該配置文件采用了EP128、TP1和4K的提示長(zhǎng)度(與實(shí)際在線部署配置非常匹配),每個(gè)GPU的批量大小為128個(gè)請(qǐng)求。

與預(yù)填充類似,解碼還利用兩個(gè)微批處理進(jìn)行重疊計(jì)算和多對(duì)多通信。

但與預(yù)填充不同的是,解碼期間的all-to-all通信不會(huì)占用GPU SM:

發(fā)出RDMA消息后,所有GPU SM都會(huì)被釋放,系統(tǒng)在計(jì)算完成后等待all-to-all通信完成。

有關(guān)all-to-all實(shí)現(xiàn)的更多信息,請(qǐng)參考開(kāi)源周第二彈DeepEP。

One More Thing

“大放異彩!”

對(duì)于第四彈的開(kāi)源內(nèi)容,網(wǎng)友是這么感慨的。

目前看來(lái),DeepSeek開(kāi)源周的前4天,都挺令追更群眾們滿意。

尤其是這次開(kāi)源周全部瞄準(zhǔn)大模型的Infra層。

追更看客們表示:

更好的團(tuán)隊(duì)合作不僅是團(tuán)隊(duì)管理優(yōu)化的一部分,更是實(shí)現(xiàn)頂級(jí)AI性能的秘訣。
DeepSeek正在創(chuàng)建新的標(biāo)準(zhǔn),大規(guī)模訓(xùn)練的未來(lái)就在咱們眼前!

好了,DeepSeek開(kāi)源周,明天就是最后一天了,不知道會(huì)有什么壓軸登場(chǎng)?

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-05-16 09:02:00

2025-05-19 09:12:16

2025-02-19 09:18:04

2025-02-27 12:06:45

2025-03-12 10:36:32

2025-02-19 15:01:09

2025-01-26 08:00:00

模型AI數(shù)據(jù)

2020-11-29 18:42:21

AI 數(shù)據(jù)人工智能

2013-10-09 10:33:43

創(chuàng)業(yè)技術(shù)合伙人

2010-05-05 11:48:27

Oracle設(shè)計(jì)開(kāi)發(fā)階

2025-03-03 09:00:00

DeepSeekAI人工智能

2019-05-30 10:21:37

IEEE華為人美國(guó)

2023-09-04 07:21:36

PawSQLMybatis

2022-06-07 19:49:34

Web3NFT互聯(lián)網(wǎng)

2025-02-12 08:30:18

2017-08-09 15:39:53

互聯(lián)網(wǎng)

2013-12-18 14:41:06

蘋(píng)果開(kāi)發(fā)者iOS 7

2014-12-23 17:16:18

NBA

2013-09-16 15:33:28

Android優(yōu)化界面UI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久一区二区三区四区五区 | 精品乱码久久久久 | 欧美激情在线观看一区二区三区 | 精品久久影院 | 日本久久久影视 | 久久久99精品免费观看 | 国产精品高| 九色视频网站 | 欧美91| 中文字幕av网址 | 国产精品毛片无码 | 美女操网站| 羞羞视频在线观看网站 | 日本一二三区高清 | 亚洲欧美bt | 国产精品久久久久久久久久软件 | 免费一区在线 | 97视频在线观看网站 | 日韩中文在线观看 | 日韩精品一区二区三区视频播放 | 亚洲国产aⅴ精品一区二区 免费观看av | 国产精品区一区二区三区 | 射欧美 | 日韩午夜影院 | 亚洲国产一区二区三区 | 亚欧洲精品在线视频免费观看 | 天堂久久一区 | 中文字幕日韩在线观看 | 日韩一区二区黄色片 | 久久综合伊人一区二区三 | 一区二区三区在线播放视频 | 免费视频一区二区 | 亚州精品天堂中文字幕 | 久久久www成人免费精品张筱雨 | 国产乱码精品一区二三赶尸艳谈 | 免费成人高清在线视频 | 国产高清精品一区 | 福利网站导航 | 91精品一区二区三区久久久久 | 欧美一区二区久久 | 国产探花|