顯著提升深度學習 GPU 利用率,阿里云拿下國際網絡頂會優勝獎
8月9日,國際網絡通信頂會 SIGCOMM 昨日落下帷幕,阿里云 7 篇論文入選本次 SIGCOMM,其中 AI 網絡調度成果論文斬獲 SIGCOMM 2024 優勝獎。據了解,獲獎論文介紹了阿里云自研的集合通信優化調度器 Crux,可提升高達 14.8% 的 GPU 計算利用率。
阿里云獲 SIGCOMM 2024優勝獎
ACM SIGCOMM是計算機網絡通信領域歷史最悠久、最權威的頂級學術會議,至今已有 50 多年的歷史。SIGCOMM 對論文質量要求極高,成果也被學術界和業界視為網絡通信領域未來發展的風向標,現在耳熟能詳的各種協議、技術幾乎都發表在SIGCOMM上。2024年度的SIGCOMM僅錄用62篇論文,錄取率不到 17%,為近五年最低。
AI 網絡是今年最熱門的領域之一。阿里云網絡研發團隊從實際業務環境的深度學習任務出發,發現任務之間存在通信競爭,是 GPU 集群的訓練效率不高的基礎性原因。對此,團隊從學術理論層面突破,證明了 GPU 利用率問題與基于任務優先級的通信調度問題是近似的,進而創新設計了集合通信優化調度器 Crux,實現更高效的選路和優先級分配機制,提升了 GPU 計算利用率。
阿里云自研集合通信優化調度器 Crux,提升 GPU 計算利用率
實驗結果表明,在 96卡GPU測試環境中,Crux可以提高GPU計算利用率8.3%至14.8%。在基于大規模生產跟蹤仿真中,與Sincronia、TACCL和CASSINI等已有方案相比,Crux可以將 GPU 計算利用率最多提高 23%。據了解,Crux 已被集成到阿里云自研通信庫,實現規模化使用。
SIGCOMM 2024 優勝獎(Honorable Mentions,也即最佳論文候選),是對論文成果的業務創新價值和行業影響力的綜合評價。SIGCOMM 評審專家認為 Crux 解決了多租環境深度學習中的一個基礎性問題,通過理論創新和實踐分析設計了一套高效的解決方案,因此授予 Crux 成果論文SIGCOMM優勝獎。
從2019年以來,阿里云有20余篇成果論文先后發表在SIGCOMM上,為國內機構之首。今年,阿里云有7篇論文入選SIGCOMM。除上述介紹的 Crux 論文外,今年關于智算集群網絡架構 HPN 7.0 的成果論文,成為SIGCOMM在AI智算集群網絡架構領域的首篇論文。HPN 7.0 創新性地設計了“雙上聯+多軌+雙平面”的新型數據中心網絡架構,可實現單層千卡、兩層萬卡 GPU 的高性能和高穩定互聯。
阿里云網絡研發團隊與大會程序委員會主席合影
據了解,阿里巴巴曾在 2022 年獲評AMiner全球十大網絡研究機構,是榜單中唯一的中國科技企業。阿里云在網絡技術領域創新成果不斷,業界首個提出了端網融合的可預期網絡技術體系,并在全球率先大規模實踐RDMA低延時網絡、AI 智算集群網絡架構 HPN 7.0 等先進技術,為下一代 AI 基礎設施的設計提供了新范式。