銳捷網絡加入超以太網聯盟UEC,助力智算網絡持續(xù)升級
近日,銳捷網絡正式成為超以太網聯盟 (Ultra Ethernet Consortium,UEC)新成員,該聯盟是在 Linux 基金會的牽頭下由多家全球頭部科技企業(yè)聯合成立,致力于突破傳統以太網的性能瓶頸,滿足AI和高性能計算對智能算力日益激增的需求。
銳捷網絡始終致力于將技術與應用創(chuàng)造性融合,以開放的態(tài)度全面擁抱面向下一代智算網絡的創(chuàng)新技術,為優(yōu)化以太網標準、實現高性能網絡注入新的活力,并為未來網絡技術持續(xù)做出貢獻。
RoCE用于未來AI/HPC網絡的局限性
RDMA(Remote Direct Memory Access)是當今 AI 訓練作業(yè)的基本組成部分,允許 CPU、GPU、TPU等加速器將數據直接從發(fā)送方內存?zhèn)鬏數浇邮辗絻却妫瑔蝹€GPU/TPU加速器可以集成多個同構或異構網絡 I/O。其中RoCE (RDMA over Converged Ethernet) 通過 Verbs API 表達的方式可追溯到上世紀末,多年前才首次由InfiniBand貿易協會(InfiniBand Trade Association,IBTA)進行標準化,其底層的以太網絡已經提供每秒400G甚至800G速率,這比最初設想的場景提高了幾個數量級,重新審視AI/HPC網絡核心所采用的底層傳輸協議和網絡API成為必然。
實際上,隨著人工智能模型規(guī)模擴大、通信模式及計算方法的多樣化,傳統基于RoCE的RDMA方案存在諸多問題:
- RoCE和DCQCN是擁塞控制算法,用于避免鏈路超限并提高速率。但DCQCN對其下方網絡和負載性質敏感,需手動調整性能。未來的AI網絡需要一種適用于任何數據中心的傳輸協議。
- 網絡運營商在“無損”網絡(InfiniBand和RoCE)上運行RDMA以避免此行為,但效率低。優(yōu)先級流量控制 (PFC) 生成逐跳背壓以太網是無損的,但背壓(Back Pressure)傳播導致擁塞樹、隊頭阻塞、環(huán)路死鎖等,使網絡性能下降。PFC/ECN、DCQCN需根據網絡情況調整、操作和監(jiān)控,成本高。未來的AI網絡急需不依賴于無損結構的傳輸協議。
- 無論是在帶寬還是對等點數量方面。Verbs API設計規(guī)模已經捉襟見肘。RC(可靠連接)傳輸模式如果不減少快速路徑狀態(tài),就不適合高速率下的高效硬件卸載。此外,固有的流程到流程 (N*P*P)的可擴展性問題也是一大限制。這些問題還沒有完美的解決方案,而未來的AI網絡需要能支撐Verbs API設計規(guī)模的傳輸協議。
- AI應用程序傳輸大量數據,受NIC QP Scale和AI模型數據交互方式限制,傳統RoCE需仔細進行大象流負載均衡以防止鏈路過載。AI工作負載決定了整個計算周期受限于所有流成功交付,而未來更高性能的AI網絡需要改進的負載均衡技術。
另一方面,TCP/IP具有RoCE沒有的的優(yōu)點,包括生態(tài)系統、性能/規(guī)模、工具、成本、標準調整和GPU超大規(guī)模部署。但為真正滿足AI網絡需求,以太網需要進行改進創(chuàng)新,盡快將消息傳遞到所有參與端點,避免少數端點出現長時間延遲,并盡量減少“尾部延遲”,提供更高性能并適應未來AI/HPC和Cloud網絡規(guī)模擴大、帶寬提高和時延降低的需求。
超以太網傳輸協議(UET)
盡管TCP/IP具有一些RoCE不具備的優(yōu)點,但是在無損架構下(Lossless Network)運行并提供丟包重傳功能,同時避免觸發(fā)隊頭阻塞和擁塞擴散,這一挑戰(zhàn)仍然存在。為了應對這一挑戰(zhàn),超以太網聯盟(UEC)提出了超以太網傳輸協議(Ultra Ethernet Transport, UET),該協議可以在保留以太網/IP生態(tài)系統優(yōu)勢的同時,為AI和HPC應用程序提供所需的性能。UET傳輸協議通過提供以下功能超越了現狀:
- 開放協議規(guī)范從一開始就設計為在 IP 和以太網上運行
- 多路徑、數據包噴射傳輸,充分利用 AI 網絡,不會造成擁塞或隊頭阻塞,無需集中式負載均衡算法和路由控制器
- Incast 管理機制可控制到目標主機的最終鏈路上的扇入,并以最小的丟包率進行控制
- 高效的速率控制算法,允許傳輸快速提升至線速,同時不會導致競爭流的性能損失
- 用于無序(out-of-order)數據包傳輸的 API,也可選擇按順序 (in-order)完成消息,最大限度地提高網絡和應用程序的并發(fā)性,并最大限度地減少消息延遲
- 可擴展未來網絡,支持 1,000,000 個端點
- 性能和網絡利用率優(yōu)化無需針對網絡和工作負載進行擁塞算法參數調整
- 旨在在商用硬件上實現 800G、1.6T 和未來更快以太網的線速性能
UET協議將超越傳輸層,定義標準語義層、改進的低延遲交付機制以及一致的 AI 和 HPC API,并提供標準的多供應商支持,以便通過 UEC 傳輸協議實現這些 API。
為了實現全行業(yè)在互操作性方面的合作,UEC構建了完整的基于以太網的通信堆棧架構,以最好地匹配快速發(fā)展的、大規(guī)模的AI/HPC工作負載,并提供一流的功能、性能、互操作性、TCO以及開發(fā)人員和最終用戶友好性。UEC由在高性能解決方案方面擁有悠久歷史和經驗的公司創(chuàng)立,每個成員都以平等的方式為更廣泛的高性能生態(tài)系統做出了重大貢獻。這些成員包括AMD、Arista、博通、思科、Eviden、HPE、Intel、Meta和微軟,他們都有數十年的網絡、人工智能、云和高性能計算大規(guī)模部署經驗,將為UEC的四個工作組——物理層、鏈路層、傳輸層和軟件層做出貢獻。
銳捷網絡在行動
銳捷網絡作為智算中心網絡建設者,也在踐行以太無損網絡解決方案的路線,支撐超大規(guī)模的算力集群建設。銳捷網絡推出了AI-Fabric智算中心網絡解決方案,天然支持無損機制和負載均衡,方案優(yōu)勢具體如下:
- 基于AI fabric的架構設計,NCP層面采用1. 1 : 1的超速比緩解網絡中Incast的問題規(guī)避擁塞,基于Cell的高效路由可以加速互聯鏈路的故障收斂時間,不需要部署復雜低效的BGP路由。
- 基于Cell的切片技術,優(yōu)化鏈路的負載均衡效果提升網絡帶寬利用率,縮短業(yè)務的流完成時間FCT 。
- 基于VoQ緩存和Credit的擁塞控制機制實現Fabric網絡中的數據無損轉發(fā),徹底解決丟包重傳的問題確保業(yè)務持續(xù)高吞吐地轉發(fā),進而來提升整個算力集群的GPU利用率。
(詳見《銳捷網絡高性能網絡方案,為AIGC打通 “任督二脈”》)
同時,在傳統RoCE協議的基礎上,銳捷網絡在多路徑流量調度技術上進行了創(chuàng)新,推出RALB(Remote Adaptive Load Balancing)技術。通過感知鏈路質量,進行逐包的全局動態(tài)負載均衡,讓網絡帶寬利用率可達97.6%,有效實現端網聯動。(詳見《解決數據中心網絡擁塞,銳捷RALB負載均衡技術助力高效數據傳輸》)
在全球互聯網流量不斷增長和數據應用需求日益多樣化的背景下,銳捷網絡致力于推動網絡技術的進步和發(fā)展,全局負載均衡解決方案的推出正是其不斷探索和創(chuàng)新的有力證明。通過持續(xù)的技術研發(fā)和產品創(chuàng)新,銳捷網絡將繼續(xù)開放創(chuàng)新,積極探索國內外先進技術,為全球的數據中心提供更加高效、可靠、智能的網絡解決方案,助力互聯網、運營商及各行各業(yè)的快速發(fā)展。