銳捷網絡加入超以太網聯盟UEC，助力智算網絡持續(xù)升級

2023-12-21 10:11:37

在全球互聯網流量不斷增長和數據應用需求日益多樣化的背景下，銳捷網絡致力于推動網絡技術的進步和發(fā)展，全局負載均衡解決方案的推出正是其不斷探索和創(chuàng)新的有力證明。

近日，銳捷網絡正式成為超以太網聯盟 (Ultra Ethernet Consortium,UEC)新成員，該聯盟是在 Linux 基金會的牽頭下由多家全球頭部科技企業(yè)聯合成立，致力于突破傳統以太網的性能瓶頸，滿足AI和高性能計算對智能算力日益激增的需求。

銳捷網絡始終致力于將技術與應用創(chuàng)造性融合，以開放的態(tài)度全面擁抱面向下一代智算網絡的創(chuàng)新技術，為優(yōu)化以太網標準、實現高性能網絡注入新的活力，并為未來網絡技術持續(xù)做出貢獻。

RoCE用于未來AI/HPC網絡的局限性

RDMA(Remote Direct Memory Access)是當今 AI 訓練作業(yè)的基本組成部分，允許 CPU、GPU、TPU等加速器將數據直接從發(fā)送方內存?zhèn)鬏數浇邮辗絻却妫瑔蝹€GPU/TPU加速器可以集成多個同構或異構網絡 I/O。其中RoCE (RDMA over Converged Ethernet) 通過 Verbs API 表達的方式可追溯到上世紀末，多年前才首次由InfiniBand貿易協會（InfiniBand Trade Association,IBTA）進行標準化，其底層的以太網絡已經提供每秒400G甚至800G速率，這比最初設想的場景提高了幾個數量級，重新審視AI/HPC網絡核心所采用的底層傳輸協議和網絡API成為必然。

實際上，隨著人工智能模型規(guī)模擴大、通信模式及計算方法的多樣化，傳統基于RoCE的RDMA方案存在諸多問題:

RoCE和DCQCN是擁塞控制算法，用于避免鏈路超限并提高速率。但DCQCN對其下方網絡和負載性質敏感，需手動調整性能。未來的AI網絡需要一種適用于任何數據中心的傳輸協議。
網絡運營商在“無損”網絡（InfiniBand和RoCE）上運行RDMA以避免此行為，但效率低。優(yōu)先級流量控制 (PFC) 生成逐跳背壓以太網是無損的，但背壓（Back Pressure）傳播導致擁塞樹、隊頭阻塞、環(huán)路死鎖等，使網絡性能下降。PFC/ECN、DCQCN需根據網絡情況調整、操作和監(jiān)控，成本高。未來的AI網絡急需不依賴于無損結構的傳輸協議。
無論是在帶寬還是對等點數量方面。Verbs API設計規(guī)模已經捉襟見肘。RC（可靠連接）傳輸模式如果不減少快速路徑狀態(tài)，就不適合高速率下的高效硬件卸載。此外，固有的流程到流程 (N*P*P)的可擴展性問題也是一大限制。這些問題還沒有完美的解決方案，而未來的AI網絡需要能支撐Verbs API設計規(guī)模的傳輸協議。
AI應用程序傳輸大量數據，受NIC QP Scale和AI模型數據交互方式限制，傳統RoCE需仔細進行大象流負載均衡以防止鏈路過載。AI工作負載決定了整個計算周期受限于所有流成功交付，而未來更高性能的AI網絡需要改進的負載均衡技術。

另一方面，TCP/IP具有RoCE沒有的的優(yōu)點，包括生態(tài)系統、性能/規(guī)模、工具、成本、標準調整和GPU超大規(guī)模部署。但為真正滿足AI網絡需求，以太網需要進行改進創(chuàng)新，盡快將消息傳遞到所有參與端點，避免少數端點出現長時間延遲，并盡量減少“尾部延遲”，提供更高性能并適應未來AI/HPC和Cloud網絡規(guī)模擴大、帶寬提高和時延降低的需求。

超以太網傳輸協議（UET）

盡管TCP/IP具有一些RoCE不具備的優(yōu)點，但是在無損架構下（Lossless Network）運行并提供丟包重傳功能，同時避免觸發(fā)隊頭阻塞和擁塞擴散，這一挑戰(zhàn)仍然存在。為了應對這一挑戰(zhàn)，超以太網聯盟（UEC）提出了超以太網傳輸協議（Ultra Ethernet Transport, UET），該協議可以在保留以太網/IP生態(tài)系統優(yōu)勢的同時，為AI和HPC應用程序提供所需的性能。UET傳輸協議通過提供以下功能超越了現狀：

開放協議規(guī)范從一開始就設計為在 IP 和以太網上運行
多路徑、數據包噴射傳輸，充分利用 AI 網絡，不會造成擁塞或隊頭阻塞，無需集中式負載均衡算法和路由控制器
Incast 管理機制可控制到目標主機的最終鏈路上的扇入，并以最小的丟包率進行控制
高效的速率控制算法，允許傳輸快速提升至線速，同時不會導致競爭流的性能損失
用于無序（out-of-order)數據包傳輸的 API，也可選擇按順序 (in-order)完成消息，最大限度地提高網絡和應用程序的并發(fā)性，并最大限度地減少消息延遲
可擴展未來網絡，支持 1,000,000 個端點
性能和網絡利用率優(yōu)化無需針對網絡和工作負載進行擁塞算法參數調整
旨在在商用硬件上實現 800G、1.6T 和未來更快以太網的線速性能

UET協議將超越傳輸層，定義標準語義層、改進的低延遲交付機制以及一致的 AI 和 HPC API，并提供標準的多供應商支持，以便通過 UEC 傳輸協議實現這些 API。

為了實現全行業(yè)在互操作性方面的合作，UEC構建了完整的基于以太網的通信堆棧架構，以最好地匹配快速發(fā)展的、大規(guī)模的AI/HPC工作負載，并提供一流的功能、性能、互操作性、TCO以及開發(fā)人員和最終用戶友好性。UEC由在高性能解決方案方面擁有悠久歷史和經驗的公司創(chuàng)立，每個成員都以平等的方式為更廣泛的高性能生態(tài)系統做出了重大貢獻。這些成員包括AMD、Arista、博通、思科、Eviden、HPE、Intel、Meta和微軟，他們都有數十年的網絡、人工智能、云和高性能計算大規(guī)模部署經驗，將為UEC的四個工作組——物理層、鏈路層、傳輸層和軟件層做出貢獻。

銳捷網絡在行動

銳捷網絡作為智算中心網絡建設者，也在踐行以太無損網絡解決方案的路線，支撐超大規(guī)模的算力集群建設。銳捷網絡推出了AI-Fabric智算中心網絡解決方案，天然支持無損機制和負載均衡，方案優(yōu)勢具體如下：

基于AI fabric的架構設計，NCP層面采用1. 1 : 1的超速比緩解網絡中Incast的問題規(guī)避擁塞，基于Cell的高效路由可以加速互聯鏈路的故障收斂時間，不需要部署復雜低效的BGP路由。
基于Cell的切片技術，優(yōu)化鏈路的負載均衡效果提升網絡帶寬利用率，縮短業(yè)務的流完成時間FCT 。
基于VoQ緩存和Credit的擁塞控制機制實現Fabric網絡中的數據無損轉發(fā)，徹底解決丟包重傳的問題確保業(yè)務持續(xù)高吞吐地轉發(fā)，進而來提升整個算力集群的GPU利用率。

（詳見《銳捷網絡高性能網絡方案，為AIGC打通 “任督二脈”》）

同時，在傳統RoCE協議的基礎上，銳捷網絡在多路徑流量調度技術上進行了創(chuàng)新，推出RALB(Remote Adaptive Load Balancing)技術。通過感知鏈路質量，進行逐包的全局動態(tài)負載均衡，讓網絡帶寬利用率可達97.6%，有效實現端網聯動。（詳見《解決數據中心網絡擁塞，銳捷RALB負載均衡技術助力高效數據傳輸》）

在全球互聯網流量不斷增長和數據應用需求日益多樣化的背景下，銳捷網絡致力于推動網絡技術的進步和發(fā)展，全局負載均衡解決方案的推出正是其不斷探索和創(chuàng)新的有力證明。通過持續(xù)的技術研發(fā)和產品創(chuàng)新，銳捷網絡將繼續(xù)開放創(chuàng)新，積極探索國內外先進技術，為全球的數據中心提供更加高效、可靠、智能的網絡解決方案，助力互聯網、運營商及各行各業(yè)的快速發(fā)展。

責任編輯：張燕妮

銳捷網絡

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

銳捷網絡加入超以太網聯盟UEC，助力智算網絡持續(xù)升級

RoCE用于未來AI/HPC網絡的局限性

超以太網傳輸協議（UET）

銳捷網絡在行動