成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

最近很火的“超節點”,到底是干啥的?

網絡
在各大展會論壇上,超節點頻繁亮相。行業大佬們也紛紛搖旗吶喊,認為它將是智算發展的重要趨勢,迎來一波發展熱潮。那么,到底什么是超節點呢?我們為什么會需要超節點呢?

最近這段時間,有一個新名詞在AI圈里迅速走紅,那就是——超節點。

在各大展會論壇上,超節點頻繁亮相。行業大佬們也紛紛搖旗吶喊,認為它將是智算發展的重要趨勢,迎來一波發展熱潮。

那么,到底什么是超節點呢?我們為什么會需要超節點呢?

今天這篇文章,小棗君就給大家做一個深入解讀。

什么是超節點?

超節點,英文名叫SuperPod,是英偉達公司最先提出的概念。

大家都知道,GPU是重要的算力硬件,為AIGC大模型的訓推提供了有力的支撐。

隨著大模型參數規模的不斷增長,對GPU集群的規模需求,也在不斷增長。從千卡級到萬卡級,再到十萬卡級,將來甚至可能更大。

那么,我們該如何構建規模越來越大的GPU集群呢?

答案很簡單,就是Scale Up和Scale Out。

Scale Up,是向上擴展,也叫縱向擴展,增加單節點的資源數量。Scale Out,是向外擴展,也叫橫向擴展,增加節點的數量。

每臺服務器里,多塞幾塊GPU,這就是Scale Up。這時,一臺服務器就是一個節點。

通過網絡,將多臺電腦(節點)連接起來,這就是Scale Out。

圖片

先說說Scale Up。

對于單臺服務器來說,受限于空間、功耗和散熱,能塞入的GPU數量是有限的,一般也就8卡、12卡。

塞入這么多塊GPU,還要考慮服務器的內部通信能力是否能夠支持。如果GPU互連存在瓶頸,那么就達不到Scale Up的預期效果。

以前,計算機內部主要基于PCIe協議,數據傳輸速率慢,時延高,根本無法滿足要求。

2014年,英偉達為了解決這個問題,專門推出了自家私有的NVLINK總線協議。NVLINK允許GPU之間以點對點方式進行通信,速度遠高于PCIe,時延也低得多。

圖片

圖片來自:英偉達官網

NVLINK原本只用于機器內部通信。2022年,英偉達將NVSwitch芯片獨立出來,變成了NVLink交換機,用于連接服務器之間的GPU設備。這意味著,節點已經不再僅限于1臺服務器了,而是可以由多臺服務器和網絡設備共同組成。

這些設備處于同一個HBD(High Bandwidth Domain,超帶寬域)。英偉達將這種以超大帶寬互聯16卡以上GPU-GPU的Scale Up系統,稱為超節點。

歷經多年的發展,NVLINK已經迭代到第五代。每塊GPU擁有18個NVLink連接,Blackwell GPU的總帶寬可達到1800GB/秒,遠遠超過PCIe Gen6的總線帶寬。

圖片

2024年3月,英偉達發布了NVL72,可以將36個Grace CPU和72個Blackwell GPU集成到一個液冷機柜中,實現總計720 PFLOPs的AI訓練性能,或1440 PFLOPs的推理性能。

圖片

英偉達GB200 NVL72機柜(來自英偉達GTC大會直播)

 超節點,有哪些優點?

說到這里,大家可能會提出疑問——為什么一定要搞超節點呢?如果Scale Up這條路線不好走,我們就走Scale Out路線,增加節點數,不也能做出大規模GPU集群嗎?

答案很簡單。之所以要搞超節點這種加強版的Scale Up,是因為在性能、成本、組網、運維等方面,能帶來巨大優勢。

Scale Out,考驗的是節點之間的通信能力。目前,主要采用的通信網絡技術,是Infiniband(IB)和RoCEv2。

這兩個技術都是基于RDMA(遠程直接內存訪問)協議,擁有比傳統以太網更高的速率、更低的時延,負載均衡能力也更強。

IB是英偉達的私有技術,起步早,性能強,價格貴。RoCEv2是開放標準,是傳統以太網融合RDMA的產物,價格便宜。兩者之間的差距,在不斷縮小。

在帶寬方面,IB和RoCEv2僅能提供Tbps級別的帶寬。而Scale Up,能夠實現數百個GPU間10Tbps帶寬級別的互聯。

在時延方面,IB和RoCEv2的時延時延高達10微秒。而Scale Up對網絡時延的要求極為嚴苛,需要達到百納秒(100納秒=0.1微秒)級別。

在AI訓練過程中,包括多種并行計算方式,例如TP(張量并行)、 EP(專家并行)、PP(流水線并行)和DP(數據并行)。

圖片

通常來說,PP和DP的通信量較小,一般交給Scale Out搞定。而TP和EP的通信量大,需要交給Scale Up(超節點內部)搞定。

超節點,作為Scale Up的當前最優解,通過內部高速總線互連,能夠有效支撐并行計算任務,加速GPU之間的參數交換和數據同步,縮短大模型的訓練周期。

超節點一般也都會支持內存語義能力,GPU之間可以直接讀取對方的內存,這也是Scale Out不具備的。

站在組網和運維的角度來看,超節點也有明顯優勢。

超節點的HBD(超帶寬域)越大,Scale Up的GPU越多,Scale Out的組網就越簡單,大幅降低組網復雜度。

圖片

Scale Up & Scale Out組網示意圖

超節點是一個高度集成的小型集群,內部總線已經連好。這也降低了網絡部署的難度,縮短了部署周期。后期的運維,也會方便很多。

當然,超節點也不能無限大,也要考慮本身的成本因素。具體的規模,需要根據需求場景進行測算。

概括來說,超節點的優勢,就是增加局部的帶寬,減少增加全局帶寬的成本,以此獲得更大的收益。

 超節點,有哪些可選的方案?

正因為超節點擁有顯著的優勢,所以,在英偉達提出這一概念后,立刻受到了業界的關注。也有很多廠商,加入到超節點的研究之中。

當前,業界主流的超節點方案,主要包括如下幾種:

一、私有協議方案。

代表廠商,當然就是英偉達。

除了英偉達之外,國內大廠華為,前段時間高調發布的AI核彈級技術——CloudMatrix 384超節點,也屬于私有協議。

CloudMatrix 384以384張昇騰算力卡組成一個超節點,在目前已商用的超節點中單體規模最大,可提供高達300 PFLOPs的密集BF16算力,接近達到英偉達GB200 NVL72系統的兩倍。

圖片

華為CloudMatrix 384超節點(來自華為云生態大會)

二、開放組織方案。

有私有協議,當然就會有開放標準。互聯網時代,開放解耦是大勢所趨。

私有協議往往意味著高昂的成本。對于AI這個熱門方向來說,發展開放標準,有利于降低行業門檻,幫助實現技術平權。

目前來看,超節點的開放標準還不止一個,但基本上都是以以太網技術(ETH)為基礎。因為以太網技術最成熟、最開放,也擁有最多的參與企業。

圖片

從技術的角度來看,以太網具有最大交換芯片容量(單芯片51.2T已商用)、最高速Serdes技術(目前達到112Gbps),交換芯片時延也很低(200ns),完全可以滿足Scale Up的性能要求。

在超節點開放標準中,其中比較有代表性的,是由開放數據中心委員會(ODCC)主導、中國信通院與騰訊牽頭設計的ETH-X開放超節點項目。

圖片

這個項目一共有30余家產學研機構共同參與。其中,既包括運營商(中國移動)、云廠商(騰訊等),也包括設備商(銳捷、中興等)、算卡提供商(燧原科技、壁仞科技等)商,以及高速互連技術方案提供商(立訊技術等)。

我們來簡單了解一下ETH-X開放超節點的技術細節。

ETH-X基于以太網技術構建大帶寬、彈性可擴展的HBD,具備高算力密度、高互聯帶寬、高功率密度和高能效等特點。

值得注意的是,ETH-X不僅包括了Scale Up,也包括了Scale Out。典型的組網拓撲,如下圖所示:

圖片

ETH-X網絡架構圖(來自ODCC)

根據騰訊在2024開放數據中心大會提供的數據,基于ETH-X超節點,在訓練場景下,LLama-70B稠密型模型在64K集群下的性能/成本進行對比,采用256卡的Scale Up,比8卡的Scale Up低了38%的訓練成本。

在推理場景下,LLama-70B在FP4精度128卡實例推理性能/成本對比中,256卡的Scale Up比8卡的Scale Up增加了40.48%的推理收益。

這個效果還是非常不錯的。

目前,ETH-X超節點技術規范1.0已經發布。不久前(4月8日),ETH-X開放超節點項目在華勤技術東莞智能制造基地,舉行了首臺原型機的下線點亮儀式。

圖片

圖片來自ODCC

我們再來看看ETH-X開放超節點的實物架構。

AI Rack整機柜是ETH-X超節點的具體實現方式。整機柜內Serdes速率目前最高支持112Gbps,未來支持到224Gbps。

機柜包括計算節點、交換節點和關鍵組件。

圖片

AI Rack整機柜布局(來自ODCC)

整機柜內部可以實現多GPU間NOC(Network-on-Chip)級通信拓撲,通過統一內存編址與內存語義接口,支持跨GPU直接訪問(Direct Access)與零拷貝傳輸(Direct Copy)。

根據實際測試的數據,跨卡數據訪問時延能夠降低12.7倍,動態重構8~512卡超節點的彈性組合單元。

在關鍵組件中,Cable Tray特別值得關注。

圖片

Cable Tray(圖片來自:立訊技術公眾號)

ETH-X超節點AI Rack采用機柜銅連接方案。而Cable Tray,就是實現各個子系統硬件互通的高速銅纜方案,也是提供高速互連能力的重要連接器硬件。

英偉達的最新NVLINK方案,也用的Cable Cartridge方案。在短距傳輸場景,相對于光纖,機柜內采用銅連接,可以實現高可靠性和低成本(減少了光模塊的使用),也有利于布線。目前看來,在Scale Up內部使用銅纜直連技術,已經是一個主流趨勢。

最后的話

好啦,以上就是關于超節點的全部介紹。大家都看懂了沒?

隨著AI浪潮的繼續發展,業界對超節點的需求會變得越來越強烈。更多的廠商,將會加入到相關的開放標準中。這將有力推動相關技術和標準的成熟,帶來更加繁榮和多元的生態。

超節點,未來可期!

責任編輯:姜華 來源: 小棗課堂
相關推薦

2015-12-15 13:43:24

volte

2021-08-13 05:47:48

通信設計院通信行業設計院

2022-09-26 07:08:16

無線通信CT

2023-09-07 23:06:07

2019-10-31 11:03:39

區塊鏈數字貨幣比特幣

2021-07-22 09:40:10

GitHub代碼開發者

2019-10-21 09:50:09

連接池參數路由

2018-12-09 16:52:01

無線充電無線

2024-02-22 08:00:00

SoraOpenAI

2022-08-08 08:00:00

人工智能機器學習計算機應用

2021-09-28 20:17:30

5G公網專用

2025-04-29 08:56:36

2024-03-15 08:06:58

MySQLJOIN命令

2022-05-24 17:00:41

區塊鏈IT比特幣

2024-07-10 10:38:58

Vue組件函數

2020-02-17 21:52:19

微信支付寶健康碼

2018-07-30 11:27:12

云服務

2023-09-21 07:24:52

2010-04-02 16:46:43

云計算

2019-05-28 13:50:27

MySQL幻讀數據庫
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久久久国产 | 亚洲一区二区三区四区五区午夜 | 亚洲免费在线观看av | 视频一区二区在线观看 | 国产一区二区在线免费观看 | 欧美日韩a | 久久99精品视频 | 亚洲91| 久久久久一区 | 国产成人精品综合 | www.玖玖玖 | 新91视频网 | 国产一级在线观看 | 久久国产精品99久久久久 | 成人国产精品久久久 | 国产一级一片免费播放 | 日韩欧美三区 | 亚洲成人精品国产 | 超碰成人免费 | 婷婷开心激情综合五月天 | 欧美一区二区三区在线看 | 美女视频h| av网站在线看| 91伦理片| 国产精品一区二区在线播放 | 欧美成人自拍 | 精品一区二区观看 | 国产一区二区中文字幕 | 超碰在线免费公开 | 九色视频网| 成人一级黄色毛片 | 伊人久久综合 | 狠狠色综合久久婷婷 | 国产精品永久 | 一区在线视频 | 在线91| 中文字幕高清视频 | 天天爽天天干 | 91精品国产乱码久久久久久久 | 日韩高清中文字幕 | 国产三级电影网站 |