成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<input id="wzqki"><label id="wzqki"></label></input>

<track id="wzqki"><center id="wzqki"></center></track>

<ol id="wzqki"></ol>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

全球最大AI超算內部首次曝光！馬斯克19天神速組裝10萬塊H100，未來規模還將擴大一倍

作者：新智元 2024-10-31 13:39:47

一文揭秘全球最大AI超算，解析液冷機架和網絡系統的創新設計。這臺全球最大AI超算Colossus由xAI和英偉達聯手建造，耗資數十億，10萬塊H100僅半個多月搭建完成，未來規模還將擴大一倍！

兩個月前，馬斯克才剛剛自曝了xAI的Colossus超算，稱其是世界上最強大的AI訓練系統。

最近，馬斯克又宣布了一條振奮人心的消息——集群即將擴展到20萬張H100/H200顯卡！

圖片

這臺全球最大的AI超級計算機Colossus位于美國田納西州孟菲斯，配備了10萬個英偉達Hopper GPU，并由英偉達Spectrum-X以太網提供網絡傳輸支持。

目前，Colossus的第一階段建設已完成，集群全面上線，但這并不是終點。它將很快迎來升級，GPU容量將翻倍，新增5萬塊H100 GPU和5萬塊下一代H200 GPU。

Colossus正在用于訓練xAI的Grok，并為X Premium訂閱用戶提供聊天機器人功能。

圖片

在訓練超大規模的Grok時，Colossus展現了前所未有的網絡性能。在網絡結構的所有層級中，系統在流量沖突的情況下沒有經歷任何應用延遲降級或數據包丟失。

通過Spectrum-X擁塞控制，它保持了95%的數據吞吐量。這種性能水平無法通過標準以太網實現，標準以太網在傳輸中會產生數千次流量沖突，數據吞吐量僅能達到60%。

由于保密協議的限制，這臺超級計算機的一些細節并沒有透露。不過，像Supermicro GPU服務器等關鍵部件的介紹在視頻中都有所涉及。

液冷機架

圖片

Colossus集群的基本構建單元是Supermicro液冷機架。

每個機架包含八臺4U服務器，每臺服務器配備八個英偉達H100，共計64個GPU。

八臺此類GPU服務器再加上一個Supermicro冷卻分配單元（CDU）及相關硬件，構成了一個GPU計算機架。

這些機架以八臺為一組排列，共512個GPU，并通過網絡連接，形成更大系統中的小型集群。

xAI使用的是Supermicro 4U通用GPU系統。

這是目前市面上最先進的AI服務器，有2個原因：其一是它的液冷程度；其二是設備的可維護性。

該系統被放置在托盤上，無需將系統從機架中移出即可維護。1U機架分流器可為每個系統引入冷卻液并排出溫熱液體。快速斷開裝置讓液冷系統可以迅速移除，甚至可以人工單手拆裝；移除后，托盤即可拉出以便維護。

下圖是一張該服務器原型的照片，展示了這些系統的內部構造。

圖片

SC23展示的Supermicro 4U通用GPU系統：支持液冷英偉達HGX H100和HGX 200

上圖SC23原型中的兩個x86 CPU液冷模塊相對常見。

特別之處在于右側：Supermicro的主板集成了幾乎所有HGX AI服務器中使用的四個Broadcom PCIe交換機，而非將其單獨安裝在另一塊板上。Supermicro為這四個PCIe交換機設計了定制液冷模塊。

其他AI服務器通常是在風冷設計的基礎上加裝液冷，而Supermicro的設計則完全從零開始，為液冷而打造，且所有組件均來自同一供應商。

打個通俗的比方，這類似于汽車——有些車型先設計為燃油車，之后再安裝電動動力系統，而有些車型從一開始就是為電動車設計的。這款Supermicro系統就屬于后者，而其他HGX H100系統則屬于前者。

Patrick怒贊道：測評了各種各樣的液冷系統設計，這款Supermicro系統遙遙領先于其他系統！

網絡系統

這里的每條光纖連接速率為400GbE，是常見1GbE網絡速率的400倍。此外，每個系統擁有9條這樣的連接，意味著每臺GPU計算服務器的帶寬達到約3.6Tbps。

打個比方，如果1GbE的普通家庭網絡好比是一條單車道公路，那這個400GbE就像是一條擁有400車道的高速公路。而每個系統有9條這樣的「高速公路」，相當于每臺GPU計算服務器擁有9條這樣的超寬帶公路，總帶寬達到3.6Tbps。

這個帶寬甚至超過了2021年初頂級Intel Xeon服務器處理器在所有PCIe通道上所能處理的連接總量。

GPU的RDMA網絡構成了該帶寬的大部分。每個GPU都有自己的NIC。

在這里，xAI使用英偉達BlueField-3 SuperNIC和Spectrum-X網絡。英偉達的網絡堆棧中加入了一些獨特技術，可以幫助數據繞過集群中的瓶頸，確保數據準確地傳輸到指定位置。

這是一個重大突破！許多超級計算機網絡使用的是InfiniBand或其他技術，而這里采用的是以太網。

以太網是互聯網的骨干，因此它具有極強的擴展性。這些龐大的AI集群已擴展到一些更小眾技術未能觸及的規模。對于xAI團隊而言，這確實是一個大膽的舉措。

除了GPU的RDMA網絡外，CPU也配備了400GbE連接，但使用完全不同的交換結構。xAI為其GPU和集群的其余部分分別配置了獨立的網絡，這在高性能計算集群中是非常常見的設計。

除了高速集群網絡外，還有低速網絡用于管理接口和環境設備，這些都是此類集群的重要組成部分。

參考資料：https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/3/

責任編輯：武曉燕來源：新智元

AI 超算設計

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：欧美成人免费电影 | 婷婷在线视频 | 在线观看av网站永久 | 日日网| 9191在线观看 | 国产伊人精品 | 丁香久久 | 亚洲日韩中文字幕一区 | 激情黄色在线观看 | 91精品国产91久久久久久吃药 | 成人免费视频观看视频 | 91资源在线 | 成人黄色av网址 | 日韩久久久久久 | 欧美日韩久久 | 成人在线视频网站 | 欧美日韩综合一区 | 一区二区在线视频 | 黑人成人网 | 在线色网站 | 欧美日韩1区2区3区欧美久久一区 | 国产99精品| 国产精品视屏 | 欧美日韩一区二区视频在线观看 | 中文字幕91av| 国产精品美女久久久久久不卡 | 伊人手机在线视频 | 久久成人国产 | 激情视频中文字幕 | 久久久人成影片一区二区三区 | 黄视频国产 | 欧美日韩免费视频 | 日本精品视频在线观看 | 亚洲色欲色欲www | 国产欧美精品一区二区色综合朱莉 | 亚洲欧美日韩国产综合 | 成人激情视频免费在线观看 | 在线黄av| 一区在线免费视频 | 欧美91 | 久久精品视频在线观看 |

<video id="riuke"></video>