均價300萬美元?英偉達GH200超級芯片落地九個超算中心,每秒兩百億億次flop
英偉達用Grace Hopper的實力證明,它可以成為AI超算的首選硬件,未來將不再局限于GPU。
5月12日,英偉達宣布,全球有9臺新型超級計算機正在使用Nvidia Grace Hopper超級芯片來加速科學研究和發現,從而推動高性能計算(HPC)產業轉向以AI驅動。
Grace Hopper超級芯片
即將上線的這9臺超算包括法國的EXA1-HE、波蘭的Helios、瑞士的Alps、德國的JUPITER、美國UIUC的DeltaAI以及日本的Miyabi。
這9個系統的算力加在一起可以提供200 exaflops(即每秒兩百億億次浮點數計算)的處理能力。
此外,英國布里斯托大學的Isambard-AI和Isambard 3,以及美國洛斯阿拉莫斯國家實驗室和德克薩斯高級計算中心的系統也開始使用Grace Hopper的硬件和平臺。
其中,Isambard-AI第一階段的超級計算機HPE Cray EX2500就配備了168個GH200超級芯片,成為有史以來最高效的計算機之一。
預計剩余的5280顆芯片將于今年夏天交付給Isambard-AI系統,屆時其性能將提高約32倍,從而推動數據分析、藥物發現、氣候研究和更多AI4Science領域的發展。
英偉達Grace Hopper超級芯片架構是第一個真正的異構加速平臺,將Hopper GPU的高性能和Grace CPU的多功能性融合在單個芯片中,專為加速計算和生成式AI而打造。
GH200芯片架構示意圖
該系列中的GH200芯片在AI和高性能運算方面有非常強大的能力,單個GH200芯片由一個72核Grace CPU和一個H100 GPU組成,內存容量最高可達624GB。
對于百億億級的高性能計算或萬億參數級別的AI模型,芯片間的傳輸速度幾乎和芯片的計算能力一樣重要,服務器集群中的每個 GPU之間需要進行高速、無縫的通信,以實現大規模加速。
英偉達的NVLink技術就是為了解決通信問題,GH200中的CPU和GPU通過NVLink C2C連接在一起,提供900GB/s帶寬,是第五代PCIe帶寬的7倍。
在單個服務器上,通過NVlink連接的雙GH200芯片可以提供比H100高3.5倍的GPU內存容量和3倍的帶寬。
然而,英偉達并沒有公開GH200的價格,可以參考的是,目前H100系列官方售價約為4萬美元。
英偉達進軍超算
近兩年來,英偉達不斷在服務器和高性能計算領域布局,與AMD、英特爾等公司展開競爭。
盡管英偉達的GPU業務蒸蒸日上,已經賺得盆滿缽滿,幾乎控制全部的AI GPU市場,但進軍高性能計算也非常重要,因為給超算系統提供硬件和平臺是一項規模巨大且利潤豐厚的業務。
目前,世界各國都在不約而同地加大數據、基礎設施等方面的投資,以建造更高效的超算系統,這些超算中心以及科技巨頭都可以成為Grace Hopper硬件及其平臺的潛在用戶。
為此,英偉達基于Arm架構從頭構建了Grace系列數據中心CPU,旨在創建高性能計算和AI超級芯片。
然而,在2月發布的HPCC基準測試中,Grace還是落后于英偉達最新的Sapphire Rapids CPU,在八項測試中僅有三項更快。
但也有文章指出,Grace在散熱和成本方面存在優勢,這也是構建數據中心需要考慮的關鍵因素。
最新一代的Grace Hopper超級芯片于去年8月推出,是世界上第一個配備HBM3e內存的處理器,容量達到141GB,旨在處理「世界上最復雜的生成式人工智能工作負載,涵蓋大型語言模型、推薦系統和矢量數據庫」。
英偉達CEO黃仁勛穿著他標志性的皮夾克,在世界頂級計算機圖形學會議SIGGRAPH 2023的講臺上發布了這款產品。
HBM(高帶寬內存)各代之間的區別主要在于傳輸速度而非容量。相比AMD所使用的HBM3內存,HBM3e提速約50%,將Grace Hopper中的數據傳輸速率從原來的4TB/s提升到5TB/s。
除了Grace Hopper系列,英偉達也在雄心勃勃地擴展更多的產品線,以滿足不同層次、不同場景的計算需求。
比如老黃在今年3月的GTC大會上展示的下一代Blackwell系列芯片屬于英偉達,其中的GB200型號結合了一個Grace CPU和兩個B200 GPU,實現5 petaflops(每秒千萬億次浮點計算)的處理能力,相比之下,H200 GPU的原始計算能力只有1 petaflops。
《巴倫周刊》分析師Tae Kim在推特中寫道,據匯豐銀行分析師估算,一顆GB200芯片的成本可能高達7萬美元,而且英偉達更傾向于為客戶提供集成了多個芯片的服務器,而不是直接出售芯片,會進一步抬高芯片的平均價格。
比如GB200 NVL36服務器配備36個GB200芯片,平均售價約為180萬美元,搭載72個芯片的NVL72服務器售價可能達到300萬美元。
加速AI驅動的科學研究
英偉達對基于Grace Hopper的超算中心寄予厚望,認為此舉將加速科學研究進程。
高性能計算 (HPC)是推動科學計算進步的最重要工具之一,從天氣預報、能源勘探到計算流體動力學和生命科學,研究人員正在將傳統的模擬方法與人工智能、機器學習、大數據分析和邊緣計算相融合,以解決重要的科學問題。
高性能計算用于氣象建模
英偉達超大規模和高性能計算副總裁Ian Buck在一份聲明中表示「人工智能正在加速對氣候變化的研究、加快藥物發現,并在數十個其他領域取得突破」,「Nvidia Grace Hopper正成為高性能計算的重要組成部分,因為它們能夠在提高能源利用效率的同時改造整個行業。」