撰稿丨云昭
出品 | 51CTO技術棧(微信號:blog51cto)
英偉達飄了,野心膨脹到讓業界羨慕嫉妒恨。
就在今天深夜,GTC全場高潮迭起,黃仁勛“輕咬著舌頭、左手一個H100,右手一個B200”的照片,紛紛成為了業界媒體新聞的封面熱圖。
無須多問,黃教主手里拿的是什么,什么就是全場最靚的核彈!
一、沒人抄得了B200
1.大模型突破摩爾定律,萬億大模型少用6000塊H100
“隨著Transformer模型被發明,我們能以驚人的速度擴展大型語言模型,實際上每六個月就能翻一番。而為了訓練這些越來越大的模型,我們也需要更強的算力。"
B200 GPU ,采用了Blackwell架構,與Hopper架構相比,不管是支持的模型參數、還是訓練功耗方面,都有著驚人的性能提升。
如黃教主展示的:
之前,如果要在90天內訓練一個1.8萬億參數的MoE架構GPT模型,需要8000個Hopper架構GPU,15兆瓦功率。
而現在,同樣給90天時間,在Blackwell架構下只需要2000個GPU,同時,能源消耗大大縮減為1/4。
圖片
自然,推理生成的token成本也會隨之降低。(如此一來,用硬件的方法降低了大模型的訓練推理成本,大模型市場落地的價格也會繼續降低,或許SOTA模型免費Open給大眾,指日可待。)
2.讓友商完全抄得跟不上
英偉達顯卡的強大之處,就在于讓友商抄無可抄。黃教主現場展示Grace-Blackwell系統(兩個Blackwell GPU、四個die與一個Grace Cpu連接在一起)。
在黃教主現場演示中,GB200將兩個B200 Blackwell GPU與一個基于Arm的Grace CPU進行配對。新芯片擁有2080億個晶體管,所有這些晶體管幾乎同時訪問與芯片連接的內存。
圖片
不得不說,NVIDIA Blackwell B200 GPU 將是一款怪物芯片。它總共包含 160 個 SM,20,480 個核心。GPU將采用最新的NVLINK互連技術,支持相同的8 GPU架構和400 GbE網絡交換機。它也將非常耗電,峰值 TDP 為 700W,盡管這也與 H100 和 H200 芯片相同。總結一下這個芯片:
圖片
1、20 PFLOPS FP8, 是Hopper的2.5倍
2、20 PFLOPS FP6,Hopper的2.5倍
3、40 PFLOPS FP4, 是Hopper的5倍
4、740B Parameters ,是Hopper的6倍
5、34T Parameters/s,是Hopper的5倍
6、7.2 TB/s NVLINK,是Hopper的4倍
值得注意的是,第五代NVLINK高速互聯:為每個GPU 提供了1.8TB/s雙向吞吐量,確保多達576個GPU之間的無縫高速通信。這樣一下子解決了大規模數據中心的GPU交互問題。
圖片
此外,Blackwell 不止步于芯片性能參數的提升,更在AI能力和安全方面下了一番“硬功夫”:
比如Ras Engine(可靠性、可用性和可維護性引擎),可以基于AI的預防性維護來運行診斷和預測可靠性問題;再比如:Secure AI,這是一項先進的加密計算功能,在不影響性能的情況下保護AI模型和客戶數據,對于醫療保健和金融服務等隱私敏感行業至關重要。
不得不說,在GPU領域,英偉達絕對是業界的天花板,壓力不止給到了AMD和英特爾,更給到了OpenAI,因為英偉達推出的一個GB200 NVL72就最高支持27萬億參數的模型,這瞬間就能裝下15個GPT-4模型(據透露,GPT-4模型參數高達1.75萬億參數)。
二、B200價格預測,3W美元一塊
讓人好奇的是,英偉達尚未公布 B200 整套方案的成本和售價。
作為參考,Blackwell的前身 Hopper ,其旗艦款 H100 作為科技界最珍貴的商品之一,每顆芯片售價一度飆至4萬美金。而 B200 只會更加昂貴,這個價格恐怕只有科技巨頭們才能考慮入手。
根據分析師預測, B200 GPU 售價為 30,000 美元至 35,000 美元,而GB200 芯片的平均售價將達到驚人的 60,000 美元至 70,000 美元。
三、復刻很難國內GPU要跟上,希望在哪?
簡單分析一下跟不上的原因:
1.要承認復刻的確很難,短期基本不可能。這方面技術受地緣限制,從光刻機、到設計軟件、再到供應鏈的突圍,層層關卡,想要實現性能上的突破,先進的設備和技術都有待攻克。
圖片
2.缺乏生成式AI相應的軟件配套服務。事實上,單一層面講國產算力匱乏并不客觀,中科曙光、紫光、浪潮等一直在顯卡方面取得了相當顯著的效果。然而,即便有了硬件算力,與之相匹配的軟件配套能力與英偉達比起來,似乎就相形見絀了。
3.即便有了,面對強大的競爭環境,自身盈利的要求也是非常大的挑戰。英偉達等生態布局很早,氣候已經大成,虹吸效應。
圖片
從頭搭建一套的成本花費巨大,即便“造出火箭”來,也沒有好的買家買單,這也是為什么國內廠商難以跟進的客觀原因。
攻堅克難,需要持之以恒的投入和決心。國內的GPU市場規模很大,也不是英偉達一家能通吃的天下。根據Verified Market Research的預測,到2027年,中國大陸的GPU市場規模預計將增長至345.57億美元。
那英偉達的對手在哪里?沒錯,華為。
被英偉達列為最大競爭對手之一的華為,也走上了自研國產GPU的道路。華為推出的最強芯片「昇騰 910」,主要面向 AI 數據科學家和工程師,算力可達256TFOPS,超過了谷歌的 TPU v3 及英偉達的 GPU Tesla V100芯片。
不過值得注意的是,國內看,即便硬件性能追上英偉達,在軟件框架層、模型層、生態層也亟需追趕。
四、通用計算過時了面向GPU編程已來
英偉達成立于1993年,馬上即將迎來31周年,黃仁勛帶領下的“GPU”如今早已不止是“游戲”發燒友的硬件配置,而是正在成為新一輪技術變革的“超級充電廠”。
關注本次GTC的朋友,不難注意到英偉達重磅推出的AI微服務網站NIM,AI生產力的編程時代已經到來。
圖片
之前,整個PC互聯網都在面向CPU編程,而如今,黃教主認為AI時代下,面向GPU的開發技術棧更為被業界迫切需要。
面向外界,黃仁勛給出了一個堅定的信號:“加速計算到達了臨界點,通用計算已經過時了。”
參考:https://techovedas.com/5-major-highlights-from-nvidia-gtc-2024/