老黃再出奇招!首推「特供版」GB20服務器,或將明年上市
英偉達與美國商務部的角力又升級了!
在美國出口管制之下,老黃不斷拿出變通之策,一場貓鼠游戲正在上演。
出口管制新規實施以后,沒少耽誤老黃在中國市場賺錢。
截至今年1月,出口新規恰好實施一年,中國市場占英偉達收入的比例下降至17%。兩年前,這個數字還是25%+。
面對監管,英偉達連續推出為中國定制的「特供版」芯片,然而這些性能削弱的芯片往往銷路不暢。
此前出師不利的H20銷量剛剛見漲,英偉達卻驚聞噩耗——
杰富瑞分析師在上周的一份研究報告中透露,美國商務部將于10月份對半導體出口限制進行年度評估,可能會禁止H20芯片的出口。
監管不斷升級,這一次,老黃徹底拼了。
不僅推出了新旗艦AI芯片B20,擔心它不夠好用,還推出了配套服務器GB20。
從命名就不難猜出,B20是英偉達今年三月發布的Blackwell B200的一個變體。
作為迄今為止最快的GPU, B200在某些任務上的處理速度可以達到前代產品的30倍。(eg.讓聊天機器人生成答案)
可惜,這與「特供版」B20芯片可以說是毫無關系……
在美國出口管制政策限制下誕生的B20,注定會是一款入門級產品,與具備行業領先AI性能的B200形成鮮明對比。
但據爆料人表示,雖然B20在處理AI計算時會比B200慢一些,但在GB20服務器中將大量芯片安裝在一起,可以部分彌補這種缺陷。
這將確保英偉達在與中國產品交鋒時,保有一定的競爭力,同時也符合美國出口管制規定的芯片計算能力上限。
管制之下,上演「貓鼠游戲」
自2022年年底以來,英偉達多次重新配置面向中國市場的芯片,瞄準了中國客戶需要芯片來開發LLM的需求,試圖在符合美國法規的同時,保持對中國客戶的吸引力。
2022年10月,美國政府禁止銷售英偉達的A100和H100(當時是其最先進的人工智能芯片)。
幾個月后,英偉達就針對中國市場推出了兩款替代產品A800和H800。
此后不到一年,美國商務部再次更新了出口管制措施,對這兩款芯片實施了限制。
英偉達反應迅速,僅僅在幾周后,就推出了H20,與之一同推出的還有L20 PCle和L2 PCle。
其中,H20芯片性能有限但連接速度更高,憑借高帶寬內存和成熟的軟件支撐,帶來了較優的性能。
雖然初期銷量不濟,但比較之下,越來越多的中國客戶選擇購買這款芯片。
據四位直接參與英偉達芯片在中國銷售的人士透露,中國公司已經訂購了50多萬顆H20芯片,總價值近58億美元,將于2024年交付。
研究機構SemiAnalysis也做出了樂觀的估計,英偉達今年將在中國銷售超100萬顆H20芯片,價值超過120億美元。
但正如前文所述,這項業務面臨商務部新的威脅。等到年底法規調整,H20或將禁售。
該禁令可能會采用多種形式,包括針對特定產品的禁令、降低芯片的計算能力或限制其內存容量。
畢竟宏觀背景如此,外界普遍預計美國將繼續對半導體相關出口管制施加壓力。
消息人士稱,美國希望荷蘭和日本進一步限制向中國提供芯片制造設備。
在不斷加強的管制之下,可能會有越來越多的「特供版」出現。
有傳言稱,英偉達還在開發一款新的旗艦游戲顯卡 RTX 5090D。
該顯卡將專為中國市場設計,是首款面向消費者并符合出口標準的顯卡 RTX 4090D 的后續產品。
芯片性能不夠,服務器來湊
B20的具體規格還未確定,但可以確定的是,絕對不會打破美國GPU出口政策「天花板」。
就像它的老前輩——之前推出的H20、L20和L2,這3個芯片的性能都可謂是「史詩級」大縮水,不僅性能是殘血的,而且還只配備了殘血版的NVLink連接。
TPP & PD兩大指標鎖喉
美國對中國GPU出口有嚴格的性能規定,采用一種名為「總計算性能」(Total Processing Power,TPP)的指標。
該指標將GPU計算能力的TFLOPS和精度納入考量。具體來說,將TFLOPS(不含稀疏性)乘以精度(以位為單位)即可得出TPP。
當前的限制設定在4800 TPP,這意味著什么呢?
以英偉達之前的產品為參考:Hopper H100和H200已經遠遠超過了這一標準,兩款GPU的TPP均達到了16000,是規定上限的3倍不止。
即使是RTX 4090,其660.6 TFLOPS的FP8計算能力也超過了限制。
保持在4800 TPP限制內的最強大的英偉達桌面GPU是 RTX 4090D,它是專門為遵守出口限制而構建的。
Blackwell在計算性能方面樹立了新的標桿,其雙芯片解決方案可能會輸出約4500 TFLOPS的FP8計算能力,這將是出口限制的7.5倍。
換言之,B20的性能將不足Blackwell B200性能的1/7!
不僅如此,B20還面臨額外的限制——「性能密度」(Performance Density,PD)限制。
這是美國對數據中心GPU專門實施的限制,消費級GPU不受此影響。
將TPP分數除以芯片尺寸即可得到PD指標,對中國出口的GPU的PD不得高于6.0。
按照這個指標,RTX 40系列GPU(Ada Lovelace 架構)已經不可被用于數據中心使用。
而Blackwell在密度和性能上,明顯要優于Ada Lovelace。
也就是說,英偉達需要嚴格限制B20的性能,或使用更大比例的芯片,以符合相關規定。
據Tom's Hardware預計,B20將成為英偉達 A30和H20入門級AI GPU的繼任者。
以H20為例,其FP16計算能力僅為296 TFLOPS,TPP為2368,PD僅為2.90,而H100/H200則為1979 TFLOPS。
與此同時,A30的TPP評分為2640,PD評分為3.20,比H20略有提升。
由此可見,英偉達為中國市場打造的AI GPU在性能上有一定進步空間,但空間很有限。
最好的情況是,英偉達可能會尋求創建一個TPP在4000到4500之間,芯片尺寸為800平方毫米的GPU。
GB20:全力挽救B20的性能
為了提高即將推出的B20的效率,英偉達正在采用H20曾經使用過的策略,例如升級內存容量,因為內存芯片不受當前出口管制的限制。
據參與開發服務器的兩位人士透露,英偉達正在努力提高內存與B20處理器之間的數據傳輸速度,從而可以更快地處理大型能數據集。
不僅如此,英偉達還將在GB20機架設計中采用其NVLINK技術(可實現不同芯片之間的快速通信)和冷卻方案。
兩人補充道,這有望提高B20芯片的利用率和GB20計算集群在為人工智能提供動力方面的有效性。
GB20系統將使客戶能夠通過更高效地并行運行多個芯片來進行人工智能訓練和推理。
在GB20被曝出之前,Tom's Hardware曾大膽預測,B20將是一款難以銷售的芯片。
但現在有了GB20的加持,似乎又有了新的希望。