專為 DeepSeek 類強推理加速,老黃拿出 Blackwell Ultra,下代架構性能還要翻倍
「因為 AI 技術爆發,GTC 大會的規模每年都在擴大,以前人們說 GTC 是 AI 的伍德斯托克音樂節,今年我們搬進了體育場,我覺得 GTC 已經成了 AI 的超級碗,」英偉達 CEO 黃仁勛說道。「唯一的不同在于每個人都是『超級碗』的贏家。」
北京時間 3 月 19 日凌晨,全世界的目光都匯聚在加州圣何塞 SAP 中心,期待英偉達給出的下一個 AI 大方向。
老黃的 Keynote 演講行云流水,沒有提詞器
在詳細介紹 Keynote 內容之前,我們劃下重點:
- Blackwell 已經全面投產。「產量驚人,客戶需求驚人,因為人工智能出現了一個拐點,由于推理人工智能以及推理人工智能系統和智能體系統的訓練,我們在人工智能領域必須完成的計算量大大增加。」
- Blackwell Ultra 將于 2025 年下半年上市,下一代 AI 加速器架構 Vera Rubin 則會在 2026 年推出。
- 搭載分布式推理系統 Dynamo 的 Blackwell NVLink 72 的「AI 工廠」性能是英偉達 Hopper 的 40 倍。「隨著人工智能規模的擴大,推理將成為未來十年最重要的工作負載之一」。
- 按照最新路線圖,英偉達正在構建三種 AI 基礎設施:一種用于云,第二種用于企業,第三種用于機器人。
發布會上,老黃再次拿出 CES 上展示的 AI 發展曲線:
從 2012 年的 AlexNet 開始,現在我們處于生成式人工智能的階段,即將進入智能體時代,隨后是物理人工智能。物理 AI 也就是進入物理世界的人工智能,包括自動駕駛汽車與機器人。「每一次浪潮都為我們打開了新的市場機遇。」
再增加一個維度,不容忽視的是 DeepSeek R1 推動測試時擴展(Test-Time Scaling)給機器智能帶來的全新發展曲線:
智能背后是計算的力量。預訓練時代解決數據問題,后訓練解決的是 human-in-the-loop 問題,而測試時間擴展則是為了增強 AI 的推理能力。每一階段都有自己的 Scaling Law,算力都是強需求。
所以,雖然 DeepSeek R1 的高效率給全世界以震撼,讓人們正在重估大模型的算力需求,但英偉達對于未來的 AI 算力需求仍然非常樂觀。
英偉達給出了一組數據:僅在 2024 年,全球前四的云服務運營商共采購了 130 萬片 Hopper 架構芯片。預計數據中心的建設投資將很快達到 1 萬億美元。不知道其中有多少是 OpenAI 星際之門項目的貢獻。
AI 計算不是在萎縮,而是在通貨膨脹,老黃進一步給出了兩個增長曲線:
- 第一個曲線,軟件都會因為 AI 而加速,在常規云服務上運行的人類編寫軟件,會轉變為 AI 編寫的軟件運行在加速 AI 基礎設施上;
- 第二個曲線,人們編寫的文字提示獲得 AI 生成的 token,轉變成為 AI 生成的 Token 引導出 AI 生成的結果(即強推理)。
在此之上,整個世界將會被重塑。
每個企業未來都會有兩個工廠,一個是物理的工廠,一個是 AI 的虛擬工廠。英偉達為所有行業的變革準備了新的工具,包括 CUDA X 軟件庫,其中包括用于 NumPy 的 cuPYNUMERIC、用于量子計算的 cuQUANTUM 和 CUDA-Q、用于深度學習的 NCCL 和 cuBLAS 等等。
所有這些庫都依賴 CUDA 核心來完成工作,為此英偉達也準備好了更先進的 AI 算力。
Blackwell 發布超大杯,性能猛增
Blackwell 架構的 AI 加速卡現在已經全面進入量產階段,正在推動下一波 AI 基礎設施浪潮。「這是我們改變計算架構基礎的重要一步,」黃仁勛說道。
在芯片架構進步的同時,英偉達正在研究讓用戶同時訪問多個 GPU 的 NVLINK 交換機。
大規模的推理可能是英偉達迄今為止面臨的最復雜的計算問題,但又是 AI 未來的方向。過去幾個月里,很多人都在嘗試使用 DeepSeek,肯定已經有了親身體驗:
黃仁勛展示了新舊兩代大模型是如何解決「為七位客人優化婚宴餐桌位次」的問題。上代大語言模型 Llama 輸出了 439 個 token,結果不盡如人意。強推理模型 DeepSeek R1 輸出了 8559 個 token 進行了一番推理,花費的時間更長,計算量也更大,但結果真正能被人用得上。
老黃表示:「這是個只有丈母娘或者 AI 才能解決的問題。」
但是上面這個問題需要消耗 150 倍的算力。AI 服務商希望盡可能地向每位用戶提供更高的速度,同時也希望盡可能地向更多用戶提供服務。這就產生了對內存、帶寬、計算速度等各個方面的巨大需求。Grace Blackwell NVLink72 正是為滿足這樣的需求誕生的。
為了提升效率,英偉達在軟件上也有創新,提出了「AI 工廠的操作系統」——NVIDIA Dynamo。它是一個「分布式推理服務庫」,而且是一個開源解決方案,解決的是用戶需要 token 但無法提供足夠 token 的問題。據介紹,Dynamo 會被用于在大量 GPU 之間高效編排和協調 AI 推理請求。目前,微軟、Perplexity 等公司已宣布開始接入這一系統。
接下來,讓我們看看軟件 + 硬件能夠帶來的算力效率提升。如果強推理模型落地成產品,我們就需要 AI 能以極快的速度跑完思維鏈。「只有在英偉達,你才會這樣被數學折磨,」老黃說道。在推理模型中,最新版 Blackwell 的性能是 Hopper 的 40 倍:
黃仁勛展示了一個非常直觀的對比。同樣是 100 MW 功率的 AI 工廠,使用 GB200 搭建的數據中心的生產力是使用 H100 的數據中心的 40 倍,同時機架數量還能從 1400 大幅減少到 600。
現在不是「the more you buy the more you save」了,而是「the more you buy the more you generate」。「全球 TOPS 的云服務提供商(CSP)訂購的 Blackwell 芯片數量是 Hopper 的三倍,AI 算力的需求正在迅猛增長。」黃仁勛表示。
不得不說,他表示自己確實想提高 Blackwell 的銷量,但這同時在一定程度上降低了 Hopper 的銷量。他甚至打趣說自己是 chief revenue destroyer(首席收入破壞官)。
黃仁勛表示,人們的 AI 任務需求正在大幅提升,因為大模型推理任務、AI Agent 等任務,AI 推理的算力需求已經增長了 10-100 倍。這也就產生了對更強大性能的需求。
似乎是在順應手機和新能源車出「超大杯」Ultra 版的風潮,英偉達在旗艦 AI 計算卡上也搞了個 Ultra 版:Blackwell Ultra NVL72。
這是迄今為止 AI 算力最強大的硬件,配備了 1.1 EF 的密集 FP4 推理能力和 0.36 EF 的 FP8 訓練能力,達到了 GB200 NVL72 的 1.5 倍。此外,它的互聯帶寬是 GB200 NVL72 的 2 倍,內存速度也提升了 1.5 倍。至于 Blackwell Ultra NVL72 的上市時間,預計會是今年下半年。
將八個 NVL72 機架放在一起,就可以獲得完整的 Blackwell Ultra DGX SuperPOD:288 個 Grace CPU、576 個 Blackwell Utlra GPU、300TB HBM3e 內存和 11.5 ExaFLOPS FP4 算力。這就形成了英偉達定義中「AI 工廠」的超級計算機解決方案。
需要注意的是,Blackwell Ultra GPU(GB300 和 B300)與 Blackwell GPU(GB200 和 B200)是不同的芯片。
下一代架構 Vera Rubin
既然算力在通貨膨脹,那這還遠遠不夠。在今天的 Keynote 中,英偉達很快就介紹完了 Blackwell Ultra,轉而展示了其下一代架構 Vera Rubin—— 其全機架性能應是同類 Blackwell Ultra 的 3.3 倍。
Vera Rubin 將是英偉達的下一個平臺,將于 2026 年下半年推出。Vera Rubin 具有 NVLink144,更強大的 Rubin Ultra 則具有 NVLink576,將于 2027 年下半年推出。在具體性能上,其將具有 3.6 EF 的 FP4 推理性能和 1.2 EF 的 FP8 訓練性能,整體可達到 GB300 NVL72 的 3.3 倍,同時在其它指標上也有 2 倍左右的提升。
其 Ultra 版則計劃在 2027 年下半年推出,其性能更是有望達到 GB300 NVL72 的 14 倍!
除了 GPU 芯片的迭代,Rubin 還將標志著從 HBM3/HBM3e 向 HBM4 的轉變。每 GPU 的內存容量仍為 288GB,與 B300 相同,但帶寬將從 8 TB/s 提高到 13 TB/s。下代產品還將擁有更快的 NVLink,吞吐量翻倍至 260 TB/s,機架之間的新 CX9 鏈路速度為 28.8 TB/s(是 B300 和 CX8 的兩倍)。
如果將 4 組 Vera Rubin NVLink144 組成的 Vera Rubin NVLink576 來構建 NVIDIA Rubin System,則這將是配備 576 個 Rubin GPU 的性能怪獸,能實現 15 EF 的 FP4 性能,同時內存也將達到驚人的 150 TB。對比前代 Blackwell System 的性能,可以看到優勢非常明顯。
黃仁勛特別強調:「你可以看到,Rubin 將大大降低成本。」
據了解,這一代 GPU 得名于科學家 Vera Rubin,她是一位美國天文學家,1928 年出生于費城。她的知名成就是發現了暗物質存在的證據。
值得一提的是,自去年的 Blackwell 開始,命名就不再單指芯片架構。黃仁勛就曾強調,Blackwell 并不是某塊芯片,而是一個技術平臺,英偉達也越來越多地開始使用「Blackwell」一詞來指代該公司所有最新一代 AI 產品,例如 GB200 芯片和 DGX 服務器機架。
黃仁勛還在演講中簡單提到了再后一代的 Feynman 架構 —— 很顯然這得名于著名物理學家理查德?費曼。不過這至少得等到 2028 年了。
此外,黃仁勛還宣布了 NVIDIA Photonics,這似乎是迄今為止最強大的 Spectrum-X 以太網互聯,以激光作為介質,可以大幅提升 GPU 之間的傳輸速度,支持擁有數百萬塊 GPU 的集群。預計這款產品將于今年下半年上市,而新一代的 Quantum-X 將在明年下半年上市。
今天的新產品中相對來說接地氣的是 Blackwell RTX Pro 系列圖形產品。其面向的是筆記本電腦和臺式機,以及獨立 PC 和數據中心產品。具體規格和配置的細節尚未公布,已知頂級解決方案將使用與 GeForce RTX 5090 相同的 GB202 芯片(但顯存會更大)。
至此,英偉達看起來已經為強推理 AI 大規模落地所需巨量的計算做好了準備。
下一波浪潮:物理世界的 AI
最后是對未來的展望。英偉達表示,AI 的下一波浪潮必然會延伸到物理世界,主要形式會是三種機器人:工業機器人、自動駕駛車輛以及狹義的人形機器人。
三種機器人都需要的算力包括預訓練、模擬環境和端側算力,這些算力英偉達都提供。物理世界的 AI 將會帶動數萬億美元的工業產值,數以十億計的機器人將會使用英偉達的計算平臺。
數據、架構、Scaling Law,這些問題在機器人領域也同樣存在
對此,英偉達的預訓練模型平臺 Cosmos、GROOT N1 以及 NVIDIA Omniverse 將會幫助物理 AI 生態的構建,推動技術的發展。
其中,GROOT N1 是通用的機器人基礎模型,英偉達宣布已經把它開源了出來。模型采用雙系統架構,靈感來自人類認知原理。在視覺語言模型的支持下,系統 2 可以推理其環境和收到的指令,從而規劃行動。然后,系統 1 將這些計劃轉化為精確、連續的機器人動作。
基于可通過少量人類演示生成指數級的大量合成動作數據的生成藍圖,他們在短短 11 小時內生成了 78 萬條合成軌跡,相當于 6500 小時或連續 9 個月的人類演示數據。然后,通過將合成數據與真實數據相結合,與僅使用真實數據相比,GR00T N1 的性能提高了 40%。
黃仁勛展示了與迪斯尼和 DeepMind 聯合開發的機器人平臺 Newton,以及基于該平臺打造的《星球大戰》風格的機器人 Blue。
他表示,對于機器人,可驗證的獎勵就是物理定律。
利用 Omniverse 和 Cosmos 通過數字孿生虛擬訓練機器人的 AI,然后將其轉化為現實世界的動作 Token 輸出,這就是未來機器人大規模落地的方式嗎?
如果人形機器人會有恐怖谷效應的話,科幻電影里早已為我們準備了解決方案。
「每個人都應該關注機器人領域,它很可能會成為最大的產業,」黃仁勛說。