最全總結！黃仁勛140分鐘演講看這三個問題就夠了；新品B300Ultra和Rubin期貨；CUDA庫成重頭戲、Groot成MVP

51CTO技術棧

發(fā)布于 2025-3-19 09:32

瀏覽

0收藏

出品 | 51CTO技術棧（微信號：blog51cto）

今年GTC大會，老黃的主題演講聊了很長時間，一個人撐起了相當于一部電影哪吒2的時長，近140分鐘。用黃仁勛開場自己的話說：“沒有腳本，沒有提詞器，卻有很多令人難以置信的事情要跟大家談。”

先說整體感受，老黃這次科普密度極大，可以說是最為賣力的一次演講。

開場靈魂拷問：推動AI發(fā)展的三個問題

跟去年不同的是，黃教主這次沒有上來就開大，而是在簡單介紹了感知AI、生成AI、代理AI、物理AI之后，拋出了一個靈魂拷問：究竟是什么推動了每一波、每一階段人工智能的發(fā)展？

最全總結！黃仁勛140分鐘演講看這三個問題就夠了；新品B300Ultra和Rubin期貨；CUDA庫成重頭戲、Groot成MVP-AI.x社區(qū) 圖片

老黃也沒沒賣關子，他認為，這涉及三個基本問題。

第一個是，如何解決數據問題？這很重要，因為人工智能是一種數據驅動的計算機科學方法，它需要數據來學習，需要數字體驗來獲取知識。

第二個問題是，如何在沒有人工干預的情況下解決訓練問題？人工干預從根本上來說是具有挑戰(zhàn)性的，因為我們的時間有限，而我們希望人工智能能夠以超越人類的速度學習，以超越實時的速度學習，并且能夠以人類無法跟上的規(guī)模進行學習。第二個問題是，如何訓練模型？

第三個問題是，如何實現規(guī)模化？如何找到一種算法，使得無論提供多少資源，都能實現規(guī)模化的增長？

可以說接下來的一些列的演講內容，全都是從這三個問題為經緯來展開的。

CUDA為何繞不開？黃仁勛：CUDA加速庫是AI時代的SQL

最全總結！黃仁勛140分鐘演講看這三個問題就夠了；新品B300Ultra和Rubin期貨；CUDA庫成重頭戲、Groot成MVP-AI.x社區(qū) 圖片

就像我們需要一個AI框架來創(chuàng)建人工智能并加速AI框架一樣，你需要物理、生物、各種不同量子物理等計算科學的庫和框架。英偉達為此開發(fā)了CUDA加速庫，為這些科學領域的加速框架。

所以第一個庫是令人驚嘆的。比如大家熟知的全球下載量第一的Python庫：NumPy（去年下載量達到4億次），英偉達早已做出了CUDA加速版：cuPy Numeric。cuPy Numeric是NumPy的零改動加速替代品，調用速度將會更快。

第二個被老黃安利的是cuLitho庫，這是一個計算光刻庫。在過去的四年里，英偉達已經將整個光刻計算過程整合進來。“光刻是芯片制造的第二個工廠。一個工廠用于制造晶圓，還有一個工廠用于制造晶圓的制造信息。每個擁有工廠的行業(yè)和公司未來都將有兩個工廠：一個用于生產產品，一個用于數學計算，人工智能。汽車工廠、汽車人工智能工廠、智能音箱工廠、智能音箱人工智能工廠……所以cuLitho是我們的計算光刻庫，得到了TSMC、三星、ASML等合作伙伴以及Synopsys、Mentor等公司的大力支持。”

黃仁勛補充道，光刻領域已經到了臨界點，再過五年，每一片掩膜、每一次光刻都將通過Nvidia CUDA進行處理。信號處理是我們非常擅長的領域。一旦我們做到這一點，我們就可以在其基礎上添加AI，也就是我們所說的AI RAN（無線接入網絡）。下一代無線網絡將深度嵌入人工智能。

黃仁勛甚至對這項技術期望很大：

為什么我們會被信息論的極限所限制？因為我們只能獲取有限的信息頻譜。但如果加入AI，進行數值或數學優(yōu)化，情況就不一樣了。

幾乎每個行業(yè)都使用這種技術，無論是規(guī)劃航班座位、庫存和客戶、工人和工廠、司機和乘客等，我們總是面臨多種約束條件、大量變量，而你需要優(yōu)化的是時間、利潤、服務質量、資源使用等等。Nvidia在我們的供應鏈管理中也使用了這種技術。

Co-Opt是一個令人驚嘆的庫。它將原本需要數小時的工作縮短到幾秒鐘。這非常重要，因為它使我們能夠探索更大的空間。宣布將開源Co-Opt。

此外，還有很多加速計算的CUDA庫。比如還有用于張量收縮的Co-Equivariance和cuTENSOR，用于基因測序和基因分析的Parabricks，以及全球領先的醫(yī)學成像庫Monai，用于高分辨率局部天氣預測的Earth2，以及用于對CAE（計算機輔助工程）的cuDSS等。

值得注意的是，用于量子計算的cuQuantum庫，黃仁勛透露，英偉達正在與生態(tài)系統(tǒng)中的幾乎每個人合作，幫助他們研究量子架構、量子算法，或者構建經典加速的量子異構架構。

CUDA這個事實上的AI技術棧，已經通過這些加速庫被整合到生態(tài)系統(tǒng)的不同部分，包括軟件和基礎設施，這也造就了今天大模型領域難以繞開英偉達的深層原因。

老黃將CUDA庫比喻成上個IT時代的SQL——

“服務提供商（CSP）喜歡我們的前沿技術，也喜歡我們完整的解決方案，因為正如我之前解釋的，加速計算不僅僅是芯片，甚至不僅僅是芯片和庫，而是芯片、編程模型以及在其之上的一整套軟件。整個堆棧極其復雜，每一個層級、每一個庫都相當于SQL。SQL，正如你們所知，是存儲計算領域的一場大革命，由IBM推動。SQL只是一個庫，想象一下我剛剛給你們展示的那些庫，而在人工智能領域，還有更多。所以這個堆棧是復雜的。”

英偉達十年前就開始了自動駕駛的合作發(fā)布汽車安全系統(tǒng)：Halos

最全總結！黃仁勛140分鐘演講看這三個問題就夠了；新品B300Ultra和Rubin期貨；CUDA庫成重頭戲、Groot成MVP-AI.x社區(qū) 圖片

最早采用人工智能的行業(yè)之一是自動駕駛汽車。從老黃看到AlexNet的那一刻，就已經決定英偉達全力以赴地開發(fā)自動駕駛汽車。“所以，我們已經研究自動駕駛汽車超過十年了。”

黃仁勛甚至把跟自動駕駛汽車具體的合作內容說了個遍。

英偉達開發(fā)的技術被幾乎所有自動駕駛汽車公司使用。它可能用于數據中心，例如，特斯拉在數據中心使用了大量的Nvidia GPU；也可能用于汽車本身。Waymo和Wave在數據中心和汽車中都使用了Nvidia的計算機。有時也可能只用于汽車，雖然這種情況比較少見，或者他們使用了我們所有的軟件。

此外，英偉達與汽車行業(yè)的合作方式取決于后者的需求。“我們構建了三種計算機：訓練計算機、仿真計算機和自動駕駛汽車計算機，以及所有在其之上的軟件棧、模型和算法，就像我在前面提到的其他行業(yè)一樣。”

黃仁勛講到這里，丟出了一個合作的消息——通用汽車（GM）選擇與Nvidia合作，共同打造他們未來的自動駕駛汽車車隊。

此外，老黃還重點花了一些時間介紹了自己非常自豪但外界卻很少關注的領域發(fā)布：汽車安全系統(tǒng)“Halo”。安全需要從芯片到系統(tǒng)的技術，包括系統(tǒng)軟件、算法、方法論，從多樣性到確保多樣性、監(jiān)控和透明性、可解釋性，所有這些不同的理念都必須深深融入到系統(tǒng)和軟件開發(fā)的每一個環(huán)節(jié)中。

“我們是世界上第一家對每一行代碼進行安全評估的公司，700萬行代碼經過第三方評估，以確保其設計能夠保證多樣性、透明性和可解釋性。我們還申請了超過1000項專利。”

老黃還在這一part展示了如何訓練一個靠譜的自動駕駛大模型的過程，感興趣的朋友不妨一看：

Nvidia正在通過Omniverse和Cosmos加速自動駕駛汽車（AV）的AI開發(fā)。Cosmos的預測和推理能力支持端到端可訓練的AI優(yōu)先AV系統(tǒng)，采用新的開發(fā)方法，如模型蒸餾、閉環(huán)訓練和合成數據生成。

首先是模型蒸餾，將策略模型適應為Cosmos的策略模型。將駕駛知識從一個較慢但更智能的教師模型轉移到一個更小、更快的學生模型，以便在汽車中進行推理。教師的策略模型展示了最佳軌跡，隨后學生模型通過迭代學習，直到其表現幾乎與教師模型相當。

蒸餾過程啟動了策略模型，但復雜場景需要進一步調整。閉環(huán)訓練能夠對策略模型進行微調。

日志數據被轉化為3D場景，用于在基于物理的仿真中進行駕駛閉環(huán)，使用Omniverse神經重建。這些場景的變體被創(chuàng)建出來，以測試模型的軌跡生成能力。Cosmos行為評估器隨后可以對生成的駕駛行為進行評分，以衡量模型性能。新生成的場景及其評估創(chuàng)建了一個大型數據集，用于閉環(huán)訓練，幫助AV更穩(wěn)健地應對復雜場景。

最后，3D合成數據生成增強了AV對多樣化環(huán)境的適應性。從日志數據中，Omniverse通過融合地圖和圖像構建詳細的4D駕駛環(huán)境，并生成現實世界的數字孿生，包括分割以指導Cosmos對每個像素進行分類。Cosmos隨后通過生成準確且多樣化的場景來擴展訓練數據，彌合仿真與現實之間的差距。Omniverse和Cosmos使AV能夠學習、適應并智能駕駛，推動更安全的出行。

最全總結！黃仁勛140分鐘演講看這三個問題就夠了；新品B300Ultra和Rubin期貨；CUDA庫成重頭戲、Groot成MVP-AI.x社區(qū) 圖片

AI超級計算機：坦承向上擴展已達到了極限現在需要向外擴展

關于數據中心，黃仁勛點贊了Hadoop的工作。“Hadoop是一個革命性的想法，它使超大規(guī)模數據中心能夠使用現成的計算機解決巨大的問題。”

但緊接著老黃就道出了問題——我們試圖解決的問題如此復雜，如果按照那種方式擴展，成本將過高，能源消耗也會過大，深度學習將永遠不會發(fā)生。因此，我們必須先向上擴展。

最全總結！黃仁勛140分鐘演講看這三個問題就夠了；新品B300Ultra和Rubin期貨；CUDA庫成重頭戲、Groot成MVP-AI.x社區(qū) 圖片

上一代系統(tǒng)架構被稱為HGX，它徹底改變了我們所知的計算，徹底改變了人工智能。

黃仁勛展示道，這是2個Blackwell GPU在一個Blackwell封裝中，兩個，下面有8個這樣的封裝，它們連接到我們稱之為NVLink 8的系統(tǒng)，然后連接到一個CPU機架，上面有兩個CPU，通過PCI Express連接，然后通過InfiniBand連接多個這樣的系統(tǒng)，形成一臺人工智能超級計算機。

這就是過去的方式，這就是我們開始的方式。

最全總結！黃仁勛140分鐘演講看這三個問題就夠了；新品B300Ultra和Rubin期貨；CUDA庫成重頭戲、Groot成MVP-AI.x社區(qū) 圖片

這就是我們在向外擴展之前能夠向上擴展的極限，但我們還想進一步向上擴展。

黃仁勛表示，此前宣布的Ranger將這個系統(tǒng)進一步向上擴展了4倍，所以我們有了NVLink 32，但這個系統(tǒng)太大了，所以我們必須做一些相當了不起的事情，重新設計NVLink的工作方式以及向上擴展的方式。

因此，我們首先要做的是，需要把嵌入在這個系統(tǒng)主板上的NVLink交換機與NVLIink系統(tǒng)分離出來。分離出來的NVLink交換機被放在機箱的中心。通過將18個這樣的交換機，分布在9個不同的機架中。而計算部分則放在另一處，通過液體冷卻的方式，我們可以將所有這些計算節(jié)點壓縮到一個機架中。這是整個行業(yè)的重大變化。

展示中的NVLink交換機是世界上性能最高的交換機，它使得每個GPU都能夠以全帶寬同時與其他每個GPU通信。

據黃仁勛透露，這樣一臺機架，包含60萬個零部件，這相當于20輛車的零部件，全部集成到一臺超級計算機中。而這正是英偉達的實現的一個目標——

集成的NVLink轉變?yōu)榉蛛x的NVLink，從風冷轉變?yōu)橐豪洌瑥拿颗_計算機大約6萬個組件轉變?yōu)槊總€機架60萬個組件。120千瓦，完全液冷。

所有這些難題，英偉達全部搞定了。

那為什么要花如此大的力氣做這樣的機器？

黃仁勛揭示了現下AI大模型在實際應用中，廠商們所面臨的二維困境：一方面希望大模型盡可能多的生成token（收入按token計費），另一方面，又希望盡可能更快地完成，因為如果你回答問題的時間過長，客戶就不會再回來了。因此，你的令牌速率很重要。

而事實上，解決生產環(huán)境下最好的答案是：你應該擁有大量的浮點運算能力、大量的帶寬、大量的內存，還有最好的架構、最高的能效。你必須有一個編程模型，讓你能夠在所有這些極其復雜的設備上運行軟件，以便實現這一切。

這里，老黃展示一個部署滿血版Deepseek R1的例子。

你可以使用張量并行：你可以將模型的一層在多個GPU上運行；你可以將流水線的一部分切片，稱之為流水線并行，并將其放在多個GPU上；你可以將不同的專家放在不同的GPU上，我們稱之為專家并行。流水線并行、張量并行和專家并行的組合，其組合數量是驚人的。

你有時也會針對極低的延遲進行優(yōu)化。有時你會嘗試針對吞吐量進行優(yōu)化。因此，你需要進行一些飛行中的批處理，許多不同的批處理和工作聚合技術。因此，這些人工智能工廠的操作系統(tǒng)極其復雜。

那么，有一個觀察結果，擁有像NvLink72這樣的同構架構是一件非常棒的事情，因為每一個GPU都能做到我剛才描述的所有事情。

最全總結！黃仁勛140分鐘演講看這三個問題就夠了；新品B300Ultra和Rubin期貨；CUDA庫成重頭戲、Groot成MVP-AI.x社區(qū) 圖片

一方面，模型廠商希望自家的token速率盡可能快，這樣就能制造出真正聰明的人工智能，而如果有了聰明的人工智能，人們會為其支付更多的錢。但另一方面，人工智能越聰明，你在從volume上就越難盈利。

最全總結！黃仁勛140分鐘演講看這三個問題就夠了；新品B300Ultra和Rubin期貨；CUDA庫成重頭戲、Groot成MVP-AI.x社區(qū) 圖片

在以Llama3和DeepSeek R1模型對比的演示中，后者輸出了20倍的token數量和150倍的計算性能。

最全總結！黃仁勛140分鐘演講看這三個問題就夠了；新品B300Ultra和Rubin期貨；CUDA庫成重頭戲、Groot成MVP-AI.x社區(qū) 圖片

黃仁勛還提出了一個重要的觀點，未來每一個數據中心都將是功率受限的，你的收入也將是功率受限的。你可以根據你擁有的功率來計算你的收入。基于這一點，你必須確保你擁有盡可能高效的計算架構。

最全總結！黃仁勛140分鐘演講看這三個問題就夠了；新品B300Ultra和Rubin期貨；CUDA庫成重頭戲、Groot成MVP-AI.x社區(qū) 圖片

所以，企業(yè)老板們實質上是要在最大吞吐量和人工智能的質量、最聰明的人工智能、最多的產出之間找到帕累托最優(yōu)。

黃仁勛指出，在等功率的情況下，Blackwell遠遠優(yōu)于Hopper。

“這不是等芯片，也不是等晶體管，而是等功率，這是終極的摩爾定律。我們能在一個數據中心中獲得的功耗是有限的，所以在等功率的情況下，Blackwell是Hopper的25倍，這太不可思議了，這就是有趣的部分。”

圖中右上方，可以看到有成千上萬的配置點，黃仁勛解釋道，這代表著我們可以將數據中心配置成不同的方式。我們可以并行化和分割工作，并以許多不同的方式分配工作，而我們找到了最優(yōu)化的答案，這就是帕累托前沿。每一種配置，因為顏色的不同，都顯示了不同的配置，這就是為什么這張圖片非常清楚地表明，你想要一個盡可能可編程的架構，盡可能同質化、可互換，因為工作負載在整個前沿的變化是如此劇烈。

Blackwell Ultra & Rubin 芯片

氣氛已經鋪墊足了，黃仁勛終于開始帶貨了！相信大家最為期待的還是新款GPU和芯片的發(fā)布。

“今年下半年，我們將輕松過渡到升級版。所以，我們有Blackwell Ultra Nv Link 72，它的浮點運算性能是原來的1.5倍，增加了新的注意力指令，內存增加了一半。所有這些內存都適用于像Kv緩存這樣的東西，網絡帶寬增加了兩倍。既然我們有了相同的架構，我們就可以順利地過渡到這個新版本，這被稱為Blackwell Ultra。”

至于為什么又不是現貨？

黃仁勛解釋道，建造AI工廠和AI基礎設施，這需要多年的規(guī)劃。“這可不是買筆記本電腦，這不是隨意的支出，這是我們必須提前規(guī)劃的支出。因此，我們必須提前規(guī)劃土地和電力供應，準備好我們的資本支出，組建工程團隊，并提前兩三年進行布局，這也是我提前兩三年向你們展示路線圖的原因。”

所以，我們計劃在未來幾年內推出多個產品。明年推出的產品是以一位天文學家的名字命名的，她的孫輩們今天也來到了現場，她的名字是Vera·Rubin（薇拉·魯賓），她發(fā)現了暗物質。

最全總結！黃仁勛140分鐘演講看這三個問題就夠了；新品B300Ultra和Rubin期貨；CUDA庫成重頭戲、Groot成MVP-AI.x社區(qū) 圖片

Vera·Rubin，因為它的CPU性能是上一代Grace的兩倍，內存更多，帶寬更大，而它卻只是一個小小的50瓦CPU，這真的很令人驚嘆。

Rubin主打一個全新。采用了全新的14??GB300、全新的網絡NV Link144、全新的內存HBM 4e。用老黃的話說，基本上除了機箱，其他一切都是全新的。

不過Rubin的發(fā)布，得明年下半年推出。

One more thing

正如往期大會，黃仁勛總是喜歡在演講最后用機器人壓軸。這一次老黃用GROOT N1來結束了這場演講，憨態(tài)可掬的步伐和表情，也賺足了現場的掌聲。

最全總結！黃仁勛140分鐘演講看這三個問題就夠了；新品B300Ultra和Rubin期貨；CUDA庫成重頭戲、Groot成MVP-AI.x社區(qū) 圖片

Isaac GR00T N1，號稱全球首個開源的、完全可定制的人形機器人基礎模型。它采用雙系統(tǒng)架構，靈感來自人類思考模式，包括快速思考的動作模型（System 1）和慢速思考的決策模型（System 2）。

據悉，GR00T N1 現已上市，是英偉達將預訓練并發(fā)布給全球機器人開發(fā)人員的一系列完全可定制模型中的第一個。Groot N1 是英偉達 Project Groot 的演進版本，該公司在去年的 GTC 大會上推出了該項目。Project Groot 面向工業(yè)用例，但 Groot N1 將重點擴大到各種不同外形的人形機器人。

最全總結！黃仁勛140分鐘演講看這三個問題就夠了；新品B300Ultra和Rubin期貨；CUDA庫成重頭戲、Groot成MVP-AI.x社區(qū) 圖片