老黃深夜炸場,AIGC進入iPhone時刻!Hugging Face接入最強超算,神秘顯卡勝過A100
生成式AI的時代已經(jīng)來臨,屬于它的iPhone時刻到了!
就在8月8日,英偉達CEO黃仁勛,再次登上了世界頂級計算機圖形學會議SIGGRAPH的舞臺。
一系列重磅更新接踵而至——下一代GH200超級芯片平臺、AI Workbench、OpenUSD……
而英偉達也借此將過去數(shù)十年的所有創(chuàng)新,比如人工智能、虛擬世界、加速、模擬、協(xié)作等等,一舉融合到一起。
在這個LLM大爆炸的時代,老黃依然敢大膽放話:「買得越多,省得越多!」
英偉達最強AI超算再升級
在5年前的SIGGRAPH上,英偉達通過將人工智能和實時光線追蹤技術引入GPU,重新定義了計算機圖形學。
老黃表示:「當我們通過AI重新定義計算機圖形學時,我們也在為AI重新定義GPU。」
隨之而來的,便是日益強大的計算系統(tǒng)。比如,集成了8個GPU并擁有1萬億個晶體管的NVIDIA HGX H100。
就在今天,老黃再次讓AI計算上了一個臺階——
除了為NVIDIA GH200 Grace Hopper配備更加先進的HBM3e內(nèi)存外,下一代GH200超級芯片平臺還將具有連接多個GPU的能力,從而實現(xiàn)卓越的性能和易于擴展的服務器設計。
而這個擁有多種配置的全新平臺,將能夠處理世界上最復雜的生成式工作負載,包括大語言模型、推薦系統(tǒng)和向量數(shù)據(jù)庫等等。
比如,雙核心方案就包括一臺配備了144個Arm Neoverse核心并搭載了282GB HBM3e內(nèi)存的服務器,可以提供8 petaflops的AI算力。
其中,全新的HBM3e內(nèi)存要比當前的HBM3快了50%。而10TB/sec的組合帶寬,也使得新平臺可以運行比上一版本大3.5倍的模型,同時通過3倍更快的內(nèi)存帶寬提高性能。
據(jù)悉,該產(chǎn)品預計將在2024年第二季度推出。
RTX工作站:絕佳刀法,4款顯卡齊上新
這次老黃的桌面AI工作站GPU系列也全面上新,一口氣推出了4款新品:RTX 6000、RTX 5000、RTX 4500和RTX 4000。
如果H100以及配套的產(chǎn)品線展示的是英偉達GPU性能的天際線的話,針對桌面和數(shù)據(jù)中心推出的這幾款產(chǎn)品,則是老黃對成本敏感客戶秀出的絕佳「刀法」。
在發(fā)布這新GPU的時候,現(xiàn)場還出現(xiàn)了一個意外的小花絮。
老黃從后臺拿出第一塊GPU的時候,似乎不小心在鏡面面板上沾了指紋。
老黃發(fā)現(xiàn)后覺得可能是自己搞砸了,就很不好意思地和現(xiàn)場觀眾說對不起,表示這次產(chǎn)品發(fā)布可能是有史以來最差的一次。
看來就算開發(fā)布會熟練如老黃,也會有翻車的時刻。
而如此可愛的老黃,也惹得在場觀眾不斷發(fā)笑。
言歸正傳,作為旗艦級專業(yè)卡,RTX 6000的性能參數(shù)毫無疑問是4款新品中最強的。
憑借著48GB的顯存,18176個CUDA核心,568個Tensor核心,142個RT核心,和高達960GB/s的帶寬,它可謂是一騎絕塵。
RTX 5000配備了32GB顯存,12800個CUDA核心,400個Tensor核心,100個RT核心。
RTX 4500配備了24GB顯存,7680個CUDA核心,240個Tensor核心,60個RT核心。
RTX 4000配備了20GB顯存,6144個CUDA核心,192個Tensor核心,48個RT核心。
基于新發(fā)布的4張新的GPU,針對企業(yè)客戶,老黃還準備一套一站式解決方案—— RTX Workstation。
支持最多4張RTX 6000 GPU,可以在15小時內(nèi)完成8.6億token的GPT3-40B的微調(diào)。
還能讓Stable Diffusion XL每分鐘生成40張圖片,比4090快5倍。
OVX服務器:搭載L40S,性能小勝A100
而專為搭建數(shù)據(jù)中心而設計的NVIDIA L40S GPU,性能就更加爆炸了。
基于Ada Lovelace架構(gòu)的L40S,配備有48GB的GDDR6顯存和846GB/s的帶寬。
在第四代Tensor核心和FP8 Transformer引擎的加持下,可以提供超過1.45 petaflops的張量處理能力。
對于算力要求較高的任務,L40S的18,176個CUDA核心可以提供近5倍于A100的單精度浮點(FP32)性能,從而加速復雜計算和數(shù)據(jù)密集型分析。
此外,為了支持如實時渲染、產(chǎn)品設計和3D內(nèi)容創(chuàng)建等專業(yè)視覺處理工作,英偉達還為L40S 還配備了142個第三代RT核心,可以提供212 teraflops的光線追蹤性能。
對于具有數(shù)十億參數(shù)和多種模態(tài)的生成式AI工作負載,L40S相較于老前輩A100可實現(xiàn)高達1.2倍的推理性能提升,以及高達1.7倍的訓練性能提升。
在L40S GPU的加持下,老黃又針對數(shù)據(jù)中心市場,推出了最多可搭載8張L40S的OVX服務器。
對于擁有8.6億token的GPT3-40B模型,OVX服務器只需7個小時就能完成微調(diào)。
對于Stable Diffusion XL模型,則可實現(xiàn)每分鐘80張的圖像生成。
AI Workbench:加速定制生成式AI應用
除了各種強大的硬件之外,老黃還重磅發(fā)布了全新的NVIDIA AI Workbench,來幫助開發(fā)和部署生成式AI模型。
概括來說,AI Workbench為開發(fā)者提供了一個統(tǒng)一且易于使用的工具包,能夠快速在PC或工作站上創(chuàng)建、測試和微調(diào)模型,并無縫擴展到幾乎任何數(shù)據(jù)中心、公有云或NVIDIA DGX Cloud上。
具體而言,AI Workbench的優(yōu)勢如下:
- 易于使用
AI Workbench通過提供一個單一的平臺來管理數(shù)據(jù)、模型和計算資源,簡化了開發(fā)過程,支持跨機器和環(huán)境的協(xié)作。
- 集成AI開發(fā)工具和存儲庫
AI Workbench與GitHub、NVIDIA NGC、Hugging Face等服務集成,開發(fā)者可以使用JupyterLab和VS Code等工具,并在不同平臺和基礎設施上進行開發(fā)。
- 增強協(xié)作
AI Workbench采用的是以項目為中心的架構(gòu),便于開發(fā)者進行自動化版本控制、容器管理和處理機密信息等復雜任務,同時也可以支持團隊之間的協(xié)作。
- 訪問加速計算資源
AI Workbench部署采用客戶端-服務器模式。團隊可以現(xiàn)在在本地計算資源上進行開發(fā),然后在訓練任務變得更大時切換到數(shù)據(jù)中心或云資源上。
Stable Diffusion XL自定義圖像生成
首先,打開AI Workbench并克隆一個存儲庫。
接下來,在Jupyter Notebook中,從Hugging Face加載預訓練的Stable Diffusion XL模型,并要求它生成一個「太空中的Toy Jensen」。
然而,根據(jù)輸出的圖像可以看出,模型并不知道Toy Jensen是誰。
這時就可以通過DreamBooth,并使用8張Toy Jensen的圖片對模型進行微調(diào)。
最后,在用戶界面上重新運行推理。
現(xiàn)在,知道了Toy Jensen是誰的模型,就可以生成切合需求的圖像了。
Hugging Face一鍵訪問最強算力
作為最受AI開發(fā)者喜愛的平臺之一,擁有200萬用戶、超25萬個模型,以及5萬個數(shù)據(jù)集的Hugging Face,這次也與英偉達成功達成了合作。
現(xiàn)在,開發(fā)者可以通過Hugging Face平臺直接獲得英偉達DGX Cloud AI超算的加持,從而更加高效地完成AI模型的訓練和微調(diào)。
其中,每個DGX Cloud實例都配備有8個H100或A100 80GB GPU,每個節(jié)點共有640GB顯存,可滿足頂級AI工作負載的性能要求。
此外,英偉達還將聯(lián)合Hugging Face推出全新的「Training Cluster as a Service」服務,簡化企業(yè)創(chuàng)建和定制生成式AI模型的過程。
對此,老黃激動得表示:「這次,Hugging Face和英偉達將世界上最大的AI社區(qū)與全球領先的云AI計算平臺真正地連接在了一起。Hugging Face的用戶只需點擊一下,即可訪問英偉達的最強AI算力。」
AI Enterprise 4.0:定制企業(yè)級生成式AI
為了進一步加速生成式AI的應用,英偉達也將其企業(yè)級平臺NVIDIA AI Enterprise升級到了4.0版本。
目前,AI Enterprise 4.0不僅可以為企業(yè)提供生成式AI所需的工具,同時還提供了生產(chǎn)部署所需的安全性和API穩(wěn)定性。
- NVIDIA NeMo
一個用于構(gòu)建、定制和部署大語言模型的云原生框架。借助NeMo,英偉達AI Enterprise可以為創(chuàng)建和定制大語言模型應用提供了端到端的支持。
- NVIDIA Triton管理服務
幫助企業(yè)進行自動化和優(yōu)化生產(chǎn)部署,使其在Kubernetes中能夠自動部署多個推理服務器實例,并通過模型協(xié)調(diào)實現(xiàn)可擴展A 的高效運行。
- NVIDIA Base Command Manager Essentials集群管理軟件
幫助企業(yè)在數(shù)據(jù)中心、多云和混合云環(huán)境中最大化AI服務器的性能和利用率。
除了英偉達自己,AI Enterprise 4.0還將集成到給其他的合作伙伴,比如Google Cloud和Microsoft Azure等。
此外,MLOps提供商,包括Azure Machine Learning、ClearML、Domino Data Lab、Run:AI和Weights & Biases,也將與英偉達AI平臺進行無縫集成,從而簡化生成式AI模型的開發(fā)。
Omniverse:在元宇宙中加入大語言模型
最后,是NVIDIA Omniverse平臺的更新。
在接入了OpenUSD和AIGC工具之后,開發(fā)者可以更加輕松地生成模擬真實世界的3D場景和圖形。
圖片
就像它的名字一樣,Omniverse的定位是一個集合了各種工具的3D圖形制作協(xié)作平臺。
圖片
3D開發(fā)者可以像文字編輯們在飛書或者釘釘中一樣,在Omniverse上共同制作3D圖形和場景。
而且可以將不同的3D制作工具制作出來的成果直接整合在Omniverse之內(nèi),將3D圖形和場景的制作工作流徹底打通,化繁為簡。
OpenUSD
而這次更新中,接入的OpenUSD是什么東西?
OpenUSD(Universal Scene Description)提供了一個開源,通用的場景描述格式,使不同品牌、不同類型的3D設計軟件可以無障礙的協(xié)作。
Omnivers本身就是建立在USD體系之上的,這次Omniverse針對OpenUSD的升級,使得Omniverse能為開發(fā)者,企業(yè)推出了更多的框架和資源服務。
基于OpenUSD這個開源的3D圖像編輯格式,5家公司(蘋果,皮克斯,Adobe,Autodesk,英偉達)成立了AOUSD聯(lián)盟,進一步推動了3D圖像業(yè)界采用OpenUSD格式。
而且,借助AOUSD聯(lián)盟的成立,Omniverse的開發(fā)者也可以方便的創(chuàng)建各種兼容于蘋果的ARKit或者是RealityKit的素材和內(nèi)容,更新后Omniverse也支持OpenXR的標準,使得Omniverse能夠支持HTC VIVE,Magic Leap,Vajio等VR頭顯設備。
API,ChatUSD和其他更新
此外,英偉達還發(fā)布了新的Omniverse Cloud API,讓開發(fā)者可以更加無縫地部署OpenUSD管線和應用程序。
而最引人矚目的,就是支持基于大語言模型的ChatUSD的支持。
基于大語言模型技術的ChatUSD能像Github Copilot一樣,在Omniverse平臺中回答開發(fā)者的相關問題,或者自動生成Python-USD的代碼,讓開發(fā)人員效率暴增。
總而言之,英偉達再次用暴力的產(chǎn)品,令人驚嘆的技術,高瞻遠矚的洞見,讓全世界再次看到,它未來將如何引領世界AI和圖形計算的新浪潮。
在老黃的經(jīng)典名言「the more you buy,the more you save!」中,老黃緩緩走下舞臺,卻把現(xiàn)場氣氛推向了最高潮。