老黃深夜炸場，AIGC進入iPhone時刻！Hugging Face接入最強超算，神秘顯卡勝過A100

作者：新智元 2023-08-09 09:36:48

人工智能新聞

昨天深夜，重返SIGGRAPH舞臺的老黃，再次給全世界帶來了「億點點」震撼。在這個LLM大爆炸的時代，老黃依然敢大膽放話：「買得越多，省得越多！」

生成式AI的時代已經(jīng)來臨，屬于它的iPhone時刻到了！

就在8月8日，英偉達CEO黃仁勛，再次登上了世界頂級計算機圖形學會議SIGGRAPH的舞臺。

一系列重磅更新接踵而至——下一代GH200超級芯片平臺、AI Workbench、OpenUSD……

而英偉達也借此將過去數(shù)十年的所有創(chuàng)新，比如人工智能、虛擬世界、加速、模擬、協(xié)作等等，一舉融合到一起。

在這個LLM大爆炸的時代，老黃依然敢大膽放話：「買得越多，省得越多！」

英偉達最強AI超算再升級

在5年前的SIGGRAPH上，英偉達通過將人工智能和實時光線追蹤技術引入GPU，重新定義了計算機圖形學。

老黃表示：「當我們通過AI重新定義計算機圖形學時，我們也在為AI重新定義GPU。」

隨之而來的，便是日益強大的計算系統(tǒng)。比如，集成了8個GPU并擁有1萬億個晶體管的NVIDIA HGX H100。

就在今天，老黃再次讓AI計算上了一個臺階——

除了為NVIDIA GH200 Grace Hopper配備更加先進的HBM3e內(nèi)存外，下一代GH200超級芯片平臺還將具有連接多個GPU的能力，從而實現(xiàn)卓越的性能和易于擴展的服務器設計。

而這個擁有多種配置的全新平臺，將能夠處理世界上最復雜的生成式工作負載，包括大語言模型、推薦系統(tǒng)和向量數(shù)據(jù)庫等等。

比如，雙核心方案就包括一臺配備了144個Arm Neoverse核心并搭載了282GB HBM3e內(nèi)存的服務器，可以提供8 petaflops的AI算力。

其中，全新的HBM3e內(nèi)存要比當前的HBM3快了50%。而10TB/sec的組合帶寬，也使得新平臺可以運行比上一版本大3.5倍的模型，同時通過3倍更快的內(nèi)存帶寬提高性能。

據(jù)悉，該產(chǎn)品預計將在2024年第二季度推出。

RTX工作站：絕佳刀法，4款顯卡齊上新

這次老黃的桌面AI工作站GPU系列也全面上新，一口氣推出了4款新品：RTX 6000、RTX 5000、RTX 4500和RTX 4000。

如果H100以及配套的產(chǎn)品線展示的是英偉達GPU性能的天際線的話，針對桌面和數(shù)據(jù)中心推出的這幾款產(chǎn)品，則是老黃對成本敏感客戶秀出的絕佳「刀法」。

在發(fā)布這新GPU的時候，現(xiàn)場還出現(xiàn)了一個意外的小花絮。

老黃從后臺拿出第一塊GPU的時候，似乎不小心在鏡面面板上沾了指紋。

老黃發(fā)現(xiàn)后覺得可能是自己搞砸了，就很不好意思地和現(xiàn)場觀眾說對不起，表示這次產(chǎn)品發(fā)布可能是有史以來最差的一次。

看來就算開發(fā)布會熟練如老黃，也會有翻車的時刻。

而如此可愛的老黃，也惹得在場觀眾不斷發(fā)笑。

言歸正傳，作為旗艦級專業(yè)卡，RTX 6000的性能參數(shù)毫無疑問是4款新品中最強的。

憑借著48GB的顯存，18176個CUDA核心，568個Tensor核心，142個RT核心，和高達960GB/s的帶寬，它可謂是一騎絕塵。

RTX 5000配備了32GB顯存，12800個CUDA核心，400個Tensor核心，100個RT核心。

RTX 4500配備了24GB顯存，7680個CUDA核心，240個Tensor核心，60個RT核心。

RTX 4000配備了20GB顯存，6144個CUDA核心，192個Tensor核心，48個RT核心。

基于新發(fā)布的4張新的GPU，針對企業(yè)客戶，老黃還準備一套一站式解決方案—— RTX Workstation。

支持最多4張RTX 6000 GPU，可以在15小時內(nèi)完成8.6億token的GPT3-40B的微調(diào)。

還能讓Stable Diffusion XL每分鐘生成40張圖片，比4090快5倍。

OVX服務器：搭載L40S，性能小勝A100

而專為搭建數(shù)據(jù)中心而設計的NVIDIA L40S GPU，性能就更加爆炸了。

基于Ada Lovelace架構(gòu)的L40S，配備有48GB的GDDR6顯存和846GB/s的帶寬。

在第四代Tensor核心和FP8 Transformer引擎的加持下，可以提供超過1.45 petaflops的張量處理能力。

對于算力要求較高的任務，L40S的18,176個CUDA核心可以提供近5倍于A100的單精度浮點（FP32）性能，從而加速復雜計算和數(shù)據(jù)密集型分析。

此外，為了支持如實時渲染、產(chǎn)品設計和3D內(nèi)容創(chuàng)建等專業(yè)視覺處理工作，英偉達還為L40S 還配備了142個第三代RT核心，可以提供212 teraflops的光線追蹤性能。

對于具有數(shù)十億參數(shù)和多種模態(tài)的生成式AI工作負載，L40S相較于老前輩A100可實現(xiàn)高達1.2倍的推理性能提升，以及高達1.7倍的訓練性能提升。

在L40S GPU的加持下，老黃又針對數(shù)據(jù)中心市場，推出了最多可搭載8張L40S的OVX服務器。

對于擁有8.6億token的GPT3-40B模型，OVX服務器只需7個小時就能完成微調(diào)。

對于Stable Diffusion XL模型，則可實現(xiàn)每分鐘80張的圖像生成。

AI Workbench：加速定制生成式AI應用

除了各種強大的硬件之外，老黃還重磅發(fā)布了全新的NVIDIA AI Workbench，來幫助開發(fā)和部署生成式AI模型。

概括來說，AI Workbench為開發(fā)者提供了一個統(tǒng)一且易于使用的工具包，能夠快速在PC或工作站上創(chuàng)建、測試和微調(diào)模型，并無縫擴展到幾乎任何數(shù)據(jù)中心、公有云或NVIDIA DGX Cloud上。

具體而言，AI Workbench的優(yōu)勢如下：

- 易于使用

AI Workbench通過提供一個單一的平臺來管理數(shù)據(jù)、模型和計算資源，簡化了開發(fā)過程，支持跨機器和環(huán)境的協(xié)作。

- 集成AI開發(fā)工具和存儲庫

AI Workbench與GitHub、NVIDIA NGC、Hugging Face等服務集成，開發(fā)者可以使用JupyterLab和VS Code等工具，并在不同平臺和基礎設施上進行開發(fā)。

- 增強協(xié)作

AI Workbench采用的是以項目為中心的架構(gòu)，便于開發(fā)者進行自動化版本控制、容器管理和處理機密信息等復雜任務，同時也可以支持團隊之間的協(xié)作。

- 訪問加速計算資源

AI Workbench部署采用客戶端-服務器模式。團隊可以現(xiàn)在在本地計算資源上進行開發(fā)，然后在訓練任務變得更大時切換到數(shù)據(jù)中心或云資源上。

Stable Diffusion XL自定義圖像生成

首先，打開AI Workbench并克隆一個存儲庫。

接下來，在Jupyter Notebook中，從Hugging Face加載預訓練的Stable Diffusion XL模型，并要求它生成一個「太空中的Toy Jensen」。

然而，根據(jù)輸出的圖像可以看出，模型并不知道Toy Jensen是誰。

這時就可以通過DreamBooth，并使用8張Toy Jensen的圖片對模型進行微調(diào)。

最后，在用戶界面上重新運行推理。

現(xiàn)在，知道了Toy Jensen是誰的模型，就可以生成切合需求的圖像了。

Hugging Face一鍵訪問最強算力

作為最受AI開發(fā)者喜愛的平臺之一，擁有200萬用戶、超25萬個模型，以及5萬個數(shù)據(jù)集的Hugging Face，這次也與英偉達成功達成了合作。

現(xiàn)在，開發(fā)者可以通過Hugging Face平臺直接獲得英偉達DGX Cloud AI超算的加持，從而更加高效地完成AI模型的訓練和微調(diào)。

其中，每個DGX Cloud實例都配備有8個H100或A100 80GB GPU，每個節(jié)點共有640GB顯存，可滿足頂級AI工作負載的性能要求。

此外，英偉達還將聯(lián)合Hugging Face推出全新的「Training Cluster as a Service」服務，簡化企業(yè)創(chuàng)建和定制生成式AI模型的過程。

對此，老黃激動得表示：「這次，Hugging Face和英偉達將世界上最大的AI社區(qū)與全球領先的云AI計算平臺真正地連接在了一起。Hugging Face的用戶只需點擊一下，即可訪問英偉達的最強AI算力。」

AI Enterprise 4.0：定制企業(yè)級生成式AI

為了進一步加速生成式AI的應用，英偉達也將其企業(yè)級平臺NVIDIA AI Enterprise升級到了4.0版本。

目前，AI Enterprise 4.0不僅可以為企業(yè)提供生成式AI所需的工具，同時還提供了生產(chǎn)部署所需的安全性和API穩(wěn)定性。

- NVIDIA NeMo

一個用于構(gòu)建、定制和部署大語言模型的云原生框架。借助NeMo，英偉達AI Enterprise可以為創(chuàng)建和定制大語言模型應用提供了端到端的支持。

- NVIDIA Triton管理服務

幫助企業(yè)進行自動化和優(yōu)化生產(chǎn)部署，使其在Kubernetes中能夠自動部署多個推理服務器實例，并通過模型協(xié)調(diào)實現(xiàn)可擴展A 的高效運行。

- NVIDIA Base Command Manager Essentials集群管理軟件

幫助企業(yè)在數(shù)據(jù)中心、多云和混合云環(huán)境中最大化AI服務器的性能和利用率。

除了英偉達自己，AI Enterprise 4.0還將集成到給其他的合作伙伴，比如Google Cloud和Microsoft Azure等。

此外，MLOps提供商，包括Azure Machine Learning、ClearML、Domino Data Lab、Run:AI和Weights & Biases，也將與英偉達AI平臺進行無縫集成，從而簡化生成式AI模型的開發(fā)。

Omniverse：在元宇宙中加入大語言模型

最后，是NVIDIA Omniverse平臺的更新。

在接入了OpenUSD和AIGC工具之后，開發(fā)者可以更加輕松地生成模擬真實世界的3D場景和圖形。

圖片

就像它的名字一樣，Omniverse的定位是一個集合了各種工具的3D圖形制作協(xié)作平臺。

圖片

3D開發(fā)者可以像文字編輯們在飛書或者釘釘中一樣，在Omniverse上共同制作3D圖形和場景。

而且可以將不同的3D制作工具制作出來的成果直接整合在Omniverse之內(nèi)，將3D圖形和場景的制作工作流徹底打通，化繁為簡。

OpenUSD

而這次更新中，接入的OpenUSD是什么東西？

OpenUSD（Universal Scene Description）提供了一個開源，通用的場景描述格式，使不同品牌、不同類型的3D設計軟件可以無障礙的協(xié)作。

Omnivers本身就是建立在USD體系之上的，這次Omniverse針對OpenUSD的升級，使得Omniverse能為開發(fā)者，企業(yè)推出了更多的框架和資源服務。

基于OpenUSD這個開源的3D圖像編輯格式，5家公司（蘋果，皮克斯，Adobe，Autodesk，英偉達）成立了AOUSD聯(lián)盟，進一步推動了3D圖像業(yè)界采用OpenUSD格式。

而且，借助AOUSD聯(lián)盟的成立，Omniverse的開發(fā)者也可以方便的創(chuàng)建各種兼容于蘋果的ARKit或者是RealityKit的素材和內(nèi)容，更新后Omniverse也支持OpenXR的標準，使得Omniverse能夠支持HTC VIVE，Magic Leap，Vajio等VR頭顯設備。

API，ChatUSD和其他更新

此外，英偉達還發(fā)布了新的Omniverse Cloud API，讓開發(fā)者可以更加無縫地部署OpenUSD管線和應用程序。

而最引人矚目的，就是支持基于大語言模型的ChatUSD的支持。

基于大語言模型技術的ChatUSD能像Github Copilot一樣，在Omniverse平臺中回答開發(fā)者的相關問題，或者自動生成Python-USD的代碼，讓開發(fā)人員效率暴增。

總而言之，英偉達再次用暴力的產(chǎn)品，令人驚嘆的技術，高瞻遠矚的洞見，讓全世界再次看到，它未來將如何引領世界AI和圖形計算的新浪潮。

在老黃的經(jīng)典名言「the more you buy，the more you save！」中，老黃緩緩走下舞臺，卻把現(xiàn)場氣氛推向了最高潮。

責任編輯：張燕妮來源：新智元

英偉達技術

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看