成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

老黃給H100“打雞血”:英偉達(dá)推出大模型加速包,Llama2推理速度翻倍

人工智能 新聞
英偉達(dá)科學(xué)家范麟熙(Jim Fan)轉(zhuǎn)發(fā)并評(píng)論稱(chēng),英偉達(dá)的“另一項(xiàng)優(yōu)勢(shì)”就是可以最大化利用GPU性能的配套軟件。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

大模型的推理速度,僅僅一個(gè)月就提高了一倍!

英偉達(dá)近日官宣給H100推出了“雞血包”——專(zhuān)用于LLM推理的加速程序。

或許這下可以不用空等明年才能交付的GH200了圖片

圖片

GPU的運(yùn)算能力一直影響著大模型的表現(xiàn),無(wú)論是硬件提供者還是使用者都希望能算得更快些。

而作為大模型背后硬件的最大供應(yīng)商,英偉達(dá)一直在研究怎么給大模型硬件加速。

通過(guò)與多家AI公司合作,英偉達(dá)終于推出了大模型推理優(yōu)化程序TensorRT-LLM(暫且簡(jiǎn)稱(chēng)TensorRT)。

TensorRT不僅能讓大模型的推理速度翻番,使用起來(lái)也十分方便。

無(wú)需深入了解C++和CUDA,也能快速定制優(yōu)化策略,在H100上更快地跑大模型。

英偉達(dá)科學(xué)家范麟熙(Jim Fan)轉(zhuǎn)發(fā)并評(píng)論稱(chēng),英偉達(dá)的“另一項(xiàng)優(yōu)勢(shì)”就是可以最大化利用GPU性能的配套軟件。

圖片

英偉達(dá)通過(guò)軟件給產(chǎn)品打雞血,仿佛在實(shí)踐老黃的那句“買(mǎi)的越多省的越多”,但這也并不妨礙有人嫌貴:

圖片

除了價(jià)格,也有網(wǎng)友對(duì)其運(yùn)行效果提出了質(zhì)疑:

我們總是看到(宣傳中的)多少倍的性能提升,但自己運(yùn)行Llama 2的時(shí)候每秒還是只能處理幾十個(gè)token。

圖片

到底是不是真的有效可能還需要繼續(xù)檢驗(yàn),我們先來(lái)具體了解一下TensorRT。

大模型推理速度翻倍

TensorRT-LLM優(yōu)化之后的H100,跑大模型到底有多快呢?

英偉達(dá)的通告中給出了Llama 2和GPT-J-6B兩種模型的數(shù)據(jù)。

在優(yōu)化后的H100上,跑Llama 2的推理速度則是A100的4.6倍、八月份未優(yōu)化版H100的1.77倍。

圖片

而GPT-J-6B的推理速度是A100上的8倍、八月未優(yōu)化版的2倍

圖片

TensorRT還提供了開(kāi)源的模塊化Python API,根據(jù)不同LLM的需求,可以快速定制優(yōu)化方案。

這個(gè)API將深度學(xué)習(xí)編譯器、內(nèi)核優(yōu)化、預(yù)/后處理和多節(jié)點(diǎn)通信功能集成到了一起。

其中針對(duì)GPT(2/3)、Llama等常見(jiàn)模型,還有已經(jīng)定制好的版本,可以“開(kāi)箱即用”

通過(guò)TensorRT中最新的開(kāi)源AI內(nèi)核,開(kāi)發(fā)者還可以對(duì)模型自身進(jìn)行優(yōu)化,其中就包括了讓Transformer大大提速的注意力算法FlashAttention。

那么TensorRT又是如何對(duì)LLM推理速度進(jìn)行優(yōu)化的呢?

首先要得益于TensorRT對(duì)多節(jié)點(diǎn)協(xié)同工作方式進(jìn)行了優(yōu)化

像Llama這樣龐大的模型,在單卡上是跑不起來(lái)的,需要多塊GPU一起跑才能帶動(dòng)。

過(guò)去,這一工作需要人們手工把模型拆開(kāi)來(lái)實(shí)現(xiàn)。

而有了TensorRT,系統(tǒng)可以自動(dòng)化地對(duì)模型進(jìn)行拆分,并通過(guò)NVLink在多GPU間高效運(yùn)行。

圖片

其次,TensorRT還利用了一種名為動(dòng)態(tài)批處理的優(yōu)化調(diào)度技術(shù)。

LLM在推理過(guò)程中,實(shí)際上是在多次執(zhí)行模型迭代。

動(dòng)態(tài)批處理技術(shù)會(huì)將已完成的序列立即踢出,而不是等待整批任務(wù)完成后再處理下一組請(qǐng)求。

實(shí)際測(cè)試中,動(dòng)態(tài)批處理將LLM的GPU請(qǐng)求吞吐量減少了一半,大大降低了運(yùn)行成本。

另一個(gè)關(guān)鍵點(diǎn)則是將16位精度浮點(diǎn)數(shù)轉(zhuǎn)換為8位精度,從而降低內(nèi)存消耗。

FP8與訓(xùn)練階段的FP16相比消耗的資源更低,同時(shí)精確度又高于INT-8,在提高性能的同時(shí)不影響模型的準(zhǔn)確性。

通過(guò)Hopper Transformer引擎,F(xiàn)P16到FP8的轉(zhuǎn)化編譯由系統(tǒng)自動(dòng)完成,無(wú)需人工對(duì)模型中的任何代碼進(jìn)行修改。

目前,TensorRT-LLM的早鳥(niǎo)版已經(jīng)可以下載,正式版將于幾周內(nèi)推出并集成到NeMo框架中。

One More Thing

每當(dāng)大事件出現(xiàn),總少不了“列文虎克”的身影。

英偉達(dá)的公告中提到了“在與Meta等AI頭部公司合作”,但沒(méi)有提及OpenAI。

從這則通告中,就有網(wǎng)友發(fā)現(xiàn)了這個(gè)華點(diǎn),并發(fā)到了OpenAI論壇上:

讓我康康是誰(shuí)沒(méi)被老黃cue到(手動(dòng)狗頭)

圖片

你還期待老黃帶給我們什么樣的“驚喜”呢?

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-07-29 07:46:00

英偉達(dá)模型

2023-06-14 12:08:51

2023-03-22 10:09:26

AIChatGPT

2023-08-13 07:44:18

GPU模型英偉達(dá)

2023-09-14 13:23:00

AI芯片

2023-08-14 08:07:46

ChatGPTAI

2023-09-10 12:37:38

模型英偉達(dá)

2023-09-18 12:50:16

訓(xùn)練數(shù)據(jù)

2024-08-28 13:34:13

2023-11-21 09:14:33

微軟Azure AI

2023-11-14 08:59:25

英偉達(dá)AI

2023-08-21 10:36:23

2024-09-05 14:10:00

AI計(jì)算

2024-03-14 14:49:34

Meta人工智能

2022-06-01 16:47:53

AI模型開(kāi)源

2023-09-04 12:58:05

2025-04-22 09:47:07

2025-05-07 10:12:52

英偉達(dá)模型AI

2025-03-19 09:38:58

2024-01-19 12:34:39

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 中文字幕亚洲欧美日韩在线不卡 | 欧美中文字幕一区二区 | 在线播放中文字幕 | 欧美日韩在线一区二区三区 | 亚洲视频在线看 | av中文字幕在线观看 | 久产久精国产品 | 国产一区二区不卡 | 成年人在线视频 | 亚洲午夜精品一区二区三区 | 精品国产一区二区三区久久久蜜月 | 国产草草视频 | 秋霞在线一区 | 一区二区三区四区在线 | 高清久久 | 日韩国产免费观看 | 亚洲视频中文字幕 | 亚洲高清在线观看 | 在线中文字幕亚洲 | 午夜丰满少妇一级毛片 | 免费久 | 黄色片大全在线观看 | 久久久久精 | 国产一区二区日韩 | www久久久| 欧美一级免费看 | 亚洲精品一区中文字幕乱码 | 狠狠做六月爱婷婷综合aⅴ 国产精品视频网 | 91丨九色丨国产在线 | 国产精品免费看 | 日韩av在线一区二区 | 国产精品自产av一区二区三区 | 成人做爰www免费看 午夜精品久久久久久久久久久久 | av大片| 日韩一区和二区 | 亚洲成人99 | 日韩亚洲一区二区 | 久久久国产一区二区三区四区小说 | 91精品国产美女在线观看 | 颜色网站在线观看 | www97影院|