老黃給H100“打雞血”：英偉達(dá)推出大模型加速包，Llama2推理速度翻倍

作者：克雷西 2023-09-11 12:58:00

人工智能新聞

英偉達(dá)科學(xué)家范麟熙(Jim Fan)轉(zhuǎn)發(fā)并評(píng)論稱(chēng)，英偉達(dá)的“另一項(xiàng)優(yōu)勢(shì)”就是可以最大化利用GPU性能的配套軟件。

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

大模型的推理速度，僅僅一個(gè)月就提高了一倍！

英偉達(dá)近日官宣給H100推出了“雞血包”——專(zhuān)用于LLM推理的加速程序。

或許這下可以不用空等明年才能交付的GH200了。

GPU的運(yùn)算能力一直影響著大模型的表現(xiàn)，無(wú)論是硬件提供者還是使用者都希望能算得更快些。

而作為大模型背后硬件的最大供應(yīng)商，英偉達(dá)一直在研究怎么給大模型硬件加速。

通過(guò)與多家AI公司合作，英偉達(dá)終于推出了大模型推理優(yōu)化程序TensorRT-LLM(暫且簡(jiǎn)稱(chēng)TensorRT)。

TensorRT不僅能讓大模型的推理速度翻番，使用起來(lái)也十分方便。

無(wú)需深入了解C++和CUDA，也能快速定制優(yōu)化策略，在H100上更快地跑大模型。

英偉達(dá)通過(guò)軟件給產(chǎn)品打雞血，仿佛在實(shí)踐老黃的那句“買(mǎi)的越多省的越多”，但這也并不妨礙有人嫌貴：

除了價(jià)格，也有網(wǎng)友對(duì)其運(yùn)行效果提出了質(zhì)疑：

我們總是看到(宣傳中的)多少倍的性能提升，但自己運(yùn)行Llama 2的時(shí)候每秒還是只能處理幾十個(gè)token。

到底是不是真的有效可能還需要繼續(xù)檢驗(yàn)，我們先來(lái)具體了解一下TensorRT。

大模型推理速度翻倍

TensorRT-LLM優(yōu)化之后的H100，跑大模型到底有多快呢？

英偉達(dá)的通告中給出了Llama 2和GPT-J-6B兩種模型的數(shù)據(jù)。

在優(yōu)化后的H100上，跑Llama 2的推理速度則是A100的4.6倍、八月份未優(yōu)化版H100的1.77倍。

而GPT-J-6B的推理速度是A100上的8倍、八月未優(yōu)化版的2倍。

TensorRT還提供了開(kāi)源的模塊化Python API，根據(jù)不同LLM的需求，可以快速定制優(yōu)化方案。

這個(gè)API將深度學(xué)習(xí)編譯器、內(nèi)核優(yōu)化、預(yù)/后處理和多節(jié)點(diǎn)通信功能集成到了一起。

其中針對(duì)GPT(2/3)、Llama等常見(jiàn)模型，還有已經(jīng)定制好的版本，可以“開(kāi)箱即用”。

通過(guò)TensorRT中最新的開(kāi)源AI內(nèi)核，開(kāi)發(fā)者還可以對(duì)模型自身進(jìn)行優(yōu)化，其中就包括了讓Transformer大大提速的注意力算法FlashAttention。

那么TensorRT又是如何對(duì)LLM推理速度進(jìn)行優(yōu)化的呢？

首先要得益于TensorRT對(duì)多節(jié)點(diǎn)協(xié)同工作方式進(jìn)行了優(yōu)化。

像Llama這樣龐大的模型，在單卡上是跑不起來(lái)的，需要多塊GPU一起跑才能帶動(dòng)。

過(guò)去，這一工作需要人們手工把模型拆開(kāi)來(lái)實(shí)現(xiàn)。

而有了TensorRT，系統(tǒng)可以自動(dòng)化地對(duì)模型進(jìn)行拆分，并通過(guò)NVLink在多GPU間高效運(yùn)行。

其次，TensorRT還利用了一種名為動(dòng)態(tài)批處理的優(yōu)化調(diào)度技術(shù)。

LLM在推理過(guò)程中，實(shí)際上是在多次執(zhí)行模型迭代。

動(dòng)態(tài)批處理技術(shù)會(huì)將已完成的序列立即踢出，而不是等待整批任務(wù)完成后再處理下一組請(qǐng)求。

實(shí)際測(cè)試中，動(dòng)態(tài)批處理將LLM的GPU請(qǐng)求吞吐量減少了一半，大大降低了運(yùn)行成本。

另一個(gè)關(guān)鍵點(diǎn)則是將16位精度浮點(diǎn)數(shù)轉(zhuǎn)換為8位精度，從而降低內(nèi)存消耗。

FP8與訓(xùn)練階段的FP16相比消耗的資源更低，同時(shí)精確度又高于INT-8，在提高性能的同時(shí)不影響模型的準(zhǔn)確性。

通過(guò)Hopper Transformer引擎，F(xiàn)P16到FP8的轉(zhuǎn)化編譯由系統(tǒng)自動(dòng)完成，無(wú)需人工對(duì)模型中的任何代碼進(jìn)行修改。

目前，TensorRT-LLM的早鳥(niǎo)版已經(jīng)可以下載，正式版將于幾周內(nèi)推出并集成到NeMo框架中。

One More Thing

每當(dāng)大事件出現(xiàn)，總少不了“列文虎克”的身影。

英偉達(dá)的公告中提到了“在與Meta等AI頭部公司合作”，但沒(méi)有提及OpenAI。

從這則通告中，就有網(wǎng)友發(fā)現(xiàn)了這個(gè)華點(diǎn)，并發(fā)到了OpenAI論壇上：

讓我康康是誰(shuí)沒(méi)被老黃cue到（手動(dòng)狗頭）

你還期待老黃帶給我們什么樣的“驚喜”呢？

責(zé)任編輯：張燕妮來(lái)源：量子位

AI 訓(xùn)練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

老黃給H100“打雞血”：英偉達(dá)推出大模型加速包，Llama2推理速度翻倍

大模型推理速度翻倍

One More Thing