成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

讓Transformer的推理速度提高4.5倍,這個(gè)trick還能給你省十幾萬(wàn)

新聞 人工智能
最近,NLP明星公司Hugging Face發(fā)布了一個(gè)叫做Infinity的產(chǎn)品,可以以1ms延時(shí)完成Transformer的推理,性能相當(dāng)高了。

 [[443226]]

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

最近,NLP明星公司Hugging Face發(fā)布了一個(gè)叫做Infinity的產(chǎn)品,可以以1ms延時(shí)完成Transformer的推理,性能相當(dāng)高了。

讓Transformer的推理速度提高4.5倍,這個(gè)trick還能給你省十幾萬(wàn)

但是,厲害歸厲害,還是有點(diǎn)貴——1年至少要十幾萬(wàn)塊 (2萬(wàn)美元)。

那有沒有什么平替的方法呢?

有的!還是開源的、“不費(fèi)吹灰之力”就可以達(dá)到Infinity一些公共基準(zhǔn)的那種。

讓Transformer的推理速度提高4.5倍,這個(gè)trick還能給你省十幾萬(wàn)

并且現(xiàn)在,通過在該方法上施加一個(gè)小trick,將Transformer的推理速度提高4.5倍!

讓Transformer的推理速度提高4.5倍,這個(gè)trick還能給你省十幾萬(wàn)

△ 帖子發(fā)布不到一天就收獲了250+熱度

那么,一個(gè)“平替”到底為什么能達(dá)到“付費(fèi)”的效果呢?

一個(gè)trick讓Transformer推理速度提高4.5倍

先來認(rèn)識(shí)一下這個(gè)方法:Transformer-deploy。

讓Transformer的推理速度提高4.5倍,這個(gè)trick還能給你省十幾萬(wàn)

它可以用一行命令優(yōu)化和部署Hugging Face上的Transformer模型,并支持大多數(shù)基于Transformer編碼器的模型,比如Bert、Roberta、miniLM、Camembert、Albert、XLM-R、Distilbert等。

讓Transformer的推理速度提高4.5倍,這個(gè)trick還能給你省十幾萬(wàn)

Transformer-deploy推理服務(wù)器用的是Nvidia Triton。

推理引擎為Microsoft ONNX Runtime(用于CPU和GPU推理)和Nvidia TensorRT(僅限 GPU)。

如果想在GPU上獲得一流的性能,Nvidia Triton+Nvidia TensorRT這樣的組合無疑是最佳選擇。

雖然TensorRT用起來有點(diǎn)難,但它確實(shí)能比用Pytorch快5~10倍。

讓Transformer的推理速度提高4.5倍,這個(gè)trick還能給你省十幾萬(wàn)

在實(shí)際性能測(cè)試中,Transformer-deploy在batch size為1、token分別為16和128的輸入序列中的推理速度,都比付費(fèi)的Hugging Face Infinity要快:

Transformer-deploy在token為16時(shí)要1.52ms,Infinity則需要1.7ms;token為128時(shí)需要1.99ms,Infinity則需要2.5ms。

讓Transformer的推理速度提高4.5倍,這個(gè)trick還能給你省十幾萬(wàn)

那前面說的能讓Transformer的推理性能進(jìn)一步提高的小trick是什么呢?

GPU量化(quantization)。

作者表示:

據(jù)我所知,目前任何OOS云服務(wù)都還沒用到過這個(gè)方法。

不過執(zhí)行GPU量化需要修改模型源代碼(需在矩陣乘法等代價(jià)高昂的操作上添加一些叫做QDQ的特定節(jié)點(diǎn)),既容易出錯(cuò),又很無聊,并且還需自己維護(hù)修改后的代碼。

因此作者已經(jīng)為多個(gè)基于Transformer的模型手動(dòng)完成了這項(xiàng)工作。

后來,他們又發(fā)現(xiàn)似乎只需修補(bǔ)模型模塊的抽象語(yǔ)法樹 (AST)也可以自動(dòng)完成。

在用戶端,在GPU上執(zhí)行模型的基本量化類似這樣:

讓Transformer的推理速度提高4.5倍,這個(gè)trick還能給你省十幾萬(wàn)

最終,該方法在Roberta-base模型和MNLI數(shù)據(jù)集(分類任務(wù))上實(shí)現(xiàn)了4.53倍的推理速度。

讓Transformer的推理速度提高4.5倍,這個(gè)trick還能給你省十幾萬(wàn)

當(dāng)然這也犧牲了0.4個(gè)點(diǎn)的精度;如果一點(diǎn)不犧牲的話,也可以加速3.2倍左右。

作者表示,與Transformer-deploy原來的版本相比,這已經(jīng)是一個(gè)很大的改進(jìn)了,畢竟原版本的加速成本需要超過1個(gè)點(diǎn)的精確度。

最終他們用Albert、Bert(包括miniLM)、Distilbert、Roberta(包括 Camembert、XLM-R、DistilRoberta等)、Electra測(cè)試了該trick。

結(jié)果是對(duì)于任何可以導(dǎo)出為ONNX格式的Transformer模型,都可以“開箱即用”。

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2019-02-25 10:28:53

滴滴員工互聯(lián)網(wǎng)

2021-03-11 23:38:23

程序員副業(yè)兼職

2022-04-27 09:24:22

前端代碼速度

2021-12-31 09:34:22

PyTorchtransformer模型

2023-01-08 13:22:03

模型

2025-01-13 12:30:00

C++開發(fā)編譯

2025-04-21 09:07:00

2024-08-12 12:27:03

2018-09-19 15:46:51

編程語(yǔ)言Python編譯器

2025-06-11 14:39:50

AILLMMistral

2009-03-30 14:12:38

LinuxUnladenSwallow

2018-10-07 05:27:03

Python代碼機(jī)器學(xué)習(xí)

2020-07-03 15:02:59

芯片半導(dǎo)體技術(shù)

2021-07-21 17:03:35

Chrome網(wǎng)絡(luò)釣魚瀏覽器

2021-05-12 11:19:08

DevTools堆棧追蹤

2021-11-08 09:50:47

AI 模型人工智能

2021-03-18 15:29:10

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-05-04 07:34:37

Rust代碼CPU

2023-07-18 14:19:00

模型AI

2023-12-05 13:25:00

數(shù)據(jù)訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 五月婷六月丁香 | 久草网站| 成人午夜免费网站 | 欧美一区二区三 | 日韩成人精品在线观看 | 欧美一级www片免费观看 | 国产精品我不卡 | 精区3d动漫一品二品精区 | 波多野结衣在线观看一区二区三区 | 午夜欧美一区二区三区在线播放 | av官网在线 | 欧美视频在线看 | 国产精品视频一区二区三 | 99国产精品视频免费观看一公开 | 久久精品天堂 | 一级欧美一级日韩片 | 狠狠操狠狠操 | 国产亚洲网站 | 免费观看一区二区三区毛片 | 精品免费在线 | 一区二区三区精品视频 | 亚洲视频一区在线观看 | 国产免费看| 国产精品日韩一区 | 成人亚洲 | 美女天天干天天操 | 日韩国产一区二区 | 欧美日本高清 | 福利精品| 久久久久成人精品 | 成人精品国产免费网站 | 在线电影日韩 | 一级毛片观看 | 黄网站涩免费蜜桃网站 | 精品自拍视频在线观看 | 激情 亚洲| 亚洲天堂一区二区 | 99免费视频| 国产精品日韩在线观看 | 亚洲一区电影 | 九九九视频 |