成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<output id="zoykk"></output>

<u id="zoykk"></u>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

讓Transformer的推理速度提高4.5倍，這個(gè)trick還能給你省十幾萬(wàn)

作者：佚名 2021-12-31 13:56:42

新聞人工智能

最近，NLP明星公司Hugging Face發(fā)布了一個(gè)叫做Infinity的產(chǎn)品，可以以1ms延時(shí)完成Transformer的推理，性能相當(dāng)高了。

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

最近，NLP明星公司Hugging Face發(fā)布了一個(gè)叫做Infinity的產(chǎn)品，可以以1ms延時(shí)完成Transformer的推理，性能相當(dāng)高了。

讓Transformer的推理速度提高4.5倍，這個(gè)trick還能給你省十幾萬(wàn)

但是，厲害歸厲害，還是有點(diǎn)貴——1年至少要十幾萬(wàn)塊 （2萬(wàn)美元）。

那有沒有什么平替的方法呢？

有的！還是開源的、“不費(fèi)吹灰之力”就可以達(dá)到Infinity一些公共基準(zhǔn)的那種。

讓Transformer的推理速度提高4.5倍，這個(gè)trick還能給你省十幾萬(wàn)

并且現(xiàn)在，通過在該方法上施加一個(gè)小trick，將Transformer的推理速度提高4.5倍！

讓Transformer的推理速度提高4.5倍，這個(gè)trick還能給你省十幾萬(wàn)

△ 帖子發(fā)布不到一天就收獲了250+熱度

那么，一個(gè)“平替”到底為什么能達(dá)到“付費(fèi)”的效果呢？

一個(gè)trick讓Transformer推理速度提高4.5倍

先來認(rèn)識(shí)一下這個(gè)方法：Transformer-deploy。

讓Transformer的推理速度提高4.5倍，這個(gè)trick還能給你省十幾萬(wàn)

它可以用一行命令優(yōu)化和部署Hugging Face上的Transformer模型，并支持大多數(shù)基于Transformer編碼器的模型，比如Bert、Roberta、miniLM、Camembert、Albert、XLM-R、Distilbert等。

讓Transformer的推理速度提高4.5倍，這個(gè)trick還能給你省十幾萬(wàn)

Transformer-deploy推理服務(wù)器用的是Nvidia Triton。

推理引擎為Microsoft ONNX Runtime（用于CPU和GPU推理）和Nvidia TensorRT（僅限 GPU）。

如果想在GPU上獲得一流的性能，Nvidia Triton+Nvidia TensorRT這樣的組合無疑是最佳選擇。

雖然TensorRT用起來有點(diǎn)難，但它確實(shí)能比用Pytorch快5～10倍。

讓Transformer的推理速度提高4.5倍，這個(gè)trick還能給你省十幾萬(wàn)

在實(shí)際性能測(cè)試中，Transformer-deploy在batch size為1、token分別為16和128的輸入序列中的推理速度，都比付費(fèi)的Hugging Face Infinity要快：

Transformer-deploy在token為16時(shí)要1.52ms，Infinity則需要1.7ms；token為128時(shí)需要1.99ms，Infinity則需要2.5ms。

讓Transformer的推理速度提高4.5倍，這個(gè)trick還能給你省十幾萬(wàn)

那前面說的能讓Transformer的推理性能進(jìn)一步提高的小trick是什么呢？

GPU量化（quantization）。

作者表示：

據(jù)我所知，目前任何OOS云服務(wù)都還沒用到過這個(gè)方法。

不過執(zhí)行GPU量化需要修改模型源代碼（需在矩陣乘法等代價(jià)高昂的操作上添加一些叫做QDQ的特定節(jié)點(diǎn)），既容易出錯(cuò)，又很無聊，并且還需自己維護(hù)修改后的代碼。

因此作者已經(jīng)為多個(gè)基于Transformer的模型手動(dòng)完成了這項(xiàng)工作。

后來，他們又發(fā)現(xiàn)似乎只需修補(bǔ)模型模塊的抽象語(yǔ)法樹 （AST）也可以自動(dòng)完成。

在用戶端，在GPU上執(zhí)行模型的基本量化類似這樣：

讓Transformer的推理速度提高4.5倍，這個(gè)trick還能給你省十幾萬(wàn)

最終，該方法在Roberta-base模型和MNLI數(shù)據(jù)集（分類任務(wù)）上實(shí)現(xiàn)了4.53倍的推理速度。

讓Transformer的推理速度提高4.5倍，這個(gè)trick還能給你省十幾萬(wàn)

當(dāng)然這也犧牲了0.4個(gè)點(diǎn)的精度；如果一點(diǎn)不犧牲的話，也可以加速3.2倍左右。

作者表示，與Transformer-deploy原來的版本相比，這已經(jīng)是一個(gè)很大的改進(jìn)了，畢竟原版本的加速成本需要超過1個(gè)點(diǎn)的精確度。

最終他們用Albert、Bert（包括miniLM）、Distilbert、Roberta（包括 Camembert、XLM-R、DistilRoberta等）、Electra測(cè)試了該trick。

結(jié)果是對(duì)于任何可以導(dǎo)出為ONNX格式的Transformer模型，都可以“開箱即用”。

責(zé)任編輯：張燕妮來源：量子位

Transformer 數(shù)據(jù)人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：五月婷六月丁香 | 久草网站| 成人午夜免费网站 | 欧美一区二区三 | 日韩成人精品在线观看 | 欧美一级www片免费观看 | 国产精品我不卡 | 精区3d动漫一品二品精区 | 波多野结衣在线观看一区二区三区 | 午夜欧美一区二区三区在线播放 | av官网在线 | 欧美视频在线看 | 国产精品视频一区二区三 | 99国产精品视频免费观看一公开 | 久久精品天堂 | 一级欧美一级日韩片 | 狠狠操狠狠操 | 国产亚洲网站 | 免费观看一区二区三区毛片 | 精品免费在线 | 一区二区三区精品视频 | 亚洲视频一区在线观看 | 国产免费看| 国产精品日韩一区 | 成人亚洲 | 美女天天干天天操 | 日韩国产一区二区 | 欧美日本高清 | 福利精品| 久久久久成人精品 | 成人精品国产免费网站 | 在线电影日韩 | 一级毛片观看 | 黄网站涩免费蜜桃网站 | 精品自拍视频在线观看 | 激情亚洲| 亚洲天堂一区二区 | 99免费视频| 国产精品日韩在线观看 | 亚洲一区电影 | 九九九视频 |

<cite id="mfgkd"></cite>

<button id="mfgkd"></button>