成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

模型壓縮95%,MIT韓松等人提出新型Lite Transformer

新聞 人工智能
Transformer 的高性能依賴于極高的算力,這讓移動端 NLP 嚴重受限。在不久之前的 ICLR 2020 論文中,MIT 與上海交大的研究人員提出了一種高效的移動端 NLP 架構 Lite Transformer,向在邊緣設備上部署移動級 NLP 應用邁進了一大步。

 Transformer 的高性能依賴于極高的算力,這讓移動端 NLP 嚴重受限。在不久之前的 ICLR 2020 論文中,MIT 與上海交大的研究人員提出了一種高效的移動端 NLP 架構 Lite Transformer,向在邊緣設備上部署移動級 NLP 應用邁進了一大步。

雖然推出還不到 3 年,Transformer 已成為自然語言處理(NLP)領域里不可或缺的一環。然而這樣流行的算法卻需要極高的算力才能實現足夠的性能,這對于受到算力和電池嚴格限制的移動端來說有些力不從心。

在 MIT 最近的研究《Lite Transformer with Long-Short Range Attention》中,MIT 與上海交大的研究人員提出了一種高效的移動端 NLP 架構 Lite Transformer,向在邊緣設備上部署移動級 NLP 應用邁進了一大步。該論文已被人工智能頂會 ICLR 2020 收錄

該研究是由 MIT 電氣工程和計算機科學系助理教授韓松領導的。韓松的研究廣泛涉足深度學習和計算機體系結構,他提出的 Deep Compression 模型壓縮技術曾獲得 ICLR2016 最佳論文,論文 ESE 稀疏神經網絡推理引擎 2017 年曾獲得芯片領域頂級會議——FPGA 最佳論文獎,引領了世界深度學習加速研究,對業界影響深遠。

模型壓縮95%,MIT韓松等人提出新型Lite Transformer

論文地址:
https://arxiv.org/abs/2004.11886v1

GitHub 地址:
https://github.com/mit-han-lab/lite-transformer

Transformer 在自然語言處理任務(如機器翻譯、問答)中應用廣泛,但它需要大量計算去實現高性能,而這不適合受限于硬件資源和電池嚴格限制的移動應用。

這項研究提出了一種高效的移動端 NLP 架構——Lite Transformer,它有助于在邊緣設備上部署移動 NLP 應用。其核心是長短距離注意力(Long-Short Range Attention,LSRA),其中一組注意力頭(通過卷積)負責局部上下文建模,而另一組則(依靠注意力)執行長距離關系建模

這樣的專門化配置使得模型在三個語言任務上都比原版 transformer 有所提升,這三個任務分別是機器翻譯、文本摘要和語言建模。

在資源有限的情況下(500M/100M MACs),Lite Transformer 在 WMT’14 英法數據集上的 BLEU 值比分別比 transformer 高 1.2/1.7。Lite Transformer 比 transformer base 模型的計算量減少了 60%,而 BLEU 分數卻只降低了 0.3。結合剪枝和量化技術,研究者進一步將 Lite Transformer 模型的大小壓縮到原來的 5%。

對于語言建模任務,在大約 500M MACs 上,Lite Transformer 比 transformer 的困惑度低 1.8。

模型壓縮95%,MIT韓松等人提出新型Lite Transformer

值得注意的是,對于移動 NLP 設置,Lite Transformer 的 BLEU 值比基于 AutoML 的 Evolved Transformer 高 0.5,而且它不需要使用成本高昂的架構搜索。

從 Lite Transformer 與 Evolved Transformer、原版 transformer 的比較結果中可以看出,Lite Transformer 的性能更佳,搜索成本相比 Evolved Transformer 大大減少。

模型壓縮95%,MIT韓松等人提出新型Lite Transformer

那么,Lite Transformer 為何能夠實現高性能和低成本呢?接下來我們來了解其核心思想。

長短距離注意力(LSRA)

NLP 領域的研究人員試圖理解被注意力捕捉到的上下文。Kovaleva 等人 (2019) 和 Clark 等人 (2020) 對 BERT 不同層的注意力權重進行了可視化。

如下圖 3b 所示,權重 w 表示源句單詞與目標句單詞之間的關系(自注意力也是如此)。隨著權重 w_ij 的增加(顏色加深),源句中的第 i 個詞更加注意目標句中的第 j 個詞。注意力圖通常有很強的模式化特征:稀疏和對角線。它們代表了一些特定單詞之間的關系:稀疏表示長距離信息間的關系,對角線表示近距離信息間的關系。研究者將前者稱為「全局」關系,將后者稱為「局部」關系。

模型壓縮95%,MIT韓松等人提出新型Lite Transformer

圖 3:Lite Transformer 架構 (a) 和注意力權重的可視化。傳統的注意力 (b) 過于強調局部關系建模(參見對角線結構)。該研究使用卷積層專門處理局部特征提取工作,以高效建模局部信息,從而使注意力分支可以專門進行全局特征提取 (c)。

在翻譯任務中,注意力模塊必須捕獲全局和局部上下文,這需要很大的容量。與專門化的設計相比,這并非最佳選擇。以硬件設計為例,CPU 等通用硬件的效率比 FPGA 等專用硬件低。研究者認為應該分別捕捉全局和局部上下文。模型容量較大時,可以容忍冗余,甚至可以提供更好的性能。但是在移動應用上,由于計算和功率的限制,模型應該更加高效。因此,更需要專門化的上下文捕獲。

為了解決該問題,該研究提出一個更專門化的架構,即長短距離注意力(LSRA),而不是使用處理 “一般” 信息的模塊。該架構分別捕獲局部和全局上下文。

如圖 3a 所示,LSRA 模塊遵循兩分支設計。左側注意力分支負責捕獲全局上下文,右側卷積分支則建模局部上下文。研究者沒有將整個輸入饋送到兩個分支,而是將其沿通道維度分為兩部分,然后由后面的 FFN 層進行混合。這種做法將整體計算量減少了 50%。

左側分支是正常的注意力模塊(Vaswani et al. (2017)),不過通道維度減少了一半。至于處理局部關系的右分支,一個自然的想法是對序列應用卷積。使用滑動窗口,模塊可以輕松地覆蓋對角線組。為了進一步減少計算量,研究者將普通卷積替換為輕量級的版本,該版本由線性層和深度卷積組成。通過這種方式,研究者將注意力模塊和卷積模塊并排放置,引導它們對句子進行全局和局部的不同角度處理,從而使架構從這種專門化設置中受益,并實現更高的效率。

實驗設置

數據集和評估

研究者在機器翻譯、文本摘要和語言建模三個任務上進行了實驗和評估。

具體而言,機器翻譯任務使用了三個基準數據集:IWSLT’14 德語 - 英語 (De-En)、WMT 英語 - 德語 (En-De)、WMT 英語 - 法語(En-Fr)。

文本摘要任務使用的是 CNN-DailyMail 數據集。

語言建模任務則在 WIKITEXT-103 數據集上進行。

架構

模型架構是基于序列到序列學習的編碼器 - 解碼器。在機器翻譯任務中,針對 WMT 數據集,基線模型基于 Vaswani 等人提出的模型。對于 IWSLT 數據集,基線模型遵循 Wu 等人的設置。對于文本摘要任務,研究者采用了與 WMT 相同的模型。至于語言建模任務,模型與 Baevski & Auli (2019) 一致,但模型尺寸較小。

該研究提出的架構首先將 transformer base 模型中的 bottleneck 拉平,然后用 LSRA 替換自注意力。更具體地說,是使用兩個專門的模塊,一個注意力分支和一個卷積分支。

實驗結果

機器翻譯

表 1 展示了 Lite Transformer 在 IWSLT’14 De-En 數據集上的定量結果,并與 transformer 基線方法和 LightConv 做了對比。在大約 100M Mult-Adds 時,Lite Transformer 模型的 BLEU 值比 transformer 高出 1.6。

模型壓縮95%,MIT韓松等人提出新型Lite Transformer

表 1:IWSLT’14 De-En 上的結果。

表 2 中的定量結果表明,在 100M Mult-Adds 設置下,Lite Transformer 在 WMT En-De 數據集和 WMT En-Fr 數據集上的 BLEU 值分別比 Transformer 高出 1.2 和 1.7,在 300M Mult-Adds 設置下,也有 0.5 和 1.5 分的提升。

模型壓縮95%,MIT韓松等人提出新型Lite Transformer

表 2:在 WMT’14 En-De 和 WMT’14 En-Fr 上的結果。

研究者還提供了模型在 WMT En-Fr 上的權衡曲線,如圖 4a 所示,Lite Transformer 一直優于原版 transformer。

模型壓縮95%,MIT韓松等人提出新型Lite Transformer

圖 4:在 WMT En-Fr 數據集上的機器翻譯權衡曲線,以及在 WIKITEXT-103 數據集上的語言建模權衡曲線。兩個曲線都說明了在移動設置下,Lite Transformer 比 transformer 性能更佳(藍色區域)。

與自動化設計模型的對比

與基于 AutoML 的 Evolved Transformer(ET)相比,Lite Transformer 在移動設置中也有明顯的改進。此外,在 100M 和 300M 的 Mult-Adds 下,Lite Transformer 的 BLEU 值分別比 ET 高 0.5 和 0.2,詳見表 3。

模型壓縮95%,MIT韓松等人提出新型Lite Transformer

表 3:不同 NMT 模型的性能和訓練成本。

文本摘要

模型壓縮95%,MIT韓松等人提出新型Lite Transformer

表 4:在 CNN-DailyMail 數據集上的文本摘要結果。

模型壓縮95%,MIT韓松等人提出新型Lite Transformer

表 5:在 WIKITEXT-103 數據集上的語言建模結果。

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2020-03-23 15:10:49

人工智能機器學習技術

2025-01-26 13:20:49

谷歌AI模型Titans

2021-12-01 10:05:12

模型人工智能計算

2023-04-03 14:27:58

框架數據

2025-05-23 10:04:25

2017-08-07 11:09:19

機器學習用戶推薦轉化率

2022-01-05 10:42:12

AI 數據人工智能

2024-11-26 13:30:00

2021-03-16 14:35:16

架構AI技術

2022-07-17 13:07:26

模型開源

2019-10-12 11:10:32

AI 數據人工智能

2024-10-08 13:38:56

2023-04-28 15:53:55

框架模型

2021-09-10 16:24:00

框架AI開發

2024-12-06 18:48:39

2024-11-01 16:46:48

2012-05-08 15:19:10

2009-03-26 18:46:20

戴爾Nehalem服務器

2015-01-14 10:33:20

瞻博網絡

2024-07-08 08:47:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天操天天舔 | 国产精品日本一区二区不卡视频 | 日韩一区二区三区视频 | 中文字幕国产高清 | 美女在线国产 | av影音在线 | 午夜视频一区 | 乱一性一乱一交一视频a∨ 色爱av | 成人精品免费 | 欧美精品1区2区 | 成人美女免费网站视频 | 啪啪毛片 | 呦呦在线视频 | 在线日韩av电影 | 91精品国产91久久久久久密臀 | 亚洲v日韩v综合v精品v | 婷婷色国产偷v国产偷v小说 | 丁香色婷婷 | 国产亚洲一区二区在线观看 | 狠狠干2020 | 欧美日韩视频在线 | 黄色国产大片 | 日韩三区 | 91成人免费电影 | 日韩欧美中文字幕在线观看 | 国产区在线 | 国产欧美一级二级三级在线视频 | 九九热在线免费视频 | 国产精品免费在线 | 丁香久久 | 日韩国产一区二区 | 成人在线精品视频 | 日韩精品一区二区三区中文字幕 | 亚洲精品一区二区三区中文字幕 | 国产精品九九 | 爱草在线| 欧美午夜一区 | 国产精品久久久久久久久久三级 | 99久久精品国产毛片 | 91在线视频国产 | 9191av|