成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深2.5至4倍,參數和計算量更少,DeLighT怎么做到的?

新聞 機器學習
Google 團隊提出的 NLP 經典之作 Transformer 由 Ashish Vaswani 等人在 2017 年發表的論文《Attention Is All You Need》 中提出。

深度學習的參數太多、模型太大、部署不方便、消耗的計算資源過多,種種原因加大了深度學習愛好者的「貧富差距」。然而算法優化一直在路上……

[[340464]]

Google 團隊提出的 NLP 經典之作 Transformer 由 Ashish Vaswani 等人在 2017 年發表的論文《Attention Is All You Need》 中提出。但由于模型參數量過大,該模型訓練困難、部署不方便,研究人員一直在探究如何優化 Transformer。近日,來自華盛頓大學和 FAIR 的 Sachin Mehta 等人提出了一個網絡結構較深但輕量級的 Transformer——DeLighT。

深2.5至4倍,參數和計算量更少,DeLighT怎么做到的?

論文鏈接:https://arxiv.org/abs/2008.00623

代碼鏈接:https://github.com/sacmehta/delight

論文簡介

在這篇文章中,作者提出了一個網絡較深但輕量級的 Transformer——DeLighT,與之前基于 transformer 的模型相比,它的參數更少,但性能相當甚至更好。

DeLighT 能夠更高效地分配參數,主要表現在:1)每個 Transformer 塊使用結構較深但參數較少的 DExTra;2)在所有塊上使用逐塊縮放(block-wise scaling),使靠近輸入的 DeLighT 塊比較淺且窄,靠近輸出的 DeLighT 塊比較寬且深。總的來說,DeLighT 的網絡深度是標準 transformer 模型的 2.5 到 4 倍,但參數量和計算量都更少。

DeLighT 的核心是 DExTra 變換(DExTra transformation),該變換使用組線性變換和擴展 - 縮小(expand-reduce)策略來有效地改變 DeLighT 塊的寬度和深度。由于這些變換本質上是局部的,因此 DExTra 利用特征 shuffling(類似于卷積網絡中的通道 shuffling)在不同組之間共享信息。這種寬且深的表示有助于用單頭注意力和輕量級前饋層替換 transformer 中的多頭注意力和前饋層,從而減少網絡參數量。重要的是,與 transformer 不同,DExTra 模塊可以獨立于輸入大小進行縮放。通過使用靠近輸入的較淺和窄的 DeLighT 塊以及靠近輸出的較深和寬的 DeLighT 塊,在各個塊之間更高效地分配參數。

DeLighT 三大特點

改進 transformer:與之前的工作不同,該論文展示了對每個 Transformer 塊使用 DExTra 以及基于所有塊使用逐塊縮放時,能夠實現參數的高效分配。結果顯示,DeLighT 在參數更少的情況下,能達到相同的效果甚至更好。

模型壓縮:為了進一步提高序列模型的性能,該研究引入了逐塊縮放,允許每個塊有不同的尺寸,以及更高效地進行參數分配。

改進序列模型:與 DeLighT 最接近的工作是 DeFINE 單元,它使用擴展 - 縮減策略學習模型表示。DeFINE 單元(圖 1a)和 DExTra(圖 1b)之間的關鍵區別是,DExTra 能更高效地在擴展 - 縮減層中分配參數。DeFINE 在組線性變換中使用較少的組來學習更寬的表示,而 DExTra 使用較多的組和較少的參數來學習更寬的表示。

深2.5至4倍,參數和計算量更少,DeLighT怎么做到的?

圖 1:(a, b) DeFINE 單元和 DExTra 之間的對比。(c, d) 標準 transformer 模塊與 DeLighT 模塊中的 block-wise 對比。

DeLighT:網絡很深但參數較少的 Transformer

DExTra

DExTra 變換由五個配置參數控制:1)深度 N,2)寬度乘數 m_w,3)輸入維數 d_m,4)輸出維數 d_o,5)組線性變換中的最大組 g_max。

在擴展階段,DExTra 使用「N/2」層線性地將 d_m 維輸入投影到高維空間,d_max = m_wd_m。在縮減階段,DExTra 使用剩余的 N − 「N/2」層,將 d_max 維向量投影到 d_o 維空間。在數學上,每一層 l 的輸出 Y 可定義為:

每一層 l 的組數則按照以下公式計算:

DeLighT 模塊

Transformer 塊:標準 transformer 塊(圖 1c)由多頭注意力組成,使用查詢 - 鍵 - 值(query-key-value)分解來建模序列 token 之間的關系,并使用前饋網絡(FFN)來學習更寬的表示。

DeLighT 塊:圖 1d 展示了如何將 DExTra 集成到 transformer 塊中以提高效率。首先將 d_m 維輸入饋入 DExTra 變換,產生 d_o 維輸出,其中 d_o < d_m。然后將這些 d_o 維輸出饋送至單頭注意力,緊接著使用輕量級 FFN 來建模它們的關系。

DExTra 單頭注意力:假設輸入序列有 n 個 token,每個 token 的維數為 d_m。首先將這 n 個 d_m 維輸入饋送到 DExTra 變換,以生成 n 個 d_o 維輸出,其中 d_o

DeLighT 塊通過 DExTra 學習到較寬的輸入表示,這就使得單頭注意力能夠代替多頭注意力。標準 transformer 以及 DeLighT 塊中注意力的計算成本分別為 O(d_mn^2 )、O(d_on^2 ),d_o

輕量級 FFN:與 transformer 中的 FFN 相似,該模塊也由兩個線性層組成。由于 DeLighT 塊已經使用 DExTra 變換集成了較寬的表示,因此我們可以反轉 transformer 中 FFN 層的功能。第一層將輸入的維數從 d_m 減小到 d_m / r,第二層將輸入維數從 d_m / r 擴展到 d_m,其中 r 是減小因子(見圖 1d)。該研究提出的輕量級 FFN 將 FFN 中的參數和計算量減少到原來的 rd_f / d_m。在標準 transformer 中,FFN 維度擴大了 3 倍。而在該研究實驗中,維度縮小了 3 倍。因此,輕量級 FFN 將 FFN 中的參數量減少到了原來的 1/16。

逐塊縮放

改善序列模型性能的標準方法包括增加模型維度(寬度縮放)、堆疊更多塊(深度縮放),或兩者兼具。為了創建非常深且寬的網絡,該研究將模型縮放擴展至塊級別。下圖 2 比較了均勻縮放與逐塊縮放:

深2.5至4倍,參數和計算量更少,DeLighT怎么做到的?

縮放 DeLighT 塊:DeLighT 塊使用 DExTra 學習深且寬的表示,DExTra 的深度和寬度由兩個配置參數控制:組變換層數 N 和寬度乘數 m_w(圖 2a)。這些配置參數能夠在獨立于輸入 d_m 和輸出 d_o 維度的情況下,增加 DeLighT 塊內的可學習參數數量。此處,該論文使用逐塊縮放來創建具有可變大小的 DeLighT 塊網絡,在輸入附近分配較淺且窄的 DeLighT 塊,在輸出附近分配更深且寬的 DeLighT 塊。

為此,該研究提出兩個配置參數:DeLighT 網絡中 DExTra 的最小深度 N_min 和最大深度 N_max。然后,使用線性縮放(公式 4)計算每個 DeLighT 塊 b 中 DExTra 的深度 N^b 和寬度乘數 m^b_w。通過這種縮放,每個 DeLighT 塊 b 都有不同的深度和寬度(圖 2a)。

實驗結果

該論文在兩個常見的序列建模任務(機器翻譯和語言建模)上進行了性能比較。

機器翻譯

該研究對比了 DeLighT 和當前最優方法(標準 transformer [1]、動態卷積 [21] 和 lite transformer [22])在機器翻譯語料庫上的性能,如下圖 3 所示。圖 3c 表明,DeLighT 提供了最優的性能,在參數和計算量較少的情況下性能優于其他模型。

深2.5至4倍,參數和計算量更少,DeLighT怎么做到的?

圖 3:模型在機器翻譯語料庫上的結果。與標準 transformers 相比,DeLighT 模型用更少的參數就能達到類似的性能。圖中 † 和 ‡ 分別表示來自 [21] 和 [48] 的最優 transformer 基線。

深2.5至4倍,參數和計算量更少,DeLighT怎么做到的?

表 1:在 WMT’14 En-Fr 數據集上,機器翻譯模型在網絡深度、網絡參數、MAC 數量和 BLEU 值方面的對比結果。DeLighT 表現最優異,在網絡深度較深的情況下,參數量和運算量都更少。

語言建模

該研究在 WikiText-103 數據集上,對 DeLighT 和其他方法的性能進行了對比(如表 2a 所示)。表 2b 則繪制了 DeLighT 和 Transformer-XL [9] 的困惑度隨參數量的變化情況。這兩個表都表明,DeLighT 優于當前最優的方法(包括 Transformer-XL),而且它使用更小的上下文長度和更少的參數實現了這一點,這表明使用 DeLighT 學得的更深且寬的表示有助于建模強大的上下文關系。

深2.5至4倍,參數和計算量更少,DeLighT怎么做到的?

控制變量研究

表 3a 研究了 DeLighT 塊參數的影響,這些參數分別是網絡最小深度 N_min、最大深度 N_max、寬度乘法 m_w 和模型維度 d_m(見圖 1d)。表 3b-d 分別展示了 DExTra 變換、特征 shuffling 和輕量級 FFN 的影響。

深2.5至4倍,參數和計算量更少,DeLighT怎么做到的?

總結

該研究提出了一種非常輕巧但深度較大的 transformer 框架——DeLighT,該框架可在 DeLighT 塊內以及對所有 DeLighT 塊高效分配參數。與當前最優的 Transformer 模型相比,DeLighT 模型具備以下優點:1)非常深且輕量級;2)提供相似或更好的性能。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2020-02-09 16:18:45

Redis快 5 倍中間件

2013-08-02 13:30:02

蘋果保秘

2016-03-22 14:00:06

數據安全數據庫

2015-12-09 14:35:55

量子計算機谷歌

2020-09-20 21:46:00

量子芯片網絡

2023-03-14 14:09:00

訓練人工智能

2019-09-20 08:54:15

換膚網易云音樂QQ

2021-10-26 15:33:07

區塊鏈安全加密算法

2022-05-26 15:17:54

訓練模型

2024-01-12 09:24:03

組件庫vue組件

2012-07-03 09:59:03

程序員

2020-09-21 10:45:38

邊緣計算

2015-06-11 11:18:04

友盟精準推送

2023-02-06 17:38:34

低延遲

2024-10-09 17:27:27

2012-02-24 09:32:44

AndroidiPhoneiOS

2021-04-14 14:50:27

計算機模型 技術

2019-12-06 14:07:07

系統緩存架構

2025-06-20 08:55:00

模型AI計算

2024-09-09 09:40:00

OpenAIGPT-4
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美久久久久 | 精品一区二区三区在线播放 | 午夜国产一级片 | 国产xxxx在线| 丝袜一区二区三区 | h视频在线免费看 | 久久久国产精品视频 | 亚洲高清一区二区三区 | 欧美二区在线 | 国产在线小视频 | 国产不卡一区 | 中文字幕1区2区 | 成人免费在线 | 成人福利网站 | 国产精品美女久久久久久免费 | 日韩在线精品 | 99久久免费精品 | 日韩欧美高清 | 夜夜av | 国产日韩欧美中文 | 精品久久久久久久人人人人传媒 | 人人干免费 | 精品一区二区观看 | 成人亚洲精品 | 成人深夜福利 | 久久99精品久久 | 日韩aⅴ在线观看 | 亚洲精品无 | www.婷婷| 91综合网| 丁香五月缴情综合网 | 91久久综合亚洲鲁鲁五月天 | 在线日韩 | 福利二区| 国产一区二区在线免费 | 在线看免费的a | 日本在线你懂的 | 国内久久精品 | 久久国产精品-久久精品 | 亚洲国产电影 | 精品国产乱码久久久久久88av |