成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

最新Transformer模型盤點(diǎn),Google研究員出品

新聞 前端
可高效處理長文本的模型Longformer、和堪稱“升級版”Transformer的BigBird模型,到底有什么區(qū)別?

 本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

可高效處理長文本的模型Longformer、和堪稱“升級版”Transformer的BigBird模型,到底有什么區(qū)別?

最新Transformer模型盤點(diǎn),Google研究員出品

Transformer的其他各種變體(X-former)到底都長什么樣、又有哪些新應(yīng)用?

由于Transformer模型的發(fā)展速度日新月異,一天一個(gè)樣,哪怕是隔段時(shí)間回來研究,模型可能也已經(jīng)多了不少。

Transformer模型,是谷歌在2017年推出的NLP經(jīng)典模型(Bert就是用的Transformer)。

在機(jī)器翻譯任務(wù)上,Transformer表現(xiàn)超過了RNN和CNN,只需要編/解碼器就能達(dá)到很好的效果,可以高效地并行化。

好消息是,這里有一篇Transformer模型的“最新動向”,它集中探討Transformer新模型對于自注意力機(jī)制(Self-attention)的改進(jìn),并對這些模型進(jìn)行對比。

此外,還有模型在NLP、計(jì)算機(jī)視覺和強(qiáng)化學(xué)習(xí)等各個(gè)領(lǐng)域的最新應(yīng)用。

標(biāo)準(zhǔn)Transformer模型

首先來看看,標(biāo)準(zhǔn)的Transformer模型是什么樣的。

最新Transformer模型盤點(diǎn),Google研究員出品

Transformer的核心部分,是右邊的兩個(gè)黑色實(shí)線框圈起來的兩部分,左邊是編碼器(Encoder),右邊是解碼器(Decoder)。

可以看見,編/解碼器主要由兩個(gè)模塊組合成:前饋神經(jīng)網(wǎng)絡(luò)(圖中藍(lán)色的部分)和注意力機(jī)制(圖中玫紅色的部分),解碼器通常多一個(gè)(交叉)注意力機(jī)制。

Transformer最重要的部分,就是注意力機(jī)制。

通俗來講,注意力機(jī)制在圖像處理中的應(yīng)用,是讓機(jī)器“像人一樣特別注意圖像的某個(gè)部分”,就像我們在看圖時(shí),通常會“特別關(guān)注”圖中的某些地方。

[[343074]]

這其中,自注意力機(jī)制是定義Transformer模型特征的關(guān)鍵,其中一個(gè)重點(diǎn)難題就在于它的時(shí)間復(fù)雜度和空間復(fù)雜度上。

由于注意力機(jī)制直接將序列(sequence)兩兩比較,導(dǎo)致計(jì)算量巨大(計(jì)算量變成O(n²))。

最近,大量論文提出了新的Transformer“變種”,它們的根本目的都是加速模型的效率,但如果一篇篇去看,可能有點(diǎn)眼花繚亂。

為此,Google AI的研究人員特意整理了一篇Transformer模型的發(fā)展論文,仔細(xì)講解它們的出處。

“變種”后的Transformer模型

2種分類方法

使用方法來分類的話,Transformer模型可以分成如下3類:

只用編碼器:可用于分類
只用解碼器:可用于語言建模
編碼器-解碼器:可用于機(jī)器翻譯

但如果按這些變種的提高效率的原理,也就是“高效方法”來分類,那么Transformer模型的這些“變種”則可以被分成如下幾類:

最新Transformer模型盤點(diǎn),Google研究員出品

Fixed Patterns(固定模式):將視野限定為固定的預(yù)定義模式,例如局部窗口、固定步幅塊,用于簡化注意力矩陣;

Learnable Patterns(可學(xué)習(xí)模式):以數(shù)據(jù)驅(qū)動的方式學(xué)習(xí)訪問模式,關(guān)鍵在于確定token相關(guān)性。

Memory(內(nèi)存):利用可以一次訪問多個(gè)token的內(nèi)存模塊,例如全局存儲器。

Low Rank(低秩):通過利用自注意力矩陣的低秩近似,來提高效率。

Kernels(內(nèi)核):通過內(nèi)核化的方式提高效率,其中核是注意力矩陣的近似,可視為低秩方法的一種。

Recurrence(遞歸):利用遞歸,連接矩陣分塊法中的各個(gè)塊,最終提高效率。

可以看見,近期Transformer相關(guān)的研究都被分在上面的圖像中了,非常清晰明了。

了解完分類方法后,接下來就是Transformer模型的各種變體了。

17種經(jīng)典“X-former”

1、Memory Compressed Transformer(2018)

這是讓Transformer能更好地處理長序列的早期嘗試之一,主要修改了兩個(gè)部分:定位范圍注意、內(nèi)存壓縮注意。

其中,前者旨在將輸入序列分為長度相似的模塊,并在每個(gè)部分中運(yùn)行自注意力機(jī)制,這樣能保證每個(gè)部分的注意力成本不變,激活次數(shù)就能根據(jù)輸入長度線性縮放。

后者則是采用跨步卷積,減少注意力矩陣的大小、以及注意力的計(jì)算量,減少的量取決于跨步的步幅。

2、Image Transformer(2018)

這是個(gè)受卷積神經(jīng)網(wǎng)絡(luò)啟發(fā)的Transformer變種,重點(diǎn)是局部注意范圍,即將接受域限制為局部領(lǐng)域,主要有兩種方案:一維局部注意和二維局部注意。

最新Transformer模型盤點(diǎn),Google研究員出品

不過,這種模型有一個(gè)限制條件,即要以失去全局接受域?yàn)榇鷥r(jià),以降低存儲和計(jì)算成本。

3、 Set Transformer(2019)

這個(gè)模型是為解決一種特殊應(yīng)用場景而生的:輸入是一組特征,輸出是這組特征的函數(shù)。

最新Transformer模型盤點(diǎn),Google研究員出品

它利用了稀疏高斯過程,將輸入集大小的注意復(fù)雜度從二次降為線性。

4、Sparse Transformer(2019)

這個(gè)模型的關(guān)鍵思想,在于僅在一小部分稀疏的數(shù)據(jù)對上計(jì)算注意力,以將密集注意力矩陣簡化為稀疏版本。

不過這個(gè)模型對硬件有所要求,需要自定義GPU內(nèi)核,且無法直接在TPU等其他硬件上使用。

5、Axial Transformer(2019)

最新Transformer模型盤點(diǎn),Google研究員出品

這個(gè)模型主要沿輸入張量的單軸施加多個(gè)注意力,每個(gè)注意力都沿特定軸混合信息,從而使沿其他軸的信息保持獨(dú)立。

由于任何單軸的長度通常都比元素總數(shù)小得多,因此這個(gè)模型可以顯著地節(jié)省計(jì)算和內(nèi)存。

6、Longformer(2020)

Sparse Transformer的變體,通過在注意力模式中留有空隙、增加感受野來實(shí)現(xiàn)更好的遠(yuǎn)程覆蓋。

在分類任務(wù)上,Longformer采用可以訪問所有輸入序列的全局token(例如CLS token)。

7、Extended Transformer Construction(2020)

同樣是Sparse Transformer的變體,引入了一種新的全局本地注意力機(jī)制,在引入全局token方面與Longformer相似。

但由于無法計(jì)算因果掩碼,ETC不能用于自動回歸解碼。

8、BigBird(2020)

與Longformer一樣,同樣使用全局內(nèi)存,但不同的是,它有獨(dú)特的“內(nèi)部變壓器構(gòu)造(ITC)”,即全局內(nèi)存已擴(kuò)展為在sequence中包含token,而不是簡單的參數(shù)化內(nèi)存。

然而,與ETC一樣,BigBird同樣不能用于自動回歸解碼。

9、Routing Transformer(2020)

提出了一種基于聚類的注意力機(jī)制,以數(shù)據(jù)驅(qū)動的方式學(xué)習(xí)注意力稀疏。為了確保集群中的token數(shù)量相似,模型會初始化聚類,計(jì)算每個(gè)token相對于聚類質(zhì)心的距離。

10、Reformer(2020)

一個(gè)基于局部敏感哈希(LSH)的注意力模型,引入了可逆的Transformer層,有助于進(jìn)一步減少內(nèi)存占用量。

模型的關(guān)鍵思想,是附近的向量應(yīng)獲得相似的哈希值,而遠(yuǎn)距離的向量則不應(yīng)獲得相似的哈希值,因此被稱為“局部敏感”。

11、Sinkhorn Transformer(2020)

這個(gè)模型屬于分塊模型,以分塊的方式對輸入鍵和值進(jìn)行重新排序,并應(yīng)用基于塊的局部注意力機(jī)制來學(xué)習(xí)稀疏模式。

12、Linformer(2020)

這是基于低秩的自注意力機(jī)制的高效Transformer模型,主要在長度維度上進(jìn)行低秩投影,在單次轉(zhuǎn)換中按維度混合序列信息。

13、Linear Transformer(2020)

這個(gè)模型通過使用基于核的自注意力機(jī)制、和矩陣產(chǎn)品的關(guān)聯(lián)特性,將自注意力的復(fù)雜性從二次降低為線性。

目前,它已經(jīng)被證明可以在基本保持預(yù)測性能的情況下,將推理速度提高多達(dá)三個(gè)數(shù)量級。

14、Performer(2020)

這個(gè)模型利用正交隨機(jī)特征(ORF),采用近似的方法避免存儲和計(jì)算注意力矩陣。

15、Synthesizer models(2020)

這個(gè)模型研究了調(diào)節(jié)在自注意力機(jī)制中的作用,它合成了一個(gè)自注意力模塊,近似了這個(gè)注意權(quán)重。

16、Transformer-XL(2020)

這個(gè)模型使用遞歸機(jī)制鏈接相鄰的部分。基于塊的遞歸可被視為與其他討論的技術(shù)正交的方法,因?yàn)樗鼪]有明確稀疏密集的自注意力矩陣。

17、Compressive Transformers(2020)

這個(gè)模型是Transformer-XL的擴(kuò)展,但不同于Transformer-XL,后者在跨段移動時(shí)會丟棄過去的激活,而它的關(guān)鍵思想則是保持對過去段激活的細(xì)粒度記憶。

整體來說,這些經(jīng)典模型的參數(shù)量如下:

最新Transformer模型盤點(diǎn),Google研究員出品

更詳細(xì)的解讀(包括具體的模型參數(shù)等),以及對Transformer未來趨勢的預(yù)測,可以戳下方傳送門查看整篇論文。

作者介紹

[[343077]]

論文一作Yi Tay,碩士和博士均畢業(yè)于新加坡國立大學(xué)計(jì)算機(jī)科學(xué)。

目前,Yi Tay在Google AI從事研究工作,主要方向是自然語言處理和機(jī)器學(xué)習(xí)。

傳送門

論文鏈接:
https://www.arxiv-vanity.com/papers/2009.06732

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-06-29 15:33:28

谷歌Transformer模型

2022-06-06 10:58:52

訓(xùn)練DeepMind研究

2021-02-21 00:18:47

惡意軟件研究職業(yè)技術(shù)

2022-06-15 18:57:43

人工智能

2020-12-23 17:50:46

AI語言模型AI倫理

2020-08-24 08:15:29

軟件互聯(lián)網(wǎng)分布式

2010-09-09 08:41:34

2011-07-30 13:22:49

2022-02-07 15:05:07

模型AI訓(xùn)練

2024-05-30 14:22:00

2009-11-17 12:21:41

2020-08-10 09:14:50

軟件測試工具技術(shù)

2020-08-11 07:45:38

軟件測試

2017-08-29 08:11:48

倉庫MITRFID

2010-03-11 09:39:02

微軟研究員泰克圖靈獎

2015-12-21 13:39:47

2020-12-03 10:56:31

軟件開發(fā)反饋弧

2013-08-18 18:26:21

App Store漏洞

2009-11-19 13:04:16

2022-07-15 10:37:22

AI研究數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: a黄在线观看 | 成人精品一区二区三区中文字幕 | 狠狠色香婷婷久久亚洲精品 | 午夜一区二区三区视频 | 91高清视频在线观看 | 91在线播 | www.亚洲一区二区三区 | 精品国产网| 亚洲欧美日韩久久 | 伊人伊人 | 99国内精品久久久久久久 | 亚洲成av人片在线观看 | 国产激情精品视频 | 免费在线一区二区 | 韩国av一区二区 | 欧美精品综合在线 | 日本不卡一区 | 国产精品久久福利 | 亚洲福利网 | 亚洲人成在线观看 | 欧美精品成人 | 久久青青 | 91色在线 | 玖玖操| 成人久久网 | 亚洲一区在线播放 | 97av在线| 免费视频一区二区 | 国产一区2区 | 精品一区二区三区不卡 | 激情 亚洲 | 中文字幕一区二区三区四区五区 | 国产91一区二区三区 | 国产精品伦理一区二区三区 | 天天操天天玩 | 不卡av电影在线播放 | 国产激情偷乱视频一区二区三区 | 日韩精品视频在线 | 成人免费视频网站在线观看 | 亚洲精品成人av久久 | 欧美高清视频在线观看 |