成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Tokenformer:下一代Transformer架構

人工智能 新聞
本次介紹的論文標題為:Tokenformer: Rethinking Transformer Scaling with Tokenized Model Parameters,” 顧名思義,本文提出了Tokenformer架構,其優勢在于增量學習能力:在增加模型尺寸時,無需從頭開始重新訓練模型,大大降低了成本。

圖片

1. 導言

Transformer架構已經成為當今大模型的基石,不管是NLP還是CV領域,目前的SOTA模型基本都是基于Transformer架構的,比如NLP中目前的各種知名大模型,或者CV中的Vit等模型

本次介紹的論文標題為:Tokenformer: Rethinking Transformer Scaling with Tokenized Model Parameters,” 顧名思義,本文提出了Tokenformer架構,其優勢在于增量學習能力:在增加模型尺寸時,無需從頭開始重新訓練模型,大大降低了成本。 本文代碼已開源。

2. Transformer vs Tokenformer - 結構比較

首先我們從頂層設計的角度,對于傳統 Transformer 架構和 本文提出的 Tokenformer 架構進行比較,如下圖所示:

圖片

2.1 Transformer 架構

自注意力機制是Transformer的核心,主要包括以下幾個步驟:

圖片圖片

圖片圖片圖片

如上圖所示,一個Transformer層主要由兩個部分組成:

  1. 多頭自注意力機制(Multi-Head Self-Attention) :輸入首先經過一個線性投影模塊,以計算注意力模塊的輸入,即矩陣 Q、K 和 V。然后利用子注意力機制計算出Token之間的權重
  2. 前饋神經網絡(Feed-Forward Network, FFN) :對于注意力層的輸出進行投影,計算出下一層的輸入

2.2 Transformer 架構的缺陷

傳統Transformer在處理token與參數的交互時,依賴于固定數量的線性投影,這限制了模型的擴展性,這句話本身較難理解,因此接下來詳細論述架構的缺陷。

2.2.1 模型的拓展性是什么

模型的拓展性(Scalability)指的是模型在需要更強大性能時,能夠有效地增加其規模(如參數數量、計算能力等)而不導致性能下降或計算成本過高的能力。

簡而言之,拓展性好的模型可以在保持或提升性能的同時,靈活且高效地擴大其規模。

2.2.2 為什么說傳統Transformer的固定線性投影限制了模型的擴展性

3. TokenFormer的解決方案

為了解決模型維度固定導致的模型缺乏拓展性的問題,TokenFormer提出了一種創新的方法,通過將模型參數視為tokens,并利用注意力機制來處理token與參數之間的交互,從而實現更高效、更靈活的模型擴展。

圖片

3.1 模型參數Token化

參數Tokens:原本transformer模型的Q、K、V投影層不再是固定的矩陣,而是轉化為一組向量(tokens),例如:

圖片

3.2. Token-Parameter Attention(Pattention)層

Pattention層是TokenFormer的核心創新,它通過注意力機制來處理token與參數之間的交互。從而替代原本的Q,K,V,具體過程如下:

圖片

圖片圖片圖片圖片

4. 總體結構

為方便閱讀再把圖扔到這:

圖片

與傳統transformer結構相同,其總體上也包括兩層:多頭自注意力層和前饋網絡層。

4.1 多頭自注意力(Single-Head Variant:

圖片

4.2 前饋網絡(Feed-Forward Network, FFN)

圖片

這里也可以看到,相對于Transformer,Tokenformer就是將所有的投影層從固定的全連接網絡也變成了Pattention層。

4.3 與transformer的比較

圖片

下方公式左側代表傳統Transformer的自注意力機制,右側代表tokenformer的自注意力機制:

圖片

從上邊的圖中可以清楚看到,相對于transformer,本論文只是將投影層與連接層替換成了新的層。

5. 可擴展性

之前說過,相對于transformer,tokenformer主要是解決可拓展性的問題,那么假設我們要增加參數數量,或者要增加輸入維度,tokenformer如何進行增量學習?

圖片

圖片

這樣,模型的參數量可以按需擴展。

初始化策略:新增的參數tokens初始化為零,類似于LoRA技術(Low-Rank Adaptation),確保模型能夠在保持原有知識的基礎上,快速適應新的參數擴展。

6. 實驗部分

圖片

與從零重訓練的 Transformer 相比,如上圖所示,Y 軸代表模型性能,X 軸代表訓練成本。藍線代表使用 3000 億個 token 從頭開始訓練的 Transformer 模型,不同的圓圈大小代表不同的模型大小。

其他線條代表 Tokenformer 模型,不同顏色代表不同的Token數量。例如,紅線從 1.24 億個參數開始,擴展到 14 億個參數,其訓練集為從300B token中抽樣出的30B Token。最終版本模型的性能與相同規模的 Transformer 相當,但訓練成本卻大大降低。

黃線顯示,使用 60B個Token來訓練的增量版本在更低的訓練成本下,性能已經比 Transformer 更優。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2013-07-27 21:28:44

2013-06-27 11:21:17

2015-10-19 17:15:33

網絡架構/華三

2020-09-27 17:27:58

邊緣計算云計算技術

2020-09-16 10:28:54

邊緣計算云計算數據中心

2016-01-26 11:58:12

2013-09-09 16:28:36

2015-09-28 16:24:34

YARNHadoop計算

2018-09-25 07:00:50

2018-09-27 18:47:45

AIOpsDevOps

2013-07-27 21:41:14

APT攻擊下一代威脅

2009-04-06 08:42:18

Firefox瀏覽器

2022-07-06 11:38:40

人工智能AI

2011-06-30 11:02:22

2012-10-29 12:23:44

BYODIT

2009-01-11 10:13:39

Stripes開發框架JSP

2014-05-09 13:18:54

iOS移動互聯網

2012-12-12 10:29:57

2018-05-17 11:31:45

大數據IOTA架構數據架構

2010-04-08 09:16:23

Itanium架構
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄色一级电影免费观看 | 成人一级毛片 | a久久 | 久久av一区二区三区 | 日本中文在线视频 | 日韩免费看视频 | 毛片99| 国产精品视频一二三区 | 欧美国产日韩精品 | 国产自产c区 | 毛片黄| 性高朝久久久久久久3小时 av一区二区三区四区 | 亚洲精品在线视频 | www.狠狠干| 免费av在线网站 | 密桃av| 久久精品综合网 | 久久久国产一区二区三区四区小说 | 99re热这里只有精品视频 | 国产一区二区久久 | 国产亚洲黄色片 | 欧美国产日韩在线观看 | 中文字幕在线观看视频网站 | av在线一区二区三区 | 日韩视频免费看 | 另类亚洲视频 | 精品在线一区二区 | 中文在线亚洲 | 欧美激情久久久久久 | 四虎影视免费在线 | 精品网| 久久久亚洲一区 | 四虎最新视频 | 在线观看涩涩视频 | 国产精品久久片 | 久久久女女女女999久久 | 久久精品一二三影院 | 久久久国产网站 | 亚洲精品一区二区三区在线 | 精品日韩 | 91欧美激情一区二区三区成人 |