成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首個全量化Vision Transformer的方法FQ-ViT,AI大模型落地不遠了!

人工智能 新聞
將算法網絡進行量化和模型轉換可以顯著降低模型推理的復雜性,并在實際部署中得到了廣泛的應用。然而,大多數現有的量化方法主要是針對卷積神經網絡開發的,并且在完全量化的vision Transformer上應用時會出現嚴重的掉點。今天我們就分享一個新技術,實現高精度量化的Vit部署。AI大模型落地使用離我們還遠嗎?

本文經計算機視覺研究院公眾號授權轉載,轉載請聯系出處。

圖片

論文地址:https://arxiv.org/pdf/2111.13824.pdf

項目代碼:https://github.com/megvii-research/FQ-ViT

01 總  述

Transformer 是現在火熱的AIGC預訓練大模型的基礎,而ViT(Vision Transformer)是真正意義上將自然語言處理領域的Transformer帶到了視覺領域。從Transformer的發展歷程就可以看出,從Transformer的提出到將Transformer應用到視覺,其實中間蟄伏了三年的時間。而從將Transformer應用到視覺領域(ViT)到AIGC的火爆也差不多用了兩三年。其實AIGC的火爆,從2022年下旬就開始有一些苗條,那時就逐漸有一些AIGC好玩的算法放出來,而到現在,AIGC好玩的項目真是層出不窮。

圖片

隨著近兩年來對視覺Transformer模型(ViT)的深入研究,ViT的表達能力不斷提升,并已經在大部分視覺基礎任務 (分類,檢測,分割等) 上實現了大幅度的性能突破。然而,很多實際應用場景對模型實時推理的能力要求較高,但大部分輕量化ViT仍無法在多個部署場景 (GPU,CPU,ONNX,移動端等)達到與輕量級CNN(如MobileNet) 相媲美的速度。

因此,重新審視了ViT的2個專屬模塊,并發現了退化原因如下:

  • 研究者發現LayerNorm輸入的通道間變化嚴重,有些通道范圍甚至超過中值的40倍。傳統方法無法處理如此大的激活波動,這將導致很大的量化誤差
  • 還發現注意力圖的值具有極端的不均勻分布,大多數值聚集在0~0.01之間,少數高注意力值接近1

基于以上分析,研究者提出了Power-of-Two Factor(PTF)來量化LayerNorm的輸入。通過這種方式,量化誤差大大降低,并且由于Bit-Shift算子,整體計算效率與分層量化的計算效率相同。此外還提出了Log Int Softmax(LIS),它為小值提供了更高的量化分辨率,并為Softmax提供了更有效的整數推理。結合這些方法,本文首次實現了全量化Vision Transformer的訓練后量化。

圖片


02 新框架

下面的這兩張圖表明,與CNN相比,視覺轉換器中存在嚴重的通道間變化,這導致了分層量化的不可接受的量化誤差。

圖片

首先解釋網絡量化符號。假設量化位寬為b,量化器Q(X|b)可以公式化為將浮點數X∈R映射到最近量化倉的函數:

圖片

Uniform Quantization

Uniform Quantization在大多數硬件平臺上都得到了很好的支持。它的量化器Q(X|b)可以定義為:

圖片

圖片

其中s(標度)和zp(零點)是由X的下界l和上界u確定的量化參數,它們通常是最小值和最大值。

Log2 Quantization

Log2 Quantization將量化過程從線性變化轉換為指數變化。其量化器Q(X|b)可定義為:

圖片

為了實現完全量化的視覺變換器,研究者對所有模塊進行量化,包括Conv、Linear、MatMul、LayerNorm、Softmax等。特別是,對Conv、線性和MatMul模塊使用均勻的Min-Max量化,對LayerNor和Softmax使用以下方法。

Power-of-Two Factor for LayerNorm Quantization

在推理過程中,LayerNorm計算每個正向步驟中的統計量μX,σX,并對輸入X進行歸一化。然后,仿射參數γ,β將歸一化輸入重新縮放為另一個學習分布。

如剛開始解釋分析一樣,與神經網絡中常用的BatchNorm不同,LayerNorm由于其動態計算特性,無法折疊到前一層,因此必須單獨量化它。然而,在對其應用訓練后量化時觀察到顯著的性能下降。查看LayerNorm層的輸入,發現存在嚴重的通道間變化。

研究者提出了一種簡單而有效的層范數量化方法,即Power-of-Two Factor(PTF)。PTF的核心思想是為不同的信道配備不同的因子,而不是不同的量化參數。給定量化位寬b,輸入活動X∈RB×L×C,逐層量化參數s,zp∈R1,以及PTFα∈NC,則量化活動XQ可以公式化為:

圖片

其中部分參數如下:

圖片

Softmax quantized with Log-Int-Softmax (LIS)

注意圖的存儲和計算是變壓器結構的瓶頸,因此研究者希望將其量化到極低的位寬(例如4位)。然而,如果直接實現4位均勻量化,則會出現嚴重的精度退化。研究者觀察到分布集中在Softmax輸出的一個相當小的值上,而只有少數異常值具有接近1的較大值。基于以下可視化,對于具有密集分布的小值區間,Log2保留了比均勻更多的量化區間。

圖片

將Log2量化與i-exp(i-BERT提出的指數函數的多項式近似)相結合,提出了LIS,這是一個僅整數、更快、低功耗的Softmax。

整個過程如下所示。

圖片

03 實驗&可視化

Comparison of the top-1 accuracy with state-of-the-art methods on ImageNet dataset

圖片

圖片

將注意力圖可視化,以查看均勻量化和LIS之間的差異,如上圖所示。當兩者都使用8位時,均勻量化集中在高激活區域,而LIS在低激活區域保留更多紋理,這保留了注意力圖的更多相對秩。在8位的情況下,這種差異不會產生太大的差異。然而,當量化到較低的位寬時,如6位和4位的情況所示,均勻量化會急劇退化,甚至使所有關注區域失效。相反,LIS仍然表現出類似于8位的可接受性能。

圖片

Channel-wise minimum and maximum values of Vision Transformers and ResNets

責任編輯:張燕妮 來源: 計算機視覺研究院
相關推薦

2024-11-12 06:23:50

ViTCIFAR10模型

2024-12-18 08:00:00

2024-03-18 07:48:00

大語言模型NVIDIA生成式 AI

2024-11-29 13:49:23

CogAgentGLM-PCAI

2022-02-08 15:43:08

AITransforme模型

2015-06-08 09:46:01

Google Play回歸

2018-10-30 18:51:39

英特爾第四范式AI

2010-07-29 16:24:40

新華都唐駿

2021-03-19 10:11:06

VimLinux命令

2021-04-12 14:30:30

GitLinux命令

2024-04-02 11:37:59

AGI網絡模型GAN

2023-09-07 15:01:45

2023-11-17 14:37:56

2024-02-17 08:00:00

內部威脅濫用數據網絡安全

2023-07-17 16:07:51

人工智能監管部門

2024-08-13 12:49:29

2024-11-21 16:06:02

2024-09-23 08:20:00

模型訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人午夜在线视频 | 日韩综合在线 | 久久精品久久久久久 | 玖玖精品| 九九99九九精彩46 | 天天插天天干 | 亚洲日韩中文字幕一区 | 中文字幕第7页 | 亚州视频在线 | 欧美一区二区 | 欧美a在线看 | 免费黄色av | 成人免费观看视频 | 日韩在线国产精品 | 久久久久久久91 | 91免费在线 | 国产精品成人一区二区三区吃奶 | 国产福利在线 | 国产剧情一区 | 国产欧美日韩一区二区三区在线 | 综合国产在线 | 欧美日韩国产在线观看 | 亚洲欧美日韩成人在线 | 91五月婷蜜桃综合 | 狠狠入ady亚洲精品经典电影 | 亚洲性视频| 国产成人艳妇aa视频在线 | 精品一区二区三区av | 久久亚洲视频网 | 国产精品国产三级国产aⅴ原创 | 在线a视频 | 四色永久| 毛片一级片 | 国产精品视频久久久久久 | av官网在线| 国产精品一区二区免费看 | 91tv在线观看 | 国产日韩精品在线 | 成人av一区二区三区 | 武道仙尊动漫在线观看 | 午夜视频网 |