成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO

新聞 機器學習
VOLO 是第一個在 ImageNet 上無需額外數據達到 87.1% top-1 準確率的模型,進一步拉近了視覺 Transformer 與最頂級 CNN 模型的性能距離。

[[407987]]

近十年來,計算機視覺識別任務一直由卷積神經網絡 (CNN) 主導。盡管最近流行的視覺 Transformer 在基于 self-attention 的模型中顯示出巨大的潛力,但是在沒有提供額外數據的情況下,比如在 ImageNet 上的分類任務,它們的性能仍然不如最新的 SOTA CNNs。目前,在無額外數據集時,ImageNet 上的最高性能依舊是由 Google DeepMind 提出的 NFNet (Normalizer-Free Network)所獲得。

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO

ImageNet 分類性能實時排行榜(無額外數據集),來源 https://paperswithcode.com/

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO

Cityscapes validation 實時排行榜,來源 https://paperswithcode.com/

在一篇最近發表的論文中,來自新加坡 Sea 集團旗下、顏水成教授領導的 Sea AI Lab (SAIL) 團隊提出了一種新的深度學習網絡模型結構——Vision Outlooker (VOLO),用于高性能視覺識別任務。它是一個簡單且通用的結構,在不使用任何額外數據的情況下,實現了在 ImageNet 上圖像分類任務 87.1% 的精度目標;同時,實現了在分割數據集 CityScapes Validation 上 84.3% 的性能,創下 ImageNet-1K 分類任務和 CityScapes 分割任務的兩項新紀錄。

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO

VOLO 模型與 SOTA CNN 模型(NFNet)和 Transformer 模型(CaiT)的 ImageNet top-1 準確率比較。在使用更少參數的情況下,VOLO-D5 優于 CaiT-M48 和 NFNet-F6,并首次在不使用額外訓練數據時達到了 87% 以上的 top-1 準確率。

顏水成教授認為,以 Transformer 為代表,「Graph Representation + Attentive Propagation」以其靈活性和普適性已展現出成為各領域統一框架的潛能,VOLO 算法表明了在視覺領域 Attention 機制也可以超越 CNN, 佐證了各領域走向模型統一的可行性。

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO
  • 論文地址:https://arxiv.org/pdf/2106.13112.pdf
  • GitHub 地址:https://github.com/sail-sg/volo

方法概述

這項工作旨在縮小性能差距,并證明在無額外數據的情況下,基于注意力的模型優于 CNN。

具體來說,作者發現限制 self-attention 模型在圖像分類中的性能的主要因素是在將精細級特征編碼到 token 表征中的效率低下

為了解決這個問題,作者提出了一種新穎的 outlook attention,并提出了一個簡單而通用的架構——Vision OutLOoker (VOLO)。

與專注于粗略全局依賴建模的 self-attention 不同,outlook attention 旨在將更精細的特征和上下文有效地編碼為 token,這些 token 對識別性能至關重要,但在很大程度上被自注意力所忽略。

Outlooker

VOLO 框架分為兩個階段,或者說由兩個大的 block 構成:

  • 第一個階段由多層 outlooker 構成,旨在用于生成精細級別的數據表征;
  • 第二個階段部署一系列 transformer 層來聚合全局信息。在每個階段的開始,使用 patch 嵌入模塊將輸入映射到相應大小的數據表示。

第一個 stage 由多層 outlooker 構成,outlooker 是本文提出的特殊的 attention 層,每一層 outlooker 由一層 outlook attention 層和 MLP 構成,如下所示為一層 outlooker 的實現方式。

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO

其中,核心操作為 Outlook attention,如下圖所示:

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO

具體來說,outlook attention 的操作如下所示:

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO

總體而言,outlook attention 具有如下優點:

  • 較低的復雜度:相對于普通 self-attention 的時間復雜度是 O(H^2xW^2),而 outlook attention 只有 O(HW x k2 x k2)=O(HW x k4),而窗口大小 k 一般只有 3 或者 5,遠小于圖片尺寸 H 和 W。因此可用于具有更高分辨率的特征圖(例如,28x28 標記),這是提高 ViT 的有效方法;
  • 更好建模局部細節:適用于下游視覺應用,如語義分割;
  • Key and Query free: outlook attention 中無 Key 和 Query,attention map 可以直接由線性生成,去掉 MatMul(Query, Key),節省計算量;
  • 靈活性:可以很容易地構成一個帶有 self-attention 的混合網絡。

作者也提供了 Outlook attention 實現的偽代碼,如下圖所示:

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO

基于提出的 Outlooker 和傳統的 Transformer, 該工作提出了 VOLO 架構,同時包含五個大小變體,從小到大依次為 VOLO-D1 到 D5,架構示意如下圖所示:

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO

實驗

研究者在 ImageNet 數據集上對 VOLO 進行了評估,在訓練階段沒有使用任何額外訓練數據,并將帶有 Token Labeling 的 LV-ViT-S 模型作為基線。他們在配有 8 塊英偉達 V100 或 A100 GPU 的單個節點機上訓練除 VOLO-D5 之外所有的 VOLO 模型,VOLO-D5 需要在雙節點機上訓練。

V0LO-D1 到 VOLO-D5 模型的設置如下表 3 所示:

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO

主要結果

下表 4 中,研究者將 VOLO 模型與 SOTA 模型進行了比較,所有的結果都基于純(pure)ImageNet-1k 數據集,沒有使用額外訓練數據。結果表明,VOLO 模型優于 CNN、Transformer 等以往 SOTA 模型。

具體來說,該工作在圖像分類和分割中驗證了所提方法有效性,下圖為 VOLO 在 ImageNet 上的實驗結果,可以看出,僅憑 27M 參數,VOLO-D1 就可以實現 85.2% 的準確率,遠超以往所有模型。同時 VOLO-D5 實現了 87.1% 的準確率,這也是當前在無額外數據集下 ImageNet 最好結果,比以往 SOTA 模型 NFNet-F6 有 0.5% 以上的提升。

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO

Outlooker 的性能

研究者展示了 Outlooker 在 VOLO 模型中的重要性,他們將最近的 SOTA 視覺 transformer 模型 LV-ViT-S 作為基線。LV-ViT-S 及 VOLO-D1 模型的實驗設置和相應結果如下表 5 所示:

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO

研究者還對 Outlooker 與局部自注意力(local self-attention)和空間卷積進行了比較,結果如下表 6 所示。結果表明,在訓練方法和架構相同的情況下,Outlooker 優于局部自注意力和空間卷積。

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO

消融實驗

研究者將 VOLO-D1 模型擴展至 4 個不同的模型,即 VOLO-D2 到 VOLO-D5,具體的規格如上表 2 所示,相應的結果如下表 7 所示。結果表明,當增加訓練模型大小和測試分辨率時,VOLO 模型都可以實現性能提升。

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO

研究者還發現,VOLO 模型中 Outlooker 的數量對分類性能產生影響。下表 8 中,研究者在展示了不同數量的 Outlooker 在 VOLO 模型中的影響。

結果表明,在不使用 Outlooker 時,具有 16 個 transformer 的基線模型取得了 83.3% 的準確率。增加 Outlooker 的數量可以提升準確率,但使用 4 個 Outlooker 時即達到了性能飽和,之后增加再多的數量也無法帶來任何性能增益。

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO

下游語義分割任務上的性能

同時,該框架在下游任務上也取得了極大的提升,比如語義分割任務上,VOLO-d4 在 CityScapes 上實現 84.3 mIoU,在 ADE20k 上實現了 54.3 mIoU。

無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO
無需額外數據,首次實現ImageNet 87.1% 精度,顏水成團隊開源VOLO

總體來說,實驗表明 VOLO 在 ImageNet-1K 分類上達到了 87.1% 的 top-1 準確率,在無額外數據集的情況下,首次在 ImageNet 上超過 87% 準確率的模型。

同時將該框架用于下游任務,比如語義分割 (Semantic Segmentation) 上,在 Cityscapes 和 ADE20k 上也實現了非常高的性能表現,VOLO-D5 模型在 Cityscapes 上實現 84.3% mIoU,目前位居 Cityscapes validation 首位。

工作總結

這個工作提出了一個全新的視覺模型,并取得了 SOTA 的效果。首次在無額外數據集下,讓 attention 主導的模型超越了 CNN 主導的模型精度。在證明了視覺 attention 的重要性的同時,為研究社區引入新的的模型框架和訓練策略。

 

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-11-10 15:24:25

AI 數據人工智能

2024-04-25 14:53:59

模型視覺

2019-01-29 10:27:27

量子計算機芯片超算

2023-02-03 16:31:02

模型

2025-03-11 09:35:00

2012-06-20 10:01:16

4GTD-LTELTE FDD

2022-12-05 16:45:57

模型方法

2021-05-07 09:34:20

量子芯片計算機

2024-11-11 08:30:00

2019-11-20 15:01:55

開源技術 趨勢

2020-07-15 08:13:02

告警疲勞安全運營中心SOC

2024-03-13 13:49:22

Sora核心組件DiT

2021-07-26 16:31:30

網絡數據技術

2019-12-27 15:16:34

設計人工智能開發

2020-07-24 11:17:51

開源技術 趨勢

2024-03-05 11:31:00

AI數據

2014-08-25 10:00:18

開源

2010-11-18 09:32:19

微軟開源Web應用程序

2024-10-21 12:30:00

模型框架

2021-11-25 12:35:03

模型人工智能深度學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久久久久国产 | www.天天干.com | 日本视频在线播放 | 亚洲视频在线观看 | 自拍亚洲| 精品国产乱码久久久久久88av | 日韩一区二区在线视频 | 在线欧美亚洲 | 国产不卡视频在线 | 国产精品久久久久久久久大全 | 午夜激情视频 | 九九综合 | 91在线观看| 亚洲一区国产精品 | 亚洲国产一区在线 | jav成人av免费播放 | 一区二区av | 亚洲精品视频在线观看免费 | 中文精品视频 | 国产免费一区二区 | 日韩欧美精品在线 | 一区二区在线免费播放 | 超碰在线播 | 国产日韩欧美一区二区 | 精品成人佐山爱一区二区 | 日韩一区精品 | 在线播放中文字幕 | 免费看片国产 | 国产片一区二区三区 | 亚洲国产成人精品久久久国产成人一区 | 男女羞羞网站 | 欧美日韩视频在线播放 | 一区二区三区精品在线视频 | 亚洲国产精品99久久久久久久久 | 国产精品视频久久久 | 久久中文字幕一区 | 视频1区| 亚洲欧美日韩国产 | 台湾a级理论片在线观看 | 精品久久久久一区二区国产 | ririsao久久精品一区 |