英偉達提出首個Mamba-Transformer視覺骨干網絡！打破精度/吞吐瓶頸 | CVPR 2025

作者：新智元 2025-03-10 08:47:00

CVPR 2025，混合新架構MambaVision來了！Mamba+Transformer混合架構專門為CV應用設計。MambaVision 在Top-1精度和圖像吞吐量方面實現了新的SOTA，顯著超越了基于Transformer和Mamba的模型。

正如標題所言「Attention is all you need」，Transformer已成為不同領域的「霸主」，包括計算機視覺、自然語言處理、語音處理和機器人技術。

第一個挑戰Transformer架構的是Mamba，一種新的狀態空間模型（SSM），它具有線性時間復雜度，并在多個語言建模任務中超越或與Transformer媲美。

但在不同的視覺任務上，Vision Transformer (ViT) 和卷積神經網絡 (CNN) 架構的骨干網絡，仍然優于基于Mamba的視覺模型。

而這一次，英偉達高級工程師Ali Hatamizade，宣布被頂會CVPR-2025接受的MambaVision，在視覺任務上超越以往的模型，而設計的關鍵在于將Mamba和Transformer混合。

正如圖1所示，在ImageNet-1K基準上，MambaVision的Top-1準確率和圖像處理能力達到了新的Pareto最優點，超越了Mamba、CNN和ViT基于的模型，有時差距非常顯著。

在下游任務如目標檢測、實例分割以及語義分割中，采用MambaVision作為骨干網絡的模型在MS COCO和ADE20數據集上分別超越了同等規模的對比模型。

MambaVision是首個針對計算機視覺應用，結合Mamba和Transformer的混合架構的嘗試。主要貢獻總結如下：

1 引入了重新設計的適用于視覺任務的Mamba模塊，提升了相較于原始Mamba架構的準確性和圖像處理能力。

2 系統性地研究了Mamba和Transformer模塊的融合模式，并展示了在最終階段加入自注意力模塊，顯著提高了模型捕捉全局上下文和長距離空間依賴的能力。

論文鏈接:https://arxiv.org/abs/2407.08083

在這項工作中，作者系統地重新設計了Mamba模塊，使其更加適合視覺任務。

新方法是一種混合架構，結合了新提出的公式（即MambaVision Mixer和MLP）以及Transformer模塊。

具體來說，研究了不同的集成模式，比如以等參數方式將Transformer模塊添加到早期、中間和最終層，或者每隔l層添加一次。

分析表明，在最終階段利用多個自注意力模塊，可以顯著增強捕捉全局上下文和長程空間依賴的能力。

使用混合架構相較于純Mamba或ViT模型，圖像處理能力也得到了顯著提升。

網絡架構

宏觀架構

如圖2所示，MambaVision 采用了分層架構，由4個不同的階段組成。

前兩個階段使用基于CNN的層，負責在較高輸入分辨率下進行快速特征提取，而第3和第4階段則包括了新提出的 MambaVision和Transformer模塊。

具體來說，給定一個大小為H×W×3的圖像，輸入首先被轉換為大小為H/4×W/4×C的重疊patch，并通過兩層連續 3×3的CNN 層（步幅為2）構成的主干投影到C維嵌入空間中。

在各個階段之間的下采樣模塊由一個批歸一化的3×3的CNN 層（步幅為2）組成，將圖像分辨率減半。

此外，第1和第2階段中的CNN模塊，采用了通用的殘差模塊結構，具體如下：

其中：Conv3×3 表示3×3卷積操作；BN表示批歸一化（Batch Normalization）；GELU 是激活函數，表示 Gaussian Error Linear Unit；z^ 是經過卷積、批歸一化和激活函數處理后的中間結果；最后，z是通過卷積和批歸一化后的結果與原始輸入相加，形成殘差連接。

這種結構有助于緩解深層網絡訓練中的梯度消失問題，并提高模型的訓練效率。