2025年,Mamba“聯姻”Transformer,打造史上最強視覺骨干網絡!
1. 一眼概覽
MambaVision 提出一種混合 Mamba-Transformer 視覺骨干網絡,首次將狀態空間模型(SSM)與自注意力機制融合,顯著提升圖像分類、檢測和分割任務的準確率與效率,達到新一代性能-速度最優前沿。
2. 核心問題
雖然 Mamba 模型在語言任務中展現了優秀的長序列建模能力,但其自回歸結構難以高效捕捉圖像中的全局空間依賴,限制了在計算機視覺中的表現。如何在保持高吞吐和低復雜度的前提下建模圖像中的長程依賴,是本研究要解決的核心問題。
3. 技術亮點
- 視覺友好的 Mamba 重設計:引入對稱非 SSM 分支,替換因果卷積,有效增強對空間信息的建模能力;
- Mamba + Transformer 的混合架構:在模型末端引入多層自注意力塊,顯著提升對長程依賴的捕捉能力;
- SOTA 性能-效率平衡:在 ImageNet-1K 上實現新的準確率-吞吐率最優曲線,并在下游任務上超越主流主干模型。
4. 方法框架
圖片
MambaVision 使用四階段層次化架構:
? Stage 1–2:采用 CNN 殘差塊快速提取高分辨率特征;
? Stage 3–4:前半使用 MambaVision Mixer,后半加入 Transformer 自注意力模塊,結合局部與全局建模能力;
? Mixer 模塊:SSM 分支建模序列依賴,新增對稱卷積分支增強空間特征,最終拼接融合;
? 下采樣和線性投影貫穿各階段,形成統一的視覺表示。
5. 實驗結果速覽
?? 圖像分類(ImageNet-1K):
? MambaVision-B 實現 84.2% Top-1 準確率,超過 ConvNeXt-B(83.8%)和 Swin-B(83.5%);
? 同時吞吐率遠高于 VMamba 和 Swin 系列;
? GFLOPs 顯著減少(如比 MaxViT-B 少 56%)。
?? 目標檢測與實例分割(MS COCO):
? MambaVision-T/S/B 在 Mask-RCNN 和 Cascade-RCNN 中整體超過 Swin 和 ConvNeXt 同級模型;
? 如 MambaVision-B 達到 52.8 box AP / 45.7 mask AP。
?? 語義分割(ADE20K):
? MambaVision-B 實現 49.1% mIoU,優于 Swin-B(48.1%)和 Focal-B(49.0%)等。
6. 實用價值與應用
MambaVision 為部署在算力受限設備上的高性能視覺任務提供新方案,尤其適用于:
? 實時圖像分類與檢測;
? 高分辨率語義分割(如城市交通感知);
? 視覺感知系統中的輕量級嵌入式應用。
其優異的性能-效率權衡使其成為 Transformer 替代方案的新候選。
7. 開放問題
? 如果在更復雜的跨尺度視覺任務(如多模態融合)中,MambaVision 的表現是否仍具優勢?
? 是否能將 MambaVision 的混合模式推廣至視頻理解或時序圖像分析中?
? MambaVision 能否進一步壓縮為移動端模型以適應邊緣計算?