CVPR滿分論文 | 英偉達(dá)開源雙目深度估計(jì)大模型FoundationStereo
本文介紹了 FoundationStereo,一種用于立體深度估計(jì)的基礎(chǔ)模型,旨在實(shí)現(xiàn)強(qiáng)大的零樣本泛化能力。通過構(gòu)建大規(guī)模(100 萬立體圖像對(duì))合成訓(xùn)練數(shù)據(jù)集,結(jié)合自動(dòng)自篩選流程去除模糊樣本,并設(shè)計(jì)了網(wǎng)絡(luò)架構(gòu)組件(如側(cè)調(diào)諧特征主干和遠(yuǎn)程上下文推理)來增強(qiáng)可擴(kuò)展性和準(zhǔn)確性。這些創(chuàng)新顯著提升了模型在不同領(lǐng)域的魯棒性和精度,為零樣本立體深度估計(jì)設(shè)立了新標(biāo)準(zhǔn)。
相關(guān)論文 FoundationStereo: Zero-Shot Stereo Matching 獲得 CVPR 2025 滿分評(píng)審,代碼已開源。
- 論文地址:https://arxiv.org/abs/2501.09898
- 項(xiàng)目主頁:https://nvlabs.github.io/FoundationStereo/
- 項(xiàng)目代碼和數(shù)據(jù)集:https://github.com/NVlabs/FoundationStereo/
對(duì)比常用 RGBD 相機(jī):
目前 FoundationStereo 在 Middlebury, ETH3D 等多個(gè)排行榜位列第一。
引言
立體匹配算法雖在基準(zhǔn)數(shù)據(jù)集上表現(xiàn)優(yōu)異,但零樣本泛化能力仍不足。現(xiàn)有方法依賴目標(biāo)域微調(diào),且受限于網(wǎng)絡(luò)結(jié)構(gòu)或數(shù)據(jù)規(guī)模。本文提出 FoundationStereo,通過大規(guī)模合成數(shù)據(jù)、自篩選流程及結(jié)合單目先驗(yàn)的架構(gòu)設(shè)計(jì),實(shí)現(xiàn)了無需微調(diào)的跨域泛化能力。主要貢獻(xiàn)如下:
1.FoundationStereo 大模型
- 提出首個(gè)零樣本泛化能力強(qiáng)大的立體匹配基礎(chǔ)模型,無需目標(biāo)域微調(diào)即可在多樣場(chǎng)景(室內(nèi) / 室外、無紋理 / 反射 / 透明物體等)中實(shí)現(xiàn)高精度深度估計(jì)。
2. 大規(guī)模合成數(shù)據(jù)集(FSD)
- 構(gòu)建包含 100 萬立體圖像對(duì)的高保真合成數(shù)據(jù)集,覆蓋復(fù)雜光照、隨機(jī)相機(jī)參數(shù)及多樣化 3D 資產(chǎn),并通過路徑追蹤渲染提升真實(shí)性。
- 設(shè)計(jì)迭代自篩選流程,自動(dòng)剔除模糊樣本(如重復(fù)紋理、純色區(qū)域),提升數(shù)據(jù)質(zhì)量。
3. 單目先驗(yàn)適配(STA 模塊)
- 提出側(cè)調(diào)諧適配器(STA),將單目深度估計(jì)模型(DepthAnythingV2)的互聯(lián)網(wǎng)尺度幾何先驗(yàn)與 CNN 特征結(jié)合,顯著緩解合成到真實(shí)的域差距。
4. 注意力混合成本過濾(AHCF)
- 軸向平面卷積(APC):將 3D 卷積解耦為空間和視差維度的獨(dú)立操作,擴(kuò)展感受野并降低計(jì)算開銷。
- 視差 Transformer(DT):在成本體積中引入跨視差自注意力機(jī)制,增強(qiáng)長(zhǎng)程上下文推理能力。
5. 實(shí)驗(yàn)性能突破
- 零樣本泛化:在 Middlebury、ETH3D 等基準(zhǔn)上超越微調(diào)模型(如 Middlebury BP-2 誤差從 7.5% 降至 1.1%)。
- 領(lǐng)域內(nèi)最優(yōu):Scene Flow 測(cè)試集 EPE 刷新紀(jì)錄(0.34),ETH3D 微調(diào)后排名第一。
方法
概覽
1. 單目 - 立體協(xié)同:通過 STA 融合 ViT 的幾何先驗(yàn)與 CNN 的匹配能力,縮小仿真 - 真實(shí)差距。
2. 成本體積高效濾波:APC(大視差核) + DT(全局注意力)實(shí)現(xiàn)多尺度上下文聚合。
3. 數(shù)據(jù)驅(qū)動(dòng)泛化:百萬級(jí)合成數(shù)據(jù) + 自動(dòng)篩選,覆蓋極端場(chǎng)景(透明 / 反射 / 無紋理物體)。
單目基礎(chǔ)模型適配(Monocular Foundation Model Adaptation)
1.動(dòng)機(jī):合成數(shù)據(jù)訓(xùn)練的立體匹配模型存在仿真 - 真實(shí)差距(sim-to-real gap),而單目深度估計(jì)模型(如 DepthAnythingV2)在真實(shí)數(shù)據(jù)上訓(xùn)練,能提供更強(qiáng)的幾何先驗(yàn)。
2.方法:
- 采用側(cè)調(diào)諧適配器(STA, Side-Tuning Adapter),將凍結(jié)的 DepthAnythingV2 ViT 特征與輕量級(jí) CNN(EdgeNeXt-S)提取的特征融合。
- 實(shí)驗(yàn)對(duì)比三種融合策略(圖 3 左):
(a) 直接使用 ViT 特征金字塔 → 效果較差(缺乏局部細(xì)節(jié))。
(b) ViT 與 CNN 雙向特征交換 → 計(jì)算復(fù)雜,收益有限。
(c) ViT 最終層特征降維后與 CNN 特征拼接 → 最優(yōu)選擇(平衡效率與性能)。
- 關(guān)鍵優(yōu)勢(shì):STA 模塊保留 ViT 的高層語義先驗(yàn),同時(shí)結(jié)合 CNN 的細(xì)粒度匹配能力,顯著提升對(duì)模糊區(qū)域(如弱紋理、反射表面)的魯棒性。
注意力混合成本過濾(Attentive Hybrid Cost Filtering)
1.混合成本體積構(gòu)造(Hybrid Cost Volume Construction)
- 輸入:STA 提取的左右圖像 1/4 分辨率特征(fl4,fr4fl4,fr4)。
- 構(gòu)造方式:
a.分組相關(guān)(Group-wise Correlation):將特征分為 8 組,計(jì)算逐組相關(guān)性(VgwcVgwc),增強(qiáng)匹配多樣性。
b.特征拼接(Concatenation):直接拼接左右圖像特征(VcatVcat),保留單目先驗(yàn)信息。
c.最終成本體積:兼顧局部匹配與全局上下文。
2.軸向平面卷積(APC, Axial-Planar Convolution)
- 問題:傳統(tǒng) 3D 卷積(如 3×3×3)對(duì)大視差范圍計(jì)算代價(jià)高,且感受野有限。
- 改進(jìn):將 3D 卷積解耦為兩部分:
a. 空間卷積(Ks×Ks×1Ks×Ks×1):處理圖像平面內(nèi)的特征。
b. 視差卷積(1×1×Kd1×1×Kd):沿視差維度聚合信息。
效果:在視差維度使用大核(如 Kd=17),顯著提升長(zhǎng)距離匹配能力,同時(shí)降低內(nèi)存占用。
3.視差 Transformer(DT, Disparity Transformer)
- 動(dòng)機(jī):傳統(tǒng)成本濾波缺乏全局視差關(guān)系建模。
- 設(shè)計(jì):
a.將成本體積降采樣至 1/16 分辨率,轉(zhuǎn)換為視差序列 token。
b.通過 4 層 Transformer 編碼器(含 FlashAttention)執(zhí)行跨視差自注意力。
c.位置編碼:實(shí)驗(yàn)表明余弦編碼優(yōu)于 RoPE(因視差維度固定)。 - 作用:增強(qiáng)對(duì)薄結(jié)構(gòu)、重復(fù)紋理等復(fù)雜場(chǎng)景的匹配魯棒性。
4.初始視差預(yù)測(cè)
- 對(duì)濾波后的成本體積 VC?VC?執(zhí)行 Soft-Argmin,生成 1/4 分辨率的初始視差圖 d0。
迭代優(yōu)化(Iterative Refinement)
- 相關(guān)性體積查找:基于當(dāng)前視差 dk,從 VC 和左右特征相關(guān)性體積 Vcorr中提取特征。
- GRU 更新:
a. 輸入:成本體積特征 + 當(dāng)前視差 + 上下文特征(來自 STA)。
b. 采用 3 級(jí) ConvGRU(粗到細(xì))逐步優(yōu)化視差,每級(jí)隱藏狀態(tài)由上下文特征 初始化。
- 視差修正:通過卷積預(yù)測(cè)殘差 Δd,更新視差
損失函數(shù)(Loss Function)
- 監(jiān)督目標(biāo):
a.初始視差 d0:平滑 L1 損失。
b.迭代優(yōu)化視差 {dk}{dk}:加權(quán) L1 損失(權(quán)重隨迭代指數(shù)衰減,γ=0.9)。
合成訓(xùn)練數(shù)據(jù)集(Synthetic Training Dataset)
- 數(shù)據(jù)生成:
a.工具:NVIDIA Omniverse 路徑追蹤渲染。
b.多樣性增強(qiáng):隨機(jī)化相機(jī)參數(shù)(基線、焦距)、光照、物體布局。
c.場(chǎng)景類型:結(jié)構(gòu)化室內(nèi) / 室外場(chǎng)景 + 隨機(jī)飛行的復(fù)雜物體(圖 4)。
- 自篩選流程:
a. 訓(xùn)練初始模型,在 FSD 上評(píng)估。
b. 剔除 BP-2 > 60% 的模糊樣本(如無紋理區(qū)域、過度反射)。
c. 重新生成數(shù)據(jù)并迭代訓(xùn)練(共 2 輪),提升數(shù)據(jù)質(zhì)量。
實(shí)驗(yàn)和結(jié)果
我們?cè)?PyTorch 中實(shí)現(xiàn)了 FoundationStereo 模型,使用混合數(shù)據(jù)集進(jìn)行訓(xùn)練,包括我們提出的 FSD 數(shù)據(jù)集以及 Scene Flow、Sintel、CREStereo、FallingThings、InStereo2K 和 Virtual KITTI 2 等公開數(shù)據(jù)集。采用 AdamW 優(yōu)化器訓(xùn)練 20 萬步,總 batch size 為 128,均勻分布在 32 塊 NVIDIA A100 GPU 上。初始學(xué)習(xí)率設(shè)為 1e-4,在訓(xùn)練過程進(jìn)行到 80% 時(shí)衰減為原來的 0.1 倍。輸入圖像隨機(jī)裁剪為 320×736 大小,并采用與 IGEV 類似的數(shù)據(jù)增強(qiáng)方法。訓(xùn)練時(shí)使用 22 次 GRU 迭代更新,而在后續(xù)實(shí)驗(yàn)中(除非特別說明),我們使用相同的基礎(chǔ)模型進(jìn)行零樣本推理,采用 32 次精煉迭代和 416 的最大視差范圍。除非特別說明,我們用同一權(quán)重的大模型進(jìn)行零樣本的泛化測(cè)試。
在消融實(shí)驗(yàn)中,我們系統(tǒng)驗(yàn)證了模型各關(guān)鍵組件的有效性:首先比較了不同單目基礎(chǔ)模型(DepthAnythingV2 和 DINOv2)及其融合策略,發(fā)現(xiàn) ViT 特征降維拼接 CNN 的 STA 設(shè)計(jì)效果最佳;其次測(cè)試了 AHCF 模塊中位置編碼(余弦編碼優(yōu)于 RoPE)、注意力范圍(僅視差維度優(yōu)于全成本體積)和 APC 卷積核配置(視差核尺寸 17 時(shí)性能飽和);最后證明了引入 FSD 數(shù)據(jù)集能顯著提升泛化性(Middlebury 上 BP-2 指標(biāo)從 2.34% 降至 1.15%)。這些實(shí)驗(yàn)全面支撐了模型設(shè)計(jì)的合理性。
FoundationStereo 在透明和千紋理物體上也表現(xiàn)出很好的泛化性:
團(tuán)隊(duì)介紹
該論文來自于英偉達(dá)研究院。其中論文一作華人溫伯文博士任高級(jí)研究員,此前曾在谷歌 X,F(xiàn)acebook Reality Labs, 亞馬遜和商湯實(shí)習(xí)。研究方向?yàn)闄C(jī)器人感知和 3D 視覺。獲得過 RSS 最佳論文獎(jiǎng)提名。個(gè)人主頁: https://wenbowen123.github.io/