CVPR滿分論文 | 英偉達(dá)開源雙目深度估計(jì)大模型FoundationStereo

作者：機(jī)器之心 2025-04-07 09:45:00

本文提出 FoundationStereo，通過大規(guī)模合成數(shù)據(jù)、自篩選流程及結(jié)合單目先驗(yàn)的架構(gòu)設(shè)計(jì)，實(shí)現(xiàn)了無需微調(diào)的跨域泛化能力。

本文介紹了 FoundationStereo，一種用于立體深度估計(jì)的基礎(chǔ)模型，旨在實(shí)現(xiàn)強(qiáng)大的零樣本泛化能力。通過構(gòu)建大規(guī)模（100 萬立體圖像對(duì)）合成訓(xùn)練數(shù)據(jù)集，結(jié)合自動(dòng)自篩選流程去除模糊樣本，并設(shè)計(jì)了網(wǎng)絡(luò)架構(gòu)組件（如側(cè)調(diào)諧特征主干和遠(yuǎn)程上下文推理）來增強(qiáng)可擴(kuò)展性和準(zhǔn)確性。這些創(chuàng)新顯著提升了模型在不同領(lǐng)域的魯棒性和精度，為零樣本立體深度估計(jì)設(shè)立了新標(biāo)準(zhǔn)。

相關(guān)論文 FoundationStereo: Zero-Shot Stereo Matching 獲得 CVPR 2025 滿分評(píng)審，代碼已開源。

論文地址：https://arxiv.org/abs/2501.09898
項(xiàng)目主頁：https://nvlabs.github.io/FoundationStereo/
項(xiàng)目代碼和數(shù)據(jù)集：https://github.com/NVlabs/FoundationStereo/

對(duì)比常用 RGBD 相機(jī):

目前 FoundationStereo 在 Middlebury, ETH3D 等多個(gè)排行榜位列第一。

引言

立體匹配算法雖在基準(zhǔn)數(shù)據(jù)集上表現(xiàn)優(yōu)異，但零樣本泛化能力仍不足。現(xiàn)有方法依賴目標(biāo)域微調(diào)，且受限于網(wǎng)絡(luò)結(jié)構(gòu)或數(shù)據(jù)規(guī)模。本文提出 FoundationStereo，通過大規(guī)模合成數(shù)據(jù)、自篩選流程及結(jié)合單目先驗(yàn)的架構(gòu)設(shè)計(jì)，實(shí)現(xiàn)了無需微調(diào)的跨域泛化能力。主要貢獻(xiàn)如下:

1.FoundationStereo 大模型

提出首個(gè)零樣本泛化能力強(qiáng)大的立體匹配基礎(chǔ)模型，無需目標(biāo)域微調(diào)即可在多樣場(chǎng)景（室內(nèi) / 室外、無紋理 / 反射 / 透明物體等）中實(shí)現(xiàn)高精度深度估計(jì)。

2. 大規(guī)模合成數(shù)據(jù)集（FSD）

構(gòu)建包含 100 萬立體圖像對(duì)的高保真合成數(shù)據(jù)集，覆蓋復(fù)雜光照、隨機(jī)相機(jī)參數(shù)及多樣化 3D 資產(chǎn)，并通過路徑追蹤渲染提升真實(shí)性。
設(shè)計(jì)迭代自篩選流程，自動(dòng)剔除模糊樣本（如重復(fù)紋理、純色區(qū)域），提升數(shù)據(jù)質(zhì)量。

3. 單目先驗(yàn)適配（STA 模塊）

提出側(cè)調(diào)諧適配器（STA），將單目深度估計(jì)模型（DepthAnythingV2）的互聯(lián)網(wǎng)尺度幾何先驗(yàn)與 CNN 特征結(jié)合，顯著緩解合成到真實(shí)的域差距。

4. 注意力混合成本過濾（AHCF）

軸向平面卷積（APC）：將 3D 卷積解耦為空間和視差維度的獨(dú)立操作，擴(kuò)展感受野并降低計(jì)算開銷。
視差 Transformer（DT）：在成本體積中引入跨視差自注意力機(jī)制，增強(qiáng)長(zhǎng)程上下文推理能力。

5. 實(shí)驗(yàn)性能突破

零樣本泛化：在 Middlebury、ETH3D 等基準(zhǔn)上超越微調(diào)模型（如 Middlebury BP-2 誤差從 7.5% 降至 1.1%）。
領(lǐng)域內(nèi)最優(yōu)：Scene Flow 測(cè)試集 EPE 刷新紀(jì)錄（0.34），ETH3D 微調(diào)后排名第一。

方法

概覽

1. 單目 - 立體協(xié)同：通過 STA 融合 ViT 的幾何先驗(yàn)與 CNN 的匹配能力，縮小仿真 - 真實(shí)差距。

2. 成本體積高效濾波：APC（大視差核） + DT（全局注意力）實(shí)現(xiàn)多尺度上下文聚合。

3. 數(shù)據(jù)驅(qū)動(dòng)泛化：百萬級(jí)合成數(shù)據(jù) + 自動(dòng)篩選，覆蓋極端場(chǎng)景（透明 / 反射 / 無紋理物體）。

單目基礎(chǔ)模型適配（Monocular Foundation Model Adaptation）

1.動(dòng)機(jī)：合成數(shù)據(jù)訓(xùn)練的立體匹配模型存在仿真 - 真實(shí)差距（sim-to-real gap），而單目深度估計(jì)模型（如 DepthAnythingV2）在真實(shí)數(shù)據(jù)上訓(xùn)練，能提供更強(qiáng)的幾何先驗(yàn)。

2.方法：

采用側(cè)調(diào)諧適配器（STA, Side-Tuning Adapter），將凍結(jié)的 DepthAnythingV2 ViT 特征與輕量級(jí) CNN（EdgeNeXt-S）提取的特征融合。
實(shí)驗(yàn)對(duì)比三種融合策略（圖 3 左）：

(a) 直接使用 ViT 特征金字塔 → 效果較差（缺乏局部細(xì)節(jié)）。

(b) ViT 與 CNN 雙向特征交換 → 計(jì)算復(fù)雜，收益有限。

關(guān)鍵優(yōu)勢(shì)：STA 模塊保留 ViT 的高層語義先驗(yàn)，同時(shí)結(jié)合 CNN 的細(xì)粒度匹配能力，顯著提升對(duì)模糊區(qū)域（如弱紋理、反射表面）的魯棒性。

注意力混合成本過濾（Attentive Hybrid Cost Filtering）

1.混合成本體積構(gòu)造（Hybrid Cost Volume Construction）

輸入：STA 提取的左右圖像 1/4 分辨率特征（fl4,fr4fl4,fr4）。
構(gòu)造方式：
a.分組相關(guān)(Group-wise Correlation)：將特征分為 8 組，計(jì)算逐組相關(guān)性(VgwcVgwc)，增強(qiáng)匹配多樣性。

b.特征拼接（Concatenation）：直接拼接左右圖像特征（VcatVcat），保留單目先驗(yàn)信息。

c.最終成本體積：兼顧局部匹配與全局上下文。

2.軸向平面卷積（APC, Axial-Planar Convolution）

問題：傳統(tǒng) 3D 卷積（如 3×3×3）對(duì)大視差范圍計(jì)算代價(jià)高，且感受野有限。
改進(jìn)：將 3D 卷積解耦為兩部分：
a. 空間卷積(Ks×Ks×1Ks×Ks×1)：處理圖像平面內(nèi)的特征。
b. 視差卷積（1×1×Kd1×1×Kd）：沿視差維度聚合信息。

效果：在視差維度使用大核（如 Kd=17），顯著提升長(zhǎng)距離匹配能力，同時(shí)降低內(nèi)存占用。

3.視差 Transformer（DT, Disparity Transformer）

動(dòng)機(jī)：傳統(tǒng)成本濾波缺乏全局視差關(guān)系建模。
設(shè)計(jì)：
a.將成本體積降采樣至 1/16 分辨率，轉(zhuǎn)換為視差序列 token。
b.通過 4 層 Transformer 編碼器(含 FlashAttention)執(zhí)行跨視差自注意力。
c.位置編碼：實(shí)驗(yàn)表明余弦編碼優(yōu)于 RoPE（因視差維度固定）。
作用：增強(qiáng)對(duì)薄結(jié)構(gòu)、重復(fù)紋理等復(fù)雜場(chǎng)景的匹配魯棒性。

4.初始視差預(yù)測(cè)

對(duì)濾波后的成本體積 VC?VC?執(zhí)行 Soft-Argmin，生成 1/4 分辨率的初始視差圖 d0。

迭代優(yōu)化（Iterative Refinement）

相關(guān)性體積查找：基于當(dāng)前視差 dk，從 VC 和左右特征相關(guān)性體積 Vcorr中提取特征。
GRU 更新：

a. 輸入：成本體積特征 + 當(dāng)前視差 + 上下文特征（來自 STA）。

b. 采用 3 級(jí) ConvGRU（粗到細(xì)）逐步優(yōu)化視差，每級(jí)隱藏狀態(tài)由上下文特征初始化。

視差修正：通過卷積預(yù)測(cè)殘差 Δd，更新視差

損失函數(shù)（Loss Function）

監(jiān)督目標(biāo)：
a.初始視差 d0：平滑 L1 損失。
b.迭代優(yōu)化視差 {dk}{dk}：加權(quán) L1 損失（權(quán)重隨迭代指數(shù)衰減，γ=0.9）。

合成訓(xùn)練數(shù)據(jù)集（Synthetic Training Dataset）

數(shù)據(jù)生成：
a.工具：NVIDIA Omniverse 路徑追蹤渲染。

b.多樣性增強(qiáng)：隨機(jī)化相機(jī)參數(shù)（基線、焦距）、光照、物體布局。

c.場(chǎng)景類型：結(jié)構(gòu)化室內(nèi) / 室外場(chǎng)景 + 隨機(jī)飛行的復(fù)雜物體（圖 4）。

自篩選流程：

a. 訓(xùn)練初始模型，在 FSD 上評(píng)估。

b. 剔除 BP-2 > 60% 的模糊樣本（如無紋理區(qū)域、過度反射）。

c. 重新生成數(shù)據(jù)并迭代訓(xùn)練（共 2 輪），提升數(shù)據(jù)質(zhì)量。

實(shí)驗(yàn)和結(jié)果

我們?cè)?PyTorch 中實(shí)現(xiàn)了 FoundationStereo 模型，使用混合數(shù)據(jù)集進(jìn)行訓(xùn)練，包括我們提出的 FSD 數(shù)據(jù)集以及 Scene Flow、Sintel、CREStereo、FallingThings、InStereo2K 和 Virtual KITTI 2 等公開數(shù)據(jù)集。采用 AdamW 優(yōu)化器訓(xùn)練 20 萬步，總 batch size 為 128，均勻分布在 32 塊 NVIDIA A100 GPU 上。初始學(xué)習(xí)率設(shè)為 1e-4，在訓(xùn)練過程進(jìn)行到 80% 時(shí)衰減為原來的 0.1 倍。輸入圖像隨機(jī)裁剪為 320×736 大小，并采用與 IGEV 類似的數(shù)據(jù)增強(qiáng)方法。訓(xùn)練時(shí)使用 22 次 GRU 迭代更新，而在后續(xù)實(shí)驗(yàn)中（除非特別說明），我們使用相同的基礎(chǔ)模型進(jìn)行零樣本推理，采用 32 次精煉迭代和 416 的最大視差范圍。除非特別說明，我們用同一權(quán)重的大模型進(jìn)行零樣本的泛化測(cè)試。

在消融實(shí)驗(yàn)中，我們系統(tǒng)驗(yàn)證了模型各關(guān)鍵組件的有效性：首先比較了不同單目基礎(chǔ)模型（DepthAnythingV2 和 DINOv2）及其融合策略，發(fā)現(xiàn) ViT 特征降維拼接 CNN 的 STA 設(shè)計(jì)效果最佳；其次測(cè)試了 AHCF 模塊中位置編碼（余弦編碼優(yōu)于 RoPE）、注意力范圍（僅視差維度優(yōu)于全成本體積）和 APC 卷積核配置（視差核尺寸 17 時(shí)性能飽和）；最后證明了引入 FSD 數(shù)據(jù)集能顯著提升泛化性（Middlebury 上 BP-2 指標(biāo)從 2.34% 降至 1.15%）。這些實(shí)驗(yàn)全面支撐了模型設(shè)計(jì)的合理性。

FoundationStereo 在透明和千紋理物體上也表現(xiàn)出很好的泛化性:

團(tuán)隊(duì)介紹

該論文來自于英偉達(dá)研究院。其中論文一作華人溫伯文博士任高級(jí)研究員，此前曾在谷歌 X，F(xiàn)acebook Reality Labs, 亞馬遜和商湯實(shí)習(xí)。研究方向?yàn)闄C(jī)器人感知和 3D 視覺。獲得過 RSS 最佳論文獎(jiǎng)提名。個(gè)人主頁： https://wenbowen123.github.io/