成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CVPR滿分論文 | 英偉達(dá)開源雙目深度估計(jì)大模型FoundationStereo

人工智能 新聞
本文提出 FoundationStereo,通過大規(guī)模合成數(shù)據(jù)、自篩選流程及結(jié)合單目先驗(yàn)的架構(gòu)設(shè)計(jì),實(shí)現(xiàn)了無需微調(diào)的跨域泛化能力。

本文介紹了 FoundationStereo,一種用于立體深度估計(jì)的基礎(chǔ)模型,旨在實(shí)現(xiàn)強(qiáng)大的零樣本泛化能力。通過構(gòu)建大規(guī)模(100 萬立體圖像對(duì))合成訓(xùn)練數(shù)據(jù)集,結(jié)合自動(dòng)自篩選流程去除模糊樣本,并設(shè)計(jì)了網(wǎng)絡(luò)架構(gòu)組件(如側(cè)調(diào)諧特征主干和遠(yuǎn)程上下文推理)來增強(qiáng)可擴(kuò)展性和準(zhǔn)確性。這些創(chuàng)新顯著提升了模型在不同領(lǐng)域的魯棒性和精度,為零樣本立體深度估計(jì)設(shè)立了新標(biāo)準(zhǔn)。

相關(guān)論文 FoundationStereo: Zero-Shot Stereo Matching 獲得 CVPR 2025 滿分評(píng)審,代碼已開源。


  • 論文地址:https://arxiv.org/abs/2501.09898  
  • 項(xiàng)目主頁:https://nvlabs.github.io/FoundationStereo/  
  • 項(xiàng)目代碼和數(shù)據(jù)集:https://github.com/NVlabs/FoundationStereo/  

圖片

對(duì)比常用 RGBD 相機(jī):

圖片

目前 FoundationStereo 在 Middlebury, ETH3D 等多個(gè)排行榜位列第一。

圖片

圖片

引言

立體匹配算法雖在基準(zhǔn)數(shù)據(jù)集上表現(xiàn)優(yōu)異,但零樣本泛化能力仍不足。現(xiàn)有方法依賴目標(biāo)域微調(diào),且受限于網(wǎng)絡(luò)結(jié)構(gòu)或數(shù)據(jù)規(guī)模。本文提出 FoundationStereo,通過大規(guī)模合成數(shù)據(jù)、自篩選流程及結(jié)合單目先驗(yàn)的架構(gòu)設(shè)計(jì),實(shí)現(xiàn)了無需微調(diào)的跨域泛化能力。主要貢獻(xiàn)如下:

1.FoundationStereo 大模型

  • 提出首個(gè)零樣本泛化能力強(qiáng)大的立體匹配基礎(chǔ)模型,無需目標(biāo)域微調(diào)即可在多樣場(chǎng)景(室內(nèi) / 室外、無紋理 / 反射 / 透明物體等)中實(shí)現(xiàn)高精度深度估計(jì)。

2. 大規(guī)模合成數(shù)據(jù)集(FSD)

  • 構(gòu)建包含 100 萬立體圖像對(duì)的高保真合成數(shù)據(jù)集,覆蓋復(fù)雜光照、隨機(jī)相機(jī)參數(shù)及多樣化 3D 資產(chǎn),并通過路徑追蹤渲染提升真實(shí)性。
  • 設(shè)計(jì)迭代自篩選流程,自動(dòng)剔除模糊樣本(如重復(fù)紋理、純色區(qū)域),提升數(shù)據(jù)質(zhì)量。

3. 單目先驗(yàn)適配(STA 模塊)

  • 提出側(cè)調(diào)諧適配器(STA),將單目深度估計(jì)模型(DepthAnythingV2)的互聯(lián)網(wǎng)尺度幾何先驗(yàn)與 CNN 特征結(jié)合,顯著緩解合成到真實(shí)的域差距。

4. 注意力混合成本過濾(AHCF)

  • 軸向平面卷積(APC):將 3D 卷積解耦為空間和視差維度的獨(dú)立操作,擴(kuò)展感受野并降低計(jì)算開銷。
  • 視差 Transformer(DT):在成本體積中引入跨視差自注意力機(jī)制,增強(qiáng)長(zhǎng)程上下文推理能力。

5. 實(shí)驗(yàn)性能突破

  • 零樣本泛化:在 Middlebury、ETH3D 等基準(zhǔn)上超越微調(diào)模型(如 Middlebury BP-2 誤差從 7.5% 降至 1.1%)。
  • 領(lǐng)域內(nèi)最優(yōu):Scene Flow 測(cè)試集 EPE 刷新紀(jì)錄(0.34),ETH3D 微調(diào)后排名第一。

圖片

圖片

方法

概覽

1. 單目 - 立體協(xié)同:通過 STA 融合 ViT 的幾何先驗(yàn)與 CNN 的匹配能力,縮小仿真 - 真實(shí)差距。

2. 成本體積高效濾波:APC(大視差核) + DT(全局注意力)實(shí)現(xiàn)多尺度上下文聚合。

3. 數(shù)據(jù)驅(qū)動(dòng)泛化:百萬級(jí)合成數(shù)據(jù) + 自動(dòng)篩選,覆蓋極端場(chǎng)景(透明 / 反射 / 無紋理物體)。

圖片

單目基礎(chǔ)模型適配(Monocular Foundation Model Adaptation)

1.動(dòng)機(jī):合成數(shù)據(jù)訓(xùn)練的立體匹配模型存在仿真 - 真實(shí)差距(sim-to-real gap),而單目深度估計(jì)模型(如 DepthAnythingV2)在真實(shí)數(shù)據(jù)上訓(xùn)練,能提供更強(qiáng)的幾何先驗(yàn)。

2.方法:

  • 采用側(cè)調(diào)諧適配器(STA, Side-Tuning Adapter),將凍結(jié)的 DepthAnythingV2 ViT 特征與輕量級(jí) CNN(EdgeNeXt-S)提取的特征融合。
  • 實(shí)驗(yàn)對(duì)比三種融合策略(圖 3 左):

(a) 直接使用 ViT 特征金字塔 → 效果較差(缺乏局部細(xì)節(jié))。

(b) ViT 與 CNN 雙向特征交換 → 計(jì)算復(fù)雜,收益有限。

(c) ViT 最終層特征降維后與 CNN 特征拼接 → 最優(yōu)選擇(平衡效率與性能)。

  • 關(guān)鍵優(yōu)勢(shì):STA 模塊保留 ViT 的高層語義先驗(yàn),同時(shí)結(jié)合 CNN 的細(xì)粒度匹配能力,顯著提升對(duì)模糊區(qū)域(如弱紋理、反射表面)的魯棒性。

圖片

注意力混合成本過濾(Attentive Hybrid Cost Filtering)

1.混合成本體積構(gòu)造(Hybrid Cost Volume Construction)

  • 輸入:STA 提取的左右圖像 1/4 分辨率特征(fl4,fr4fl4,fr4)。
  • 構(gòu)造方式:
       a.分組相關(guān)(Group-wise Correlation):將特征分為 8 組,計(jì)算逐組相關(guān)性(VgwcVgwc),增強(qiáng)匹配多樣性。

        b.特征拼接(Concatenation):直接拼接左右圖像特征(VcatVcat),保留單目先驗(yàn)信息。

        c.最終成本體積:兼顧局部匹配與全局上下文。

圖片

2.軸向平面卷積(APC, Axial-Planar Convolution)

  • 問題:傳統(tǒng) 3D 卷積(如 3×3×3)對(duì)大視差范圍計(jì)算代價(jià)高,且感受野有限。
  • 改進(jìn):將 3D 卷積解耦為兩部分:
            a. 空間卷積(Ks×Ks×1Ks×Ks×1):處理圖像平面內(nèi)的特征。
            b. 視差卷積(1×1×Kd1×1×Kd):沿視差維度聚合信息。

效果:在視差維度使用大核(如 Kd=17),顯著提升長(zhǎng)距離匹配能力,同時(shí)降低內(nèi)存占用。

3.視差 Transformer(DT, Disparity Transformer)

  • 動(dòng)機(jī):傳統(tǒng)成本濾波缺乏全局視差關(guān)系建模。
  • 設(shè)計(jì):
        a.將成本體積降采樣至 1/16 分辨率,轉(zhuǎn)換為視差序列 token。
        b.通過 4 層 Transformer 編碼器(含 FlashAttention)執(zhí)行跨視差自注意力。
        c.位置編碼:實(shí)驗(yàn)表明余弦編碼優(yōu)于 RoPE(因視差維度固定)。
  • 作用:增強(qiáng)對(duì)薄結(jié)構(gòu)、重復(fù)紋理等復(fù)雜場(chǎng)景的匹配魯棒性。

圖片

4.初始視差預(yù)測(cè)

  • 對(duì)濾波后的成本體積 VC?VC?執(zhí)行 Soft-Argmin,生成 1/4 分辨率的初始視差圖 d0。

迭代優(yōu)化(Iterative Refinement)

  • 相關(guān)性體積查找:基于當(dāng)前視差 dk,從 VC 和左右特征相關(guān)性體積 Vcorr中提取特征。
  • GRU 更新:

    a. 輸入:成本體積特征 + 當(dāng)前視差 + 上下文特征(來自 STA)。

    b. 采用 3 級(jí) ConvGRU(粗到細(xì))逐步優(yōu)化視差,每級(jí)隱藏狀態(tài)由上下文特征        初始化。

  • 視差修正:通過卷積預(yù)測(cè)殘差 Δd,更新視差

圖片

損失函數(shù)(Loss Function)

  • 監(jiān)督目標(biāo):
         a.初始視差 d0:平滑 L1 損失。
         b.迭代優(yōu)化視差 {dk}{dk}:加權(quán) L1 損失(權(quán)重隨迭代指數(shù)衰減,γ=0.9)。

圖片

合成訓(xùn)練數(shù)據(jù)集(Synthetic Training Dataset)

  • 數(shù)據(jù)生成:
        a.工具:NVIDIA Omniverse 路徑追蹤渲染。

         b.多樣性增強(qiáng):隨機(jī)化相機(jī)參數(shù)(基線、焦距)、光照、物體布局。

         c.場(chǎng)景類型:結(jié)構(gòu)化室內(nèi) / 室外場(chǎng)景 + 隨機(jī)飛行的復(fù)雜物體(圖 4)。

  • 自篩選流程:

         a. 訓(xùn)練初始模型,在 FSD 上評(píng)估。

         b. 剔除 BP-2 > 60% 的模糊樣本(如無紋理區(qū)域、過度反射)。

         c. 重新生成數(shù)據(jù)并迭代訓(xùn)練(共 2 輪),提升數(shù)據(jù)質(zhì)量。

圖片

實(shí)驗(yàn)和結(jié)果

我們?cè)?PyTorch 中實(shí)現(xiàn)了 FoundationStereo 模型,使用混合數(shù)據(jù)集進(jìn)行訓(xùn)練,包括我們提出的 FSD 數(shù)據(jù)集以及 Scene Flow、Sintel、CREStereo、FallingThings、InStereo2K 和 Virtual KITTI 2 等公開數(shù)據(jù)集。采用 AdamW 優(yōu)化器訓(xùn)練 20 萬步,總 batch size 為 128,均勻分布在 32 塊 NVIDIA A100 GPU 上。初始學(xué)習(xí)率設(shè)為 1e-4,在訓(xùn)練過程進(jìn)行到 80% 時(shí)衰減為原來的 0.1 倍。輸入圖像隨機(jī)裁剪為 320×736 大小,并采用與 IGEV 類似的數(shù)據(jù)增強(qiáng)方法。訓(xùn)練時(shí)使用 22 次 GRU 迭代更新,而在后續(xù)實(shí)驗(yàn)中(除非特別說明),我們使用相同的基礎(chǔ)模型進(jìn)行零樣本推理,采用 32 次精煉迭代和 416 的最大視差范圍。除非特別說明,我們用同一權(quán)重的大模型進(jìn)行零樣本的泛化測(cè)試。

圖片

圖片

圖片

在消融實(shí)驗(yàn)中,我們系統(tǒng)驗(yàn)證了模型各關(guān)鍵組件的有效性:首先比較了不同單目基礎(chǔ)模型(DepthAnythingV2 和 DINOv2)及其融合策略,發(fā)現(xiàn) ViT 特征降維拼接 CNN 的 STA 設(shè)計(jì)效果最佳;其次測(cè)試了 AHCF 模塊中位置編碼(余弦編碼優(yōu)于 RoPE)、注意力范圍(僅視差維度優(yōu)于全成本體積)和 APC 卷積核配置(視差核尺寸 17 時(shí)性能飽和);最后證明了引入 FSD 數(shù)據(jù)集能顯著提升泛化性(Middlebury 上 BP-2 指標(biāo)從 2.34% 降至 1.15%)。這些實(shí)驗(yàn)全面支撐了模型設(shè)計(jì)的合理性。

圖片

圖片

圖片

FoundationStereo 在透明和千紋理物體上也表現(xiàn)出很好的泛化性:

圖片

團(tuán)隊(duì)介紹

該論文來自于英偉達(dá)研究院。其中論文一作華人溫伯文博士任高級(jí)研究員,此前曾在谷歌 X,F(xiàn)acebook Reality Labs, 亞馬遜和商湯實(shí)習(xí)。研究方向?yàn)闄C(jī)器人感知和 3D 視覺。獲得過 RSS 最佳論文獎(jiǎng)提名。個(gè)人主頁: https://wenbowen123.github.io/

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-04-07 06:30:00

AI開源

2025-05-13 16:57:18

2023-10-31 19:20:29

語言模型英偉達(dá)芯片

2025-05-19 08:41:00

AI模型開發(fā)者

2020-10-04 13:12:53

開源技術(shù) 數(shù)據(jù)

2024-06-17 08:55:00

2025-04-27 08:30:00

2022-06-01 16:47:53

AI模型開源

2024-06-17 07:00:00

2022-05-17 16:12:33

英偉達(dá)模型開源

2022-01-20 15:56:14

AI訓(xùn)練GPU

2024-10-18 14:46:51

2024-12-18 18:57:58

2025-06-18 08:51:28

2012-05-11 11:32:52

英偉達(dá)CUDA編譯器

2024-10-17 14:05:34

2018-06-27 19:32:59

人工智能深度學(xué)習(xí)機(jī)器學(xué)習(xí)

2024-08-22 18:58:27

英偉達(dá)微軟小語言模型

2020-03-09 15:27:25

開源技術(shù) 趨勢(shì)

2019-10-25 22:41:40

深度學(xué)習(xí)編程人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 九色视频网站 | 亚洲免费精品 | 午夜欧美 | 奇米影视首页 | 欧美亚洲视频在线观看 | 国产一级久久久久 | 日韩区| 日韩午夜精品 | 久久亚洲国产精品 | 亚洲不卡在线观看 | 91玖玖| 亚洲精彩视频 | 日韩免费一区 | 永久免费在线观看 | 欧美激情网站 | 欧美一二三区 | 久久久av | 一区二区三区免费 | 亚洲免费网站 | 中文字幕综合在线 | 伊人网在线播放 | 亚洲精品欧美 | 日韩精品免费视频 | 亚洲国产精品99久久久久久久久 | 成人国产在线视频 | 成人免费观看男女羞羞视频 | 99久久国产综合精品麻豆 | 免费成人在线网站 | 色视频免费 | 天天干天天操天天爽 | 欧美午夜影院 | 欧美精品一区二区三区在线播放 | 日本色综合 | 欧美啪啪 | 久久一二| 国产欧美一区二区三区在线看蜜臀 | 久久国产激情视频 | 国产精品久久久久久久久免费软件 | 日韩免费在线 | 国产一区二区三区久久久久久久久 | av中文字幕在线观看 |