CVPR2025 | 五大榜單奪冠!MonSter:單目+雙目融合引領(lǐng)深度估計新紀(jì)元
1. 一眼概覽:
MonSter是一種創(chuàng)新性的雙分支立體匹配方法,首次將單目深度估計與雙目立體匹配協(xié)同優(yōu)化,在多個主流數(shù)據(jù)集上取得全面領(lǐng)先的性能。
2. 核心問題:
傳統(tǒng)立體匹配在遮擋、紋理缺失、重復(fù)結(jié)構(gòu)和遠(yuǎn)距離區(qū)域表現(xiàn)不佳,難以恢復(fù)精確深度。該研究核心在于:如何利用單目深度的結(jié)構(gòu)先驗彌補(bǔ)雙目匹配在病態(tài)區(qū)域中的信息缺失,同時消除單目深度的尺度漂移誤差。
3. 技術(shù)亮點:
- 雙分支協(xié)同架構(gòu):構(gòu)建單目深度和雙目匹配兩大分支,通過迭代互導(dǎo)實現(xiàn)相互增強(qiáng);
- 精細(xì)像素級校準(zhǔn)機(jī)制:提出“立體引導(dǎo)對齊(SGA)”和“單目引導(dǎo)優(yōu)化(MGR)”模塊,實現(xiàn)像素級尺度-偏移校正與精細(xì)立體細(xì)化;
- 領(lǐng)先的泛化能力:在五個主流數(shù)據(jù)集(SceneFlow、KITTI 2012/2015、Middlebury、ETH3D)全面奪冠,零樣本測試中顯著優(yōu)于現(xiàn)有SOTA方法。
4. 方法框架:
圖片
MonSter整體流程如下:
- 單目估計與初始立體匹配:利用DepthAnythingV2獲取單目深度,IGEV分支進(jìn)行初步立體匹配;
- 全局尺度對齊:通過最小二乘優(yōu)化將單目深度轉(zhuǎn)換為粗對齊的“單目視差”;
- 雙向迭代優(yōu)化:
SGA模塊利用高置信度立體結(jié)果,校正單目深度的像素級偏移;
MGR模塊反過來使用更新后的單目視差優(yōu)化立體匹配結(jié)果;
- 最終輸出:經(jīng)過多輪迭代后的立體分支輸出作為最終結(jié)果。
5. 實驗結(jié)果速覽:
圖片
MonSter在多個數(shù)據(jù)集上均達(dá)SOTA水準(zhǔn):
? Scene Flow:EPE 降至 0.37(提升15.9%);
? KITTI 2012/2015:D1-all 降至 1.33/1.41,優(yōu)于Selective-IGEV 和 CREStereo;
? ETH3D:Bad1.0降至0.72,領(lǐng)先IGEV 52%;
? Middlebury:RMSE降至0.20;
? 零樣本泛化:訓(xùn)練僅用Scene Flow,在ETH3D上Bad>1px降至2.03,優(yōu)于所有現(xiàn)有方法。
6. 實用價值與應(yīng)用:
MonSter具備強(qiáng)泛化與精度優(yōu)勢,特別適用于自動駕駛、機(jī)器人導(dǎo)航、增強(qiáng)現(xiàn)實、三維重建等場景,尤其在低紋理、遠(yuǎn)距離、反光表面等復(fù)雜環(huán)境中表現(xiàn)卓越,具備部署潛力。
7. 開放問題:
- ? MonSter是否可擴(kuò)展到多視角或光流估計任務(wù)中?
- ? 面對極端天氣或夜間環(huán)境時,其單目-雙目協(xié)同機(jī)制是否仍穩(wěn)定可靠?
- ? 如何進(jìn)一步壓縮模型體積,使其適用于移動終端或嵌入式設(shè)備?