牛津大學(xué)最新!Mickey:3D中的2D圖像匹配SOTA!(CVPR'24)
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面
項目鏈接:https://nianticlabs.github.io/mickey/
給定兩張圖像,可以通過建立圖像間的對應(yīng)關(guān)系來估計它們之間的相機相對姿態(tài)。通常,這些對應(yīng)關(guān)系是二維到二維的,而我們估計的姿態(tài)在尺度上是不確定的。一些應(yīng)用,例如隨時隨地實現(xiàn)即時增強現(xiàn)實,需要尺度度量的姿態(tài)估計,因此它們依賴于外部的深度估計器來恢復(fù)尺度。
本文提出了MicKey,這是一個關(guān)鍵點匹配流程,能夠預(yù)測三維相機空間中的度量對應(yīng)關(guān)系。通過學(xué)習(xí)跨圖像的三維坐標(biāo)匹配,我們能夠在沒有深度測量的情況下推斷出度量相對姿態(tài)。訓(xùn)練過程中也不需要深度測量,也不需要場景重建或圖像重疊信息。MicKey僅通過圖像對及其相對姿態(tài)進行監(jiān)督。MicKey在無需地圖的重新定位基準(zhǔn)測試中取得了最先進的性能,同時所需的監(jiān)督少于其他競爭方法。
Metric Keypoints(MicKey)是一個特征檢測流程,解決了兩個問題。首先,MicKey回歸相機空間中的關(guān)鍵點位置,這允許通過描述符匹配建立度量對應(yīng)關(guān)系。從度量對應(yīng)關(guān)系中,可以恢復(fù)度量相對姿態(tài),如圖1所示。其次,通過使用可微分的姿態(tài)優(yōu)化進行端到端的訓(xùn)練,MicKey僅需要圖像對及其真實相對姿態(tài)進行監(jiān)督。在訓(xùn)練過程中不需要深度測量。MicKey隱式地學(xué)習(xí)關(guān)鍵點的正確深度,并且僅對實際找到且準(zhǔn)確的特征區(qū)域進行學(xué)習(xí)。我們的訓(xùn)練過程對視覺重疊未知的圖像對具有魯棒性,因此,通常通過SFM獲得的信息(如圖像重疊)是不需要的。這種弱監(jiān)督使得MicKey非常易于訪問和吸引人,因為在新領(lǐng)域上訓(xùn)練它不需要除了姿態(tài)之外的任何額外信息。
在無需地圖的重新定位基準(zhǔn)測試中,MicKey名列前茅,超越了最近最先進的方法。MicKey提供了可靠的尺度度量姿態(tài)估計,即使在由特定針對稀疏特征匹配的深度預(yù)測所支持的極端視角變化下也是如此。
主要貢獻如下:
1)一個神經(jīng)網(wǎng)絡(luò)MicKey,它可以從單張圖像中預(yù)測度量三維關(guān)鍵點和它們的描述符,從而允許在圖像對之間估計度量相對姿態(tài)。
2)一種端到端的訓(xùn)練策略,它只需要相對姿態(tài)監(jiān)督,因此,在訓(xùn)練過程中既不需要深度測量,也不需要關(guān)于圖像對重疊的知識。
MicKey介紹
MicKey預(yù)測相機空間中關(guān)鍵點的三維坐標(biāo)。網(wǎng)絡(luò)還預(yù)測關(guān)鍵點的選擇概率(關(guān)鍵點分布)和描述符,這些描述符引導(dǎo)匹配的概率(匹配分布)。將這兩種分布結(jié)合起來,得到了在中兩個關(guān)鍵點成為對應(yīng)點的概率,并優(yōu)化網(wǎng)絡(luò),使得正確的對應(yīng)點更有可能出現(xiàn)。在一個可微分的RANSAC循環(huán)中,生成多個相對姿態(tài)假設(shè),并計算它們相對于真實變換的損失。通過REINFORCE生成梯度來訓(xùn)練對應(yīng)概率。由于我們的姿態(tài)求解器和損失函數(shù)是可微分的,反向傳播也為訓(xùn)練三維關(guān)鍵點坐標(biāo)提供了直接信號。
1)度量pose監(jiān)督的學(xué)習(xí)
給定兩張圖像,計算它們的度量相對姿態(tài),以及關(guān)鍵點得分、匹配概率和姿態(tài)置信度(以軟內(nèi)點計數(shù)形式)。我們的目標(biāo)是以端到端的方式訓(xùn)練所有相對姿態(tài)估計模塊。在訓(xùn)練過程中,我們假設(shè)訓(xùn)練數(shù)據(jù)為,其中是真實變換,K/K'是相機內(nèi)參。整個系統(tǒng)的示意圖如圖2所示。
為了學(xué)習(xí)三維關(guān)鍵點的坐標(biāo)、置信度和描述符,我們需要系統(tǒng)是完全可微分的。然而,由于pipeline中的一些元素不是可微分的,例如關(guān)鍵點采樣或內(nèi)點計數(shù),重新定義了相對姿態(tài)估計管道為概率性的。這意味著我們將網(wǎng)絡(luò)的輸出視為潛在匹配的概率,在訓(xùn)練過程中,網(wǎng)絡(luò)優(yōu)化其輸出以生成概率,使得正確的匹配更有可能被選中。
2)網(wǎng)絡(luò)結(jié)構(gòu)
MicKey遵循具有共享編碼器的多頭網(wǎng)絡(luò)架構(gòu),該編碼器可推斷3D度量關(guān)鍵點以及來自輸入圖像的描述符,如圖3所示。
編碼器。采用預(yù)訓(xùn)練的DINOv2模型作為特征提取器,并在不進行進一步訓(xùn)練或微調(diào)的情況下直接使用其特征。DINOv2將輸入圖像劃分為大小為14×14的塊,并為每個塊提供一個特征向量。最終的特征圖F具有(1024, w, h)的分辨率,其中w = W/14,h = H/14。
關(guān)鍵點Head。這里定義了四個并行Head,它們處理特征圖F并計算xy偏移量(U)、深度(Z)、置信度(C)和描述符(D)映射;其中映射的每個條目對應(yīng)于輸入圖像中的一個14×14的block。MicKey具有一個罕見的特性,即預(yù)測關(guān)鍵點作為稀疏規(guī)則網(wǎng)格的相對偏移量。獲得絕對2D坐標(biāo)如下:
實驗對比
在無地圖數(shù)據(jù)集上的相對姿態(tài)評估。報告了在90像素閾值下的VCRE指標(biāo)的曲線下面積(AUC)和精度(Prec.)值,MicKey的兩個版本都獲得了最高結(jié)果。此外,還報告了中位誤差,雖然MicKey在VCRE誤差方面獲得了最低值,但其他方法,例如RoMa,提供了更低的姿態(tài)誤差。為了計算中位誤差,基準(zhǔn)僅使用每種方法生成的有效姿態(tài),因此,我們報告了估計的總姿態(tài)數(shù)。最后,報告了匹配時間,并發(fā)現(xiàn)MicKey與LoFTR和LighGlue相當(dāng),同時顯著減少了RoMa的時間,RoMa是VCRE指標(biāo)方面最接近MicKey的競爭對手。匹配方法使用DPT 來恢復(fù)尺度。
MicKey生成的對應(yīng)點、得分和深度圖的示例。MicKey即使在大規(guī)模變化或?qū)捇€的情況下也能找到有效的對應(yīng)點。請注意,由于我們的特征編碼器,深度圖的分辨率比輸入圖像小14倍。我們遵循DPT 中使用的深度圖可視化方法,其中較亮的顏色表示較近的距離。
在ScanNet數(shù)據(jù)集上的相對姿態(tài)評估。所有特征匹配方法都與PlaneRCNN 結(jié)合使用,以恢復(fù)度量尺度。我們標(biāo)明了每種方法的訓(xùn)練信號:深度(D)、重疊分?jǐn)?shù)(O)和姿態(tài)(P)。