移動傳感器引導的跨時節(jié)六自由度視覺定位,準確且高效
針對在時變的室外環(huán)境中難以視覺定位的問題,博士生顏深創(chuàng)新性地提出一種解決方案 SensLoc。SensLoc 利用移動設備內(nèi)置的傳感器數(shù)據(jù),如 GPS、指南針和重力傳感器,為視覺定位提供有效的初始位姿和約束條件,從而縮小圖像檢索和位姿估計的搜索空間。
此外,SensLoc 還設計了一個直接的 2D-3D 匹配網(wǎng)絡,以高效地建立查詢圖像與三維場景之間的對應關系,避免了現(xiàn)有系統(tǒng)中需要多次進行 2D-2D 匹配的低效方案。為了驗證 SensLoc 的有效性,論文還構建了一個新的數(shù)據(jù)集,該數(shù)據(jù)集包含了多種移動傳感器數(shù)據(jù)和顯著的場景外觀變化,并開發(fā)了一個系統(tǒng)來獲取查詢圖像的真實位姿。大量的實驗表明 SensLoc 可以在時變的室外環(huán)境中實現(xiàn)準確、魯棒且高效的視覺定位。
論文地址:https://arxiv.org/pdf/2304.07691.pdf
背景
目前主流的視覺定位法先構建查詢圖像的 2D 像素與參考地圖的 3D 點之間 2D-3D 的對應關系,然后使用 PnP RANSAC 算法求解相機的六自由度位姿。對于大范圍的場景,常采用圖像檢索作為中間步驟,以預先確定場景的哪些部分可能在查詢圖像中可見。然而,在時變的室外環(huán)境中,由于光照、季節(jié)和結構變化等因素導致的外觀差異,使得 2D-3D 匹配變得十分困難,因此在這種具有挑戰(zhàn)性條件下的視覺定位仍是一個未解決的問題。隨著配備了各種傳感器移動設備的逐漸普及,如慣性測量單元(IMU)、重力計、指南針、GPS、WiFi 和藍牙等,結合視覺和多傳感器的位姿估計法,為在實際場景中準確定位提供了一種新思路。
視覺定位的相關工作
1 基于三維模型的視覺定位
基于三維模型的視覺定位通過在查詢圖像和三維模型間建立 2D-3D 對應關系,估計相機六自由度的位姿。傳統(tǒng)的視覺定位方法通常采用人工設計的局部特征,如 SIFT,來實現(xiàn) 2D-3D 匹配,并結合圖像檢索技術,將匹配范圍限制在查詢圖像的可見區(qū)域,以適應大規(guī)模場景的需求。
近年來,隨著深度學習技術的發(fā)展,傳統(tǒng)的人工設計特征逐漸被基于深度學習的特征所替代。HLoc 是一種集成了多種基于深度學習的圖像檢索和圖像匹配方法的六自由度視覺定位框架,目前在該領域取得了最佳性能。然而,HLoc 仍然存在一些局限性。一方面,在檢索階段,全局特征不足以應對場景中的復雜視覺變化,可能會出現(xiàn)誤檢索的情況。另一方面,在 2D-3D 匹配階段,需要多次的 2D-2D 圖像匹配作為中間過程,導致較低的運行效率和較高的計算開銷。
為了解決這些問題,論文提出了一種基于自注意力和跨注意力機制的直接 2D-3D 匹配方法,該方法可以直接將二維查詢圖像與三維局部地圖進行一次匹配,從而提高視覺定位的速度和準確度。
2 基于多傳感器的視覺定位
在寬闊的室外環(huán)境下,GPS 能提供地理位置坐標(經(jīng)緯高)。一些方法將 GPS 作為先驗,以簡化視覺定位中的圖像檢索任務;而另一些方法將 GPS 作為優(yōu)化中的約束項,以提高視覺里程計和視覺 SLAM 的定位精度。此外,IMU 傳感器測量的重力方向具有較高的精度,是一種常用的位姿先驗。在可靠的重力方向引導下,以往的工作設計最小求解器(Minimal solvers)或者使用正則化項(Regularizers)約束來提升 PnP 的性能。然而,目前還沒有一種同時考慮多種傳感器的視覺定位方法。如今,手機和其他智能設備已經(jīng)配備了各種各樣的傳感器,包括陀螺儀、加速度計、指南針、GPS、Wifi 和藍牙等。因此,論文提出了一種新的視覺定位算法,以充分利用多種傳感器提供的先驗信息。
方法
針對上述背景和相關工作,論文提出了一個結合視覺和多傳感器的三階段方法。
1 基于傳感器的圖像檢索
給定查詢圖 ,圖像檢索任務需要在參考圖像集
里找到與查詢圖有共視關系的圖像子集:
之前的做法是用一個映射函數(shù)把查詢圖和參考圖映射到緊湊的特征空間,再使用最近鄰排序查找共視鄰居。由于映射函數(shù)的表征能力有限,在時變環(huán)境中,這套方法很可能失效。因此,論文提出使用傳感器位置和角度信息作為先驗,提前縮小圖像檢索的搜索范圍。
數(shù)學上,查詢圖像的先驗位姿表示為 ,其位置分量來源于 GPS,旋轉分量來自于重力計和指南針方向的集成。查詢圖像只需要在圖像子集
中檢索共視鄰居
其中, 表示經(jīng)緯度的 x-y 坐標,表示相機的主軸方向。
2 直接的 2D-3D 匹配
給定查詢圖 和共視鄰居
,2D-3D 匹配任務需要建立
像素點與
能觀察到的局部點云
之間的 2D-3D 對應關系。
具體而言,首先使用多層級網(wǎng)絡提取查詢圖 和參考圖
的粗(用
表示)、細(用
表示)粒度特征,然后將局部點云
投影在參考特征圖上并進行插值、平均,得到點云特征。
然后,使用帶注意力機制的網(wǎng)絡匹配查詢圖與局部點云的粗粒度特征,確定點云是否為查詢圖像所見,并初步確定它在圖像上的位置。使用注意力機制變換后的粗粒度圖像和點云特征分別為 ,概率匹配矩陣
表示為
通過互最近鄰和設定匹配閾值,粗粒度的 2D-3D 匹配 表示為
為互最近鄰,為預設閾值。
最后,對于每一個粗匹配對應的二維像素和三維點云 ,通過將點云的細粒度特征
與在
附近裁剪出細粒度窗口特征
進行點乘,得到匹配概率并計算二維位置期望,獲取查詢圖像的亞像素 與局部點云
的精確對應關系。
3 基于重力方向的 PnP RANSAC
給定 2D-3D 的對應關系,之前的工作通常采用 PnP RANSAC 算法求解相機的六自由度位姿。論文在 PnP RANSAC 迭代中插入一個簡單有效的驗證模塊,以保證重力方向的正確性。具體地,對于 RANSAC 迭代生成的位姿假設 ,其與傳感器位姿
在重力方向
上差值為
論文可采用條件 預先過濾掉大部分錯誤位姿,實現(xiàn)更高效、魯棒的位姿解算。
數(shù)據(jù)集
論文構建了一個新的數(shù)據(jù)集,用于驗證所提方法的有效性。該數(shù)據(jù)集包括一個城市公園(約 31,250 平方米),包含植被、河流、建筑和人行道。作為一個公共區(qū)域,其不可避免地會經(jīng)歷各種場景的變化,例如不同光照、季節(jié)、天氣,運動的行人、車輛,甚至新的基礎設施建設。數(shù)據(jù)集的構建流程如下圖所示。
1 三維參考地圖的構建
論文采用全景相機采集參考圖像,以構建三維參考地圖 。相較于單目相機,全景相機具有更高的采集效率。將 7,958 張全景圖像切分并轉換為針孔模型后,該數(shù)據(jù)集包括 47,780 張參考圖像。為了確定模型尺度并與地理坐標系保持一致,該研究預先在全景相機上綁定了一個 RTK 記錄儀,以記錄絕對地理坐標。
2 查詢圖像采集
在三維參考地圖構建完成半年后,該研究在相同地址中行走,并開發(fā)了一款安卓應用程序 Acquisition Application(采集 APP),使用華為 P40 pro 和小米 Mix 3 手機拍攝視頻以采集查詢圖像,并通過綁定 RTK 記錄儀獲取拍攝時的地理位置信息。該采集 APP 能夠同時記錄手機內(nèi)置傳感器的數(shù)據(jù),包括 IMU、重力計、指南針、藍牙、WiFi 和 GPS。拍攝視頻與所有傳感器均經(jīng)過硬件同步和細致校準。由于論文關注于單圖的視覺定位,因此視頻序列會進行采樣以生成不連續(xù)的單張圖像。
3 三維輔助地圖構建與偽位姿真值生成
由于查詢圖像與三維參考地圖之間存在跨時節(jié)的變化,因此基于半年前構建的三維參考地圖生成查詢圖像的偽位姿真值較為困難。論文提出在采集查詢圖像時,同時構建一個三維輔助地圖 。三維輔助地圖的構建方法與三維參考地圖類似,同樣使用全景相機和 RTK 記錄儀進行采集,并采用 ICP 技術進行對齊。基于三維輔助地圖生成查詢圖像的偽真值等同于基于三維參考地圖生成的偽真值。論文設計了一套聯(lián)合優(yōu)化方法生成偽真值,優(yōu)化項包括:1)圖像自定位約束;2)序列圖像的相對位姿約束;3)IMU 的運動約束;4)其他先驗約束,如重力方向和 RTK 位置。
結果
1 圖像檢索
檢索結果如下表所示。即使傳感器先驗本身不能輸出準確的結果,但它可以用于提升基于全局特征的檢索方法性能。總的來說,將全局特征 OpenIBL 與相機主軸方向先驗和 GPS 位置先驗相結合,可以取得最好的檢索效果。
2 視覺定位
視覺定位結果如下表所示。在具有挑戰(zhàn)性的夜間條件下,由于 SensLoc 的 2D-3D 匹配不用提取關鍵點,該方法大幅優(yōu)于其他基線方法。此外,SensLoc 只需執(zhí)行一次由粗到細的匹配,該方法的運行速度比效果排名第二的方法 HLoc(SuperPoint+SuperGlue)快 30 倍。另外,重力方向引導的 PnP RANSAC 不僅提高了精度,還將位姿估計的運行速度提升了 4 倍。可以看到,在時變的室外環(huán)境中,通過視覺和多傳感器數(shù)據(jù),可以實時求解出令人滿意的位姿。
3 消融分析
SensLoc 對圖像檢索結果的敏感性如下表所示。使用傳感器先驗或真值檢索結果可以顯著提高視覺定位在(25cm, 2?)/(50cm, 5?)/(1m, 10?)的召回率。消融分析表明,圖像檢索結果對 SensLoc 的位姿估計有著關鍵作用。
應用前景
該研究成果在民用和軍事領域都有廣泛的應用。在民用領域,該研究可用于自動駕駛、機器人導航、混合現(xiàn)實等眾多應用。在軍事領域,該研究可用于支持地面和空中有人/無人裝備,通過實景三維數(shù)字化戰(zhàn)場支撐拒止條件下的高精度自身定位與目標指示。