Graph-DETR3D: 在多視角3D目標檢測中對重疊區域再思考
arXiv論文“Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object Detection“,22年6月,中科大、哈工大和商湯科技的工作。
從多個圖像視圖中檢測3-D目標是視覺場景理解的一項基本而富有挑戰性的任務。由于其低成本和高效率,多視圖3-D目標檢測顯示出了廣闊的應用前景。然而,由于缺乏深度信息,通過3-D空間中的透視圖去精確檢測目標,極其困難。最近,DETR3D引入一種新的3D-2D query范式,用于聚合多視圖圖像以進行3D目標檢測,并實現了最先進的性能。
本文通過密集的引導性實驗,量化了位于不同區域的目標,并發現“截斷實例”(即每個圖像的邊界區域)是阻礙DETR3D性能的主要瓶頸。盡管在重疊區域中合并來自兩個相鄰視圖的多個特征,但DETR3D仍然存在特征聚合不足的問題,因此錯過了充分提高檢測性能的機會。
為了解決這個問題,提出Graph-DETR3D,通過圖結構學習(GSL)自動聚合多視圖圖像信息。在每個目標查詢和2-D特征圖之間構建一個動態3D圖,以增強目標表示,尤其是在邊界區域。此外,Graph-DETR3D得益于一種新的深度不變(depth-invariant)多尺度訓練策略,其通過同時縮放圖像大小和目標深度來保持視覺深度的一致性。
Graph-DETR3D的不同在于兩點,如圖所示:(1)動態圖特征的聚合模塊;(2)深度不變的多尺度訓練策略。它遵循DETR3D的基本結構,由三個組件組成:圖像編碼器、transformer解碼器和目標預測頭。給定一組圖像I={I1,I2,…,IK}(由N個周視攝像機捕捉),Graph-DETR3D旨在預測感興趣邊框的定位和類別。首先用圖像編碼器(包括ResNet和FPN)將這些圖像變成一組相對L個特征圖級的特征F。然后,構建一個動態3-D圖,通過動態圖特征聚合(dynamic graph feature aggregation,DGFA)模塊廣泛聚合2-D信息,優化目標查詢的表示。最后,利用增強的目標查詢輸出最終預測。
如圖顯示動態圖特征聚合(DFGA)過程:首先為每個目標查詢構造一個可學習的3-D圖,然后從2-D圖像平面采樣特征。最后,通過圖連接(graph connections)增強了目標查詢的表示。這種相互連接的消息傳播(message propagation)方案支持對圖結構構造和特征增強的迭代細化方案。
多尺度訓練是2D和3D目標檢測任務中常用的數據增強策略,經證明有效且推理成本低。然而,它很少出現在基于視覺的3-D檢測方法中。考慮到不同輸入圖像大小可以提高模型的魯棒性,同時調整圖像大小和修改攝像機內參來實現普通多尺度訓練策略。
一個有趣的現象是,最終的性能急劇下降。通過仔細分析輸入數據,發現簡單地重新縮放圖像會導致透視-多義問題:當目標調整到較大/較小的比例時,其絕對屬性(即目標的大小、到ego point的距離)不會改變。
作為一個具體示例,如圖顯示這個多義問題:盡管(a)和(b)中所選區域的絕對3D位置相同,但圖像像素的數量不同。深度預測網絡傾向于基于圖像的占用面積來估計深度。因此,圖中的這種訓練模式可能會讓深度預測模型糊涂,并進一步惡化最終性能。
為此從像素透視重新計算深度。算法偽代碼如下:
如下是解碼操作:
重新計算的像素大小是:
假設尺度因子r = rx = ry,則簡化得到:
實驗結果如下:
注:DI = Depth-Invariant