高效目標檢測:動態候選較大程度提升檢測精度
本文經計算機視覺研究院公眾號授權轉載,轉載請聯系出處。
論文地址:https://arxiv.org/pdf/2207.05252.pdf
01 概述
大多數最先進的檢測方法利用固定數量的提議作為候選對象的中間表示,這在推理過程中無法適應不同的計算約束。
在今天分享中,研究者提出了一種簡單而有效的方法,該方法通過生成用于目標檢測的動態提議來適應不同的計算資源。首先設計一個模塊來制作一個基于查詢的模型,以便能夠用不同數量的提議進行推理。此外,研究者將其擴展到動態模型以根據輸入圖像選擇候選的數量,大大降低了計算成本。新提出的方法在包括兩階段和基于查詢的模型在內的各種檢測模型中實現了顯著的加速,同時獲得了相似甚至更好的準確度。
02 背景
目標檢測是一項基本但具有挑戰性的計算機視覺任務。給定輸入圖像,算法旨在同時對圖像中的目標進行定位和分類。為了實現良好的目標檢測性能,兩階段方法首先生成固定數量的粗略提議,然后對其進行細化以輸出細粒度預測。作為成功的雙階段方法之一,R-CNN系列利用區域候選網絡(RPN)粗略定位目標,然后提取感興趣區域特征以輸出精細預測。為了簡化目標檢測的過程,提出了基于查詢的方法來移除手動設計的Anchor框。
其中,DETR是一項開創性的工作,將目標檢測視為具有多階段變換器和學習對象查詢的直接集合預測問題。Sparse R-CNN設計了一個基于R-CNN檢測器的基于查詢的集合預測框架。通過用固定數量的可學習候選替換手工制作的候選,Sparse R-CNN有效地減少了候選的數量并避免了多對一的標簽分配。
在今天分享中,研究者制定了一種訓練策略,以促進單個模型根據硬件約束自適應地切換候選的數量。實證研究表明,新提出的模型在相同數量的候選下實現了與單獨訓練的模型相似的性能。此外,研究者還設計了一個網絡模塊,根據輸入圖像的復雜度動態選擇proposals的數量,有效降低了計算成本。
如上圖,與提出的動態候選相結合,四種所示檢測方法的推理速度大幅提高,同時保持了競爭性能。 推理速度是使用單個TITAN RTX GPU測量的。
03 新框架
研究者提出的方法的關鍵思想是用當前目標檢測方法中的動態大小替換固定數量的候選。新提出的模型不是使用固定候選,而是根據輸入圖像的內容或當前的計算資源選擇不同數量的候選,如下圖所示。
新提出的方法可以很容易地插入大多數兩階段和基于查詢的檢測方法。在接下來的部分中,首先回顧了當前帶有候選的目標檢測方法,并介紹了一種帶有可切換候選的訓練策略,以使新提出的模型在推理過程中適應不同的配置。然后,將可切換候選擴展到動態候選,以便可以根據輸入圖像自適應地調整候選編號。最后,引入了一種就地蒸餾策略,在每次訓練迭代中將模型中的知識從具有更多候選的網絡轉移到具有較少候選的網絡,這顯著提高了新模型的整體性能。
Dynamic Proposa
可切換候選有助于在不同數量的候選下執行兩階段或基于查詢的檢測模型。在這種情況下,建議的數量是根據外部資源而不是圖像的內容來選擇的。為了將proposal的數量和計算成本與圖像的內容聯系起來,研究者使用圖像中的物體數量作為指導來生成proposa的動態數量。
在訓練過程中,估計圖像中的物體數量,記為n~。然后用定義的確定性函數 δ(~n) 替換原始變量δ:
因此δ隨著預測目標數量的上限為1線性增長。給定新的動態候選數Nd:
在基于查詢的模型中,動態候選特征qd0和框bd0是從原始q0和b0中切片的:
在兩階段模型中,目標候選是從原始候選中采樣通過RPN使用下面定義的比率生成的的:
04 實驗
在MS COCO驗證集上單獨使用多種配置訓練的原始方法與使用可切換候選聯合訓練的原始方法之間的比較。
Cityscapes val上目標檢測和實例分割的基線模型進行比較。“DP”表示結合動態候選的模型。如下表:
具有動態候選的目標檢測及其相應的估計目標數量和候選數量。第一列顯示來自MS-COCO的圖像,第二列顯示來自Cityscapes的圖像。