RestoreDet:低分辨率圖像中目標檢測
本文經計算機視覺研究院公眾號授權轉載,轉載請聯系出處。
論文地址:https://arxiv.org/pdf/2201.02314.pdf
一、前言
當真正的退化未知或與假設不同時,預處理模塊和隨后的高級任務(如目標檢測)都會失敗。在這里,研究者提出了一個新的框架,RestoreDet,來檢測退化的低分辨率圖像中的目標。RestoreDet利用下采樣降級作為自監督信號的一種轉換,以探索針對各種分辨率和其他降級條件的等變表示。
具體來說,通過編碼和解碼一對原始和隨機退化圖像的退化變換來學習這種內在的視覺結構。該框架可以進一步利用具有任意分辨率恢復解碼器的高級SR架構來從退化的輸入圖像重建原始對應關系。表示學習和目標檢測都以端到端的訓練方式聯合優化。RestoreDet是一個通用框架,可以在任何主流目標檢測架構上實現。廣泛的實驗表明,基于CenterNet的框架在面對變質退化情況時與現有方法相比取得了卓越的性能。代碼很快就會發布。
二、背景
由于大規模數據集,高級視覺任務(即圖像分類、目標檢測和語義分割)取得了巨大成功。這些數據集中的圖像主要由具有更高分辨率和信噪比(SNR)的商用相機捕獲。在這些高質量圖像上進行訓練和優化后,高級視覺在低分辨率或低質量圖像上的性能會下降。為了提高視覺算法在退化的低分辨率圖像上的性能,Dai等人[Is image super-resolution helpful for other vision tasks?]提出了第一個全面的研究,提倡使用超分辨率(SR)算法對圖像進行預處理。其他高級任務,如人臉識別、人臉檢測、圖像分類和語義分割,也受益于恢復模塊以提取更多區分特征。
三、新框架分析
研究者不是在嚴格假設下使用恢復模塊顯式增強輸入圖像,而是利用針對各種分辨率和退化狀態的內在等變表示。基于上圖所示的編碼表示,研究者提出了 RestoreDet,這是一種用于在退化的LR圖像中進行目標對象檢測的端到端模型。為了捕捉視覺結構的復雜模式,利用下采樣退化變換組作為自我監督信號。在訓練過程中,通過隨機退化變換t從原始HR圖像x生成退化的LR圖像t(x)。如上圖所示,這對圖像被送入編碼器E以獲取其潛在特征E(x)和E(t(x))。
為了訓練編碼器E學習退化等變表示,研究者首先引入一個變換解碼器Dt來表示E(x)和E(t(x))解碼應用的退化變換t。如果可以重建轉換,則表示應盡可能捕捉它們在不同轉換下如何變化的動態。
為了進一步利用快速增長的SR研究的優勢,研究者引入了任意分辨率恢復解碼器 (ARRD) Dr。ARRD從各種退化的LR圖像t(x)的表示E(t(x))重建原始HR數據 x。ARRD Dr將監督編碼器E對有助于后續任務的詳細圖像結構進行編碼。基于編碼表示E(t(x)),目標檢測解碼器Do然后執行檢測以獲取對象的位置和類別。在推理過程中,目標圖像直接通過上圖中的編碼器E和目標檢測解碼器Do進行檢測。與基于預處理模塊的方法相比,研究者的推理pipeline計算效率更高。
為了覆蓋實際場景中的各種退化,根據實際的下采樣退化模型,通過隨機抽樣變換 t來生成退化的t(x)。如上圖所示,變換t由下采樣率s、退化核k和如下等式中的噪聲水平n表征。
上圖(a)是anchor free框架的CenterNet。圖(b)說明了如何基于CenterNet實現的RestoreDet。詳細的訓練過程在Algo.1中給出。在訓練RestoreDet時,原始HR圖像x和變換后的退化LR圖像t(x)被發送到編碼器E以對退化等變表示進行編碼。在這里,直接使用CenterNet的編碼器E,但將其復制到共享權重Siamese結構中,分別接收HR和LR圖像。
Algo.1
四、實驗及可視化
MS COCO 和KITTI數據集上性能比較
(a)/(b) is CenterNet trained on normal images and tested on normal/degraded down4 testset, (c)/(d)/(e) is CenterNet tested on the degraded image restored by individual SR algorithm RRDB/RealSR/BSRGan. (f) is the detection result of our RestoreDet and we use the output of ARRD Dr as background images.