Consistent-Teacher:半監督目標檢測超強SOTA
本文經計算機視覺研究院公眾號授權轉載,轉載請聯系出處。
論文地址:https://arxiv.org/abs/2209.01589
一、總概述
在本研究中,研究者深入研究了半監督目標檢測(SSOD)中偽目標的不一致性。核心觀察結果是,振蕩的偽目標破壞了精確的半監督檢測器的訓練。它不僅給學生的訓練注入了噪聲,而且導致了分類任務的嚴重過擬合。因此,研究者提出了一個系統的解決方案,稱為一致教師,以減少不一致。首先,自適應錨分配(ASA)取代了基于靜態IoU的策略,使學生網絡能夠抵抗噪聲偽邊界盒;然后,通過設計三維特征對齊模塊(FAM-3D)來校準子任務預測。它允許每個分類特征在任意尺度和位置自適應地查詢回歸任務的最優特征向量。最后,高斯混合模型(GMM)動態地修正了偽框的得分閾值,從而穩定了基本事實的數量
二、動機
在這項研究中,研究者指出,半監督檢測器的性能仍然在很大程度上受到偽目標不一致性的阻礙。不一致意味著偽框可能非常不準確,并且在訓練的不同階段變化很大。因此,不一致的振蕩邊界盒(bbox)會使SSOD預測產生累積誤差。與半監督分類不同,SSOD有一個額外的步驟,即為每個RoI/錨點分配一組偽框作為密集監督。常見的兩級和單級SSOD網絡采用靜態的錨分配標準,例如IoU分數或中心度。據觀察,靜態作業對教師預測的邊界框中的噪聲很敏感,因為假邊界框中一個小的擾動可能會極大地影響作業結果。因此,它導致未標記圖像上的嚴重過擬合。
為了驗證這一現象,在MS-COCO 10%數據的基礎上,用基于IoU的標準分配來訓練單級探測器。如下圖所示,教師輸出的微小變化導致偽框邊界中的強噪聲,導致在基于IoU的靜態分配下,錯誤目標與附近對象相關聯。這是因為一些未激活的主播在學生網絡中被錯誤地分配為陽性。因此,網絡會過擬合,因為它會為相鄰對象生成不一致的標簽。在未標記圖像的分類損失曲線中也觀察到過擬合。
不一致是指偽框可能高度不準確,并且在不同的訓練階段差異很大。
Motivation: Inconsisteny For SSOD
(左)比較“Mean-Teacher ”和“Consistent-Teacher”的訓練損失。在Mean-Teacher中,不一致的偽目標導致分類分支上的過擬合,而回歸損失變得難以收斂。相反,新提出的方法為學生設定了一致的優化目標,有效地平衡了這兩項任務并防止了過度擬合。
(右)偽標簽和分配動態的快照。綠色和紅色的框指的是北極熊的真值和偽值。紅點是為偽標簽指定的定位框。熱圖表示教師預測的密集置信度分數(越亮越大)。附近的木板最終在基線中被錯誤地歸類為北極熊,而提出的自適應分配防止了過度擬合。
三、實驗及結果
研究者的工作解決了SSOD的不一致問題。以下是訓練過程中不同時間步長的一些樣本檢測結果:
Red: False Positive; Blue: True Postive; Green: Ground-truth
Mean-Teacher
Consistent-Teacher
Mean-Teacher
Consistent-Teacher