2PCNet:晝夜無(wú)監(jiān)督域自適應(yīng)目標(biāo)檢測(cè)
本文經(jīng)計(jì)算機(jī)視覺(jué)研究院公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
01 前景概要
在使用公認(rèn)的師生框架的方法中,特別是對(duì)于小規(guī)模和低光物體,仍然可以觀察到假陽(yáng)性誤差傳播。我們提出了一種兩階段一致性無(wú)監(jiān)督領(lǐng)域自適應(yīng)網(wǎng)絡(luò)2PCNet來(lái)解決這些問(wèn)題。該網(wǎng)絡(luò)在第一階段使用來(lái)自教師的高置信度邊界框預(yù)測(cè),并將其附加到學(xué)生的區(qū)域建議中,供教師在第二階段重新評(píng)估,從而產(chǎn)生高置信度和低置信度偽標(biāo)簽的組合。夜間圖像和偽標(biāo)簽在用作學(xué)生的輸入之前被縮小,從而提供更強(qiáng)的小規(guī)模偽標(biāo)簽。為了解決圖像中弱光區(qū)域和其他夜間相關(guān)屬性引起的錯(cuò)誤,我們提出了一種稱為NightAug的夜間特定增強(qiáng)管道。該管道涉及將隨機(jī)增強(qiáng)(如眩光、模糊和噪聲)應(yīng)用于日間圖像。在公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)表明,我們的方法比最先進(jìn)的方法和直接在目標(biāo)數(shù)據(jù)上訓(xùn)練的監(jiān)督模型獲得了20%的優(yōu)越結(jié)果。
02 背景&動(dòng)機(jī)
夜間目標(biāo)檢測(cè)在許多應(yīng)用中都是至關(guān)重要的。然而,通過(guò)監(jiān)督方法對(duì)注釋數(shù)據(jù)的要求是不切實(shí)際的,因?yàn)閹в凶⑨尩囊归g數(shù)據(jù)很少,并且監(jiān)督方法通常容易過(guò)度擬合訓(xùn)練數(shù)據(jù)。除其他原因外,這種稀缺性是由于光線條件差,使得夜間圖像難以注釋。因此,不假設(shè)注釋可用性的方法更有優(yōu)勢(shì)。領(lǐng)域自適應(yīng)(DA)是解決這一問(wèn)題的有效方法,它允許使用現(xiàn)成的注釋源日間數(shù)據(jù)集。
為了解決這個(gè)問(wèn)題,我們提出了2PCNet,一種用于夜間目標(biāo)檢測(cè)的兩階段一致性無(wú)監(jiān)督域自適應(yīng)網(wǎng)絡(luò)。我們的2PCNet將在第一階段預(yù)測(cè)的高度自信的偽標(biāo)簽的邊界框與學(xué)生的區(qū)域建議網(wǎng)絡(luò)(RPN)提出的區(qū)域合并在一起。然后,教師在第二階段使用合并后的提議來(lái)生成一組新的偽標(biāo)簽。這提供了高置信度和低置信度偽標(biāo)簽的組合。然后將這些偽標(biāo)簽與學(xué)生生成的預(yù)測(cè)進(jìn)行匹配。然后,我們可以利用加權(quán)一致性損失來(lái)確保無(wú)監(jiān)督損失的更高權(quán)重基于更強(qiáng)的偽標(biāo)簽,但允許較弱的偽標(biāo)簽影響訓(xùn)練。
配備了這種兩階段策略,我們解決了小規(guī)模對(duì)象的錯(cuò)誤問(wèn)題。我們?cè)O(shè)計(jì)了一種學(xué)生縮放技術(shù),故意縮小學(xué)生的夜間圖像及其偽標(biāo)簽。為了生成準(zhǔn)確的偽標(biāo)簽,教師的圖像保持在其全尺寸。這導(dǎo)致更容易預(yù)測(cè)的較大對(duì)象的偽標(biāo)簽被縮小到較小的對(duì)象,從而提高學(xué)生的小規(guī)模表現(xiàn)。夜間圖像存在日間場(chǎng)景中未發(fā)現(xiàn)的多種復(fù)雜情況,如黑暗區(qū)域、眩光、突出的噪聲、突出的模糊、不平衡的照明等。所有這些都造成了問(wèn)題,因?yàn)榻邮苋臻g圖像訓(xùn)練的學(xué)生更傾向于日間域的特征。為了緩解這個(gè)問(wèn)題,我們提出了NightAug,一組隨機(jī)的夜間特定增強(qiáng)。NightAug包括在白天的圖像中添加模擬夜間條件的人造眩光、噪音、模糊等。通過(guò)NightAug,我們能夠減少學(xué)生網(wǎng)絡(luò)對(duì)源數(shù)據(jù)的偏見(jiàn),而不會(huì)導(dǎo)致對(duì)抗性學(xué)習(xí)或計(jì)算密集型翻譯??傮w而言,使用2PCNet,我們可以在圖1中看到我們的結(jié)果在質(zhì)量上的改進(jìn)。
03 新框架設(shè)計(jì)
我們的2PCNet的體系結(jié)構(gòu)如下圖所示。我們的2PCNet由一個(gè)學(xué)生和一個(gè)教師網(wǎng)絡(luò)組成。該學(xué)生是一個(gè)多域網(wǎng)絡(luò),在標(biāo)記的白天圖像(用NightAug增強(qiáng))和未標(biāo)記的夜間圖像上進(jìn)行訓(xùn)練。老師專注于夜間圖像,為學(xué)生生成偽標(biāo)簽,是學(xué)生的指數(shù)移動(dòng)平均值(EMA)。
在初始預(yù)訓(xùn)練階段之后,教師開(kāi)始產(chǎn)生偽標(biāo)簽,這允許學(xué)生初始化特征提取器和檢測(cè)器。在2PCNet的第一階段的每次迭代中,教師從夜間圖像中產(chǎn)生偽標(biāo)簽。通過(guò)置信閾值對(duì)這些偽標(biāo)簽進(jìn)行過(guò)濾。這是為了確保只給學(xué)生高置信度的偽標(biāo)簽。然后將來(lái)自偽標(biāo)簽的邊界框與學(xué)生的RPN生成的區(qū)域建議相結(jié)合。合并后的區(qū)域建議然后用于從學(xué)生的RoI網(wǎng)絡(luò)生成預(yù)測(cè)。在第二階段,教師使用相同的合并區(qū)域建議來(lái)生成一組匹配的偽標(biāo)簽,其中每個(gè)偽標(biāo)簽都有從學(xué)生那里獲得的相應(yīng)預(yù)測(cè)。
Two-Phase Consistency
由于日間源圖像和夜間目標(biāo)圖像之間存在較大的域間隙,教師無(wú)法生成高質(zhì)量的偽標(biāo)簽。這種情況通常發(fā)生在整個(gè)場(chǎng)景中,但特別是對(duì)于具有強(qiáng)烈夜間特征的區(qū)域,例如弱光、眩光、不均勻照明等。教師只為與白天有更多相似性的區(qū)域生成自信的偽標(biāo)簽,因?yàn)樗蛴诎滋煊?。這種偏差給使用硬閾值來(lái)過(guò)濾分類交叉熵?fù)p失的偽標(biāo)簽的方法帶來(lái)了問(wèn)題。剩下的偽標(biāo)簽只包含具有日間屬性的簡(jiǎn)單樣本。因此,學(xué)生不會(huì)從較難(例如較暗)的區(qū)域?qū)W習(xí)。
由于對(duì)難樣本(即具有高水平夜間屬性的區(qū)域)的了解最少,教師開(kāi)始預(yù)測(cè)高度自信但不正確的偽標(biāo)簽。當(dāng)老師向?qū)W生提供這些不正確的偽標(biāo)簽時(shí),一個(gè)粘性循環(huán)開(kāi)始了,老師反過(guò)來(lái)用不正確的知識(shí)更新。因此,錯(cuò)誤通過(guò)訓(xùn)練繼續(xù)傳播。在我們的案例中,這些誤差明顯發(fā)生在黑暗/眩光區(qū)域和小尺度物體中。為了解決錯(cuò)誤傳播的問(wèn)題,我們?cè)O(shè)計(jì)了一種兩階段的方法,將高置信度的偽標(biāo)簽與其不太置信度的對(duì)應(yīng)標(biāo)簽結(jié)合在一起。這種組合允許自信標(biāo)簽的高精度,并將不太自信標(biāo)簽的額外知識(shí)提煉到學(xué)生身上。
(從左到右,從上到下)GT邊界框,教師預(yù)測(cè)的具有非極大抑制(NMS)和閾值(Bp)的邊界框,由Bp指導(dǎo)的學(xué)生預(yù)測(cè)的邊界框(Bstudent),以及教師預(yù)測(cè)的一致性損失的邊界框。
Student-Scaling
為了確保不會(huì)忘記先前標(biāo)度的知識(shí),應(yīng)用了標(biāo)度因子的高斯函數(shù)。高斯函數(shù)的范數(shù)是從調(diào)度值中獲得的。為了防止由于偽標(biāo)簽太小而產(chǎn)生額外的噪聲,將去除面積低于閾值的標(biāo)簽。
NightAug
夜間圖像有一系列日間場(chǎng)景中沒(méi)有的復(fù)雜情況。這導(dǎo)致了師生框架中的一個(gè)問(wèn)題,即學(xué)生會(huì)偏向于源領(lǐng)域。以前的方法試圖解決這個(gè)問(wèn)題,但要么需要計(jì)算密集型翻譯,要么在框架中添加額外的領(lǐng)域分類器,這使訓(xùn)練變得復(fù)雜。我們提出了NightAug,一種夜間特定的增強(qiáng)管道,它是計(jì)算光,不需要訓(xùn)練。NightAug由一系列增強(qiáng)組成,目的是引導(dǎo)白天圖像的特征與夜間圖像的特征相似。
NightAug:原始圖像(左上)和隨機(jī)增強(qiáng)的圖像:高斯模糊、伽馬校正、亮度、對(duì)比度、眩光、高斯噪聲和隨機(jī)剪切
每個(gè)增強(qiáng)都有一個(gè)應(yīng)用的概率,增強(qiáng)的強(qiáng)度是隨機(jī)的。然后可以用原始圖像的隨機(jī)區(qū)域替換增強(qiáng)圖像的隨機(jī)區(qū)。該區(qū)域替換的概率隨著每次迭代而降低。
04 實(shí)驗(yàn)及項(xiàng)目落地
Faster RCNN、Adaptive Teacher(AT)和我們的方法在SHIFT數(shù)據(jù)集上的定性結(jié)果,最右邊是真實(shí)值。我們可以觀察到,由于缺乏域自適應(yīng),F(xiàn)aster RCNN無(wú)法檢測(cè)對(duì)象,而與我們的方法相比,AT有大量的小誤報(bào)邊界框,我們提出的方法與GT非常相似。
目前在很多城市為了趕工,有許多工地都是夜晚進(jìn)行作業(yè),為了作業(yè)過(guò)程中的安全施工以及非員工潛入等問(wèn)題,某建筑企業(yè)采用了AI技術(shù)進(jìn)行安全生產(chǎn)和管理。