目標(biāo)檢測中的 Anchor 詳解

作者：二旺 2025-02-19 10:14:42

錨框是預(yù)定義的各種大小和寬高比的邊界框，作為目標(biāo)檢測的參考點(diǎn)。模型不是從頭開始預(yù)測框，而是調(diào)整這些錨框以更好地適應(yīng)實(shí)際物體，從而提高檢測的準(zhǔn)確性和效率。

直觀上，我們?nèi)绾晤A(yù)測圖像中的邊界框？第一個(gè)最明顯的技術(shù)是滑動(dòng)窗口。我們定義一個(gè)任意大小的窗口，并在圖像中“滑動(dòng)”它。在每一步中，我們分類窗口是否包含我們感興趣的對(duì)象。這就是我們所想的，對(duì)吧？那么，錨框?qū)⑹撬摹吧疃葘W(xué)習(xí)”版本。它更快，也更精確。

我們不只是滑動(dòng)一個(gè)窗口，而是同時(shí)滑動(dòng)一組不同大小和形狀的窗口。有些是小的用于小物體，有些是大的用于大物體，有些是高而瘦的用于人，有些是短而寬的用于公交車。

這些預(yù)定義的“窗口”就是錨框。它們就像你放在圖像上的一堆模板。我們不需要到處搜索；我們只需檢查每個(gè)模板（錨框）是否適合（或接近適合）一個(gè)物體。然后，我們的模型學(xué)會(huì)調(diào)整這些模板（錨框）以完美匹配它找到的物體。

一、定義

1. 錨框與邊界框

首先，我們?nèi)∫粋€(gè)錨框，并系統(tǒng)地將其放置在整個(gè)圖像上，類似于滑動(dòng)窗口方法。

然而，注意到這些錨框中沒有一個(gè)完美匹配圖像中的實(shí)際物體。由于我們只使用一種形狀和大小的錨框，它無法捕捉到不同尺寸和寬高比的物體。因此，僅靠這種方法不足以進(jìn)行準(zhǔn)確的目標(biāo)檢測。

架構(gòu)看起來更像這樣；錨框應(yīng)用于特征圖，然后它們被細(xì)化為邊界框

2. 關(guān)于錨框

錨框應(yīng)用于特征圖，而不是直接應(yīng)用于圖像。
錨框幫助生成邊界框，但它們本身不是最終的邊界框。

二、什么是特征圖？

特征圖是由卷積神經(jīng)網(wǎng)絡(luò)（CNN）創(chuàng)建的圖像的處理版本。它們?cè)诓煌?xì)節(jié)層次上捕捉重要模式，如邊緣、紋理和物體形狀。錨框不是放置在原始圖像上，而是放置在特征圖上，使模型能夠更有效地進(jìn)行預(yù)測。

三、為什么錨框應(yīng)用于特征圖而不是圖像？

1. 計(jì)算效率

將錨框直接應(yīng)用于圖像意味著在每個(gè)可能的位置放置數(shù)千甚至數(shù)百萬個(gè)錨框，導(dǎo)致巨大的計(jì)算成本。

相反，特征圖比原始圖像小得多，因?yàn)榫矸e層在下采樣圖像的同時(shí)保留了重要信息。

示例：

假設(shè)我們有一個(gè)512×512的圖像。在每個(gè)像素上放置錨框意味著評(píng)估262,144個(gè)位置（512×512）。
如果特征圖下采樣到32×32，我們現(xiàn)在只需要評(píng)估1,024個(gè)位置，使計(jì)算速度提高256倍。

2. 更豐富的特征表示

特征圖包含由CNN提取的高級(jí)信息，如邊緣、紋理和物體部分，這有助于更準(zhǔn)確地檢測物體。

如果我們將錨框直接放置在原始圖像上，它們將僅依賴于像素強(qiáng)度，這缺乏目標(biāo)檢測所需的更深層次理解。

3. 尺度不變性（有效檢測小和大物體）

目標(biāo)檢測中的一個(gè)巨大挑戰(zhàn)是物體有不同的尺寸。有些物體可能小而遠(yuǎn)，而有些物體可能大而近。如果我們將錨框直接放置在圖像上，它們將具有相同的尺度，使得檢測不同尺寸的物體變得困難。如果我們將錨框直接放置在圖像上，它們將具有固定的大小，并且不會(huì)調(diào)整以適應(yīng)不同物體的大小。

示例：

想象我們正在嘗試檢測圖像中的汽車：