改進的YOLO：AF-FPN替換金字塔模塊提升目標檢測精度

作者：計算機視覺研究院 2024-06-26 10:16:41

隨著世界邁向第四次工業革命，電動車越來越普遍，但是路上的交通標志也五花八門，如果利用計算機視覺技術可以全部檢測識別，那也是一大進步！

本文經計算機視覺研究院公眾號授權轉載，轉載請聯系出處。

源代碼：https://arxiv.org/pdf/2112.08782.pdf

一、前言

交通標志檢測對于無人駕駛系統來說是一項具有挑戰性的任務，特別是對于多尺度目標的檢測和檢測的實時性問題。在交通標志檢測過程中，目標的尺度變化很大，會對檢測精度產生一定的影響。

特征金字塔被廣泛用于解決這個問題，但它可能會破壞不同尺度交通標志的特征一致性。而且，在實際應用中，常用的方法很難在保證檢測實時性的同時提高多尺度交通標志的檢測精度。

在今天分享中，研究者提出了一種改進的特征金字塔模型，命名為AF-FPN，它利用自適應注意力模塊（AAM）和特征增強模塊（FEM）來減少特征圖生成過程中的信息丟失并增強表示能力的特征金字塔。將YOLOv5中原有的特征金字塔網絡替換為AF-FPN，在保證實時檢測的前提下提高了YOLOv5網絡對多尺度目標的檢測性能。此外，提出了一種新的自動學習數據增強方法來豐富數據集并提高模型的魯棒性，使其更適合實際場景。在Tsinghua-Tencent 100K (TT100K) 數據集上的大量實驗結果證明了與幾種最先進的方法相比所提出的方法的有效性和優越性。

二、背景

交通標志識別系統化是自動駕駛中最重要的一部分，怎樣去提升交通標志檢測和識別技術的精度和實時性能，這個也是現在當技術實際落地時需要解決的重要問題。傳統的CNN通常需要大量的參數和浮點運算 (FLOP) 以達到準確性令人滿意的效果，例如ResNet-50有大約2560萬個參數和需要4.1B FLOPs來處理大小為224×224的圖像。然而，移動設備（例如智能手機和自動駕駛汽車）有限的內存和計算資源不能用于大型網絡的部署和推理。作為一個one-stage檢測器，使用YOLOv5是由于具有計算量小、速度快的優點。

三、新框架詳細分析

The improved YOLOv5s network framework

作為當前YOLO系列中的最新框架，卓越的YOLOv5其靈活性使其便于快速在車輛硬件方面進行部署。YOLOv5包含四個模型，分別是YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x。YOLOv5s是YOLO系列最小的模型，更適合部署在車載移動硬件平臺，由于其內存大小為14.10M，但識別精度達不到準確、高效識別的要求，尤其是用于識別小規模目標。YOLOv5的基本框架可以分為四個部分：input、backbone、neck和prediction。Input部分通過數據增強來豐富數據集，它具有對硬件設備要求低，計算量成本低。但是它會導致數據集中原來的小目標變小，從而導致數據集的惡化，降低模型的泛化性能。Backbone部分主要由CSP模塊組成，它們通過CSPDarknet53執行特征提取。FPN和PANet用于聚合Neck現階段的圖像特征。最后，網絡通過Prediction進行目標預測和輸出。

研究者引入AF-FPN和自動學習數據增強來解決模型大小和識別精度不兼容的問題，進一步提高模型的識別性能。將原有的FPN結構替換為AF-FPN，以提高識別多尺度目標的能力，并在識別速度和準確率之間做出有效的權衡。

此外，研究者去除原始網絡中的mosaic augmentation，并根據自動學習數據增強策略使用最佳數據增強方法來豐富數據集并提高訓練效果。改進后的YOLOv5s網絡結構如下圖所示。

AF-FPN structure

AF-FPN在傳統特征金字塔網絡的基礎上，增加了自適應注意力模塊（AAM）和特征增強模塊（FEM）。前一部分由于減少了特征通道，減少了在高層特征圖中上下文信息的丟失；后一部分增強了特征金字塔的表示并加快了推理速度，同時實現了最先進的性能。AF-FPN的結構如下圖所示。

AAM的具體結構如下圖所示，作為自適應注意力模塊的輸入，C5的大小為S=h×w。它首先通過自適應池化層獲得不同尺度（β1×S，β2×S，β3×S）的上下文特征。然后每個上下文特征經過1×1卷積，得到相同的通道維度256。使用雙線性插值將它們上采樣到S的尺度，用于后續融合。

空間注意力機制通過一個Concat層將三個上下文特征的通道合并，然后特征圖依次通過1×1卷積層、ReLU激活層、3×3卷積層和sigmoid激活層生成對應的空間權重。生成的權重圖和合并通道后的特征圖進行Hadamard乘積運算，分離后加入到輸入特征圖M5中，將上下文特征聚合到M6中。最終的特征圖具有豐富的多尺度上下文信息，在一定程度上緩解了由于通道數減少而造成的信息丟失。

FEM主要利用空洞卷積根據檢測到的交通標志的不同尺度自適應學習每個特征圖中不同的感受野，從而提高多尺度目標檢測和識別的準確性。如上圖所示，它可以分為兩個部分：多分支卷積層和多分支池化層。多分支卷積層用于通過空洞卷積為輸入特征圖提供不同大小的感受野。并且平均池化層用于融合來自三個分支感受野的交通信息，以提高多尺度預測的準確性。