YOLO-S：小目標檢測的輕量級、精確的類YOLO網絡

作者：計算機視覺研究院 2024-08-20 09:30:00

研究者提出了YOLO-S，一個簡單、快速、高效的網絡。它利用了一個小的特征提取器，以及通過旁路和級聯的跳過連接，以及一個重塑直通層來促進跨網絡的特征重用，并將低級位置信息與更有意義的高級信息相結合。

本文經計算機視覺研究院公眾號授權轉載，轉載請聯系出處。

01 簡介

小目標檢測仍然是一項具有挑戰性的任務，尤其是在為移動或邊緣應用尋找快速準確的解決方案時。在下次分享中，有研究者提出了YOLO-S，一個簡單、快速、高效的網絡。它利用了一個小的特征提取器，以及通過旁路和級聯的跳過連接，以及一個重塑直通層來促進跨網絡的特征重用，并將低級位置信息與更有意義的高級信息相結合。

02 背景介紹

航空圖像中的小目標檢測已經成為當今研究的熱點。事實上，最近出現的無人機等數據賦能技術為廣泛的客戶群提供了一種具有成本效益的解決方案，根據相機軸、飛行器高度和使用的膠片類型，滿足了廣泛且幾乎無限的用戶需求。

此外，來自衛星或無人機傳感器的公開可用車輛數據的日益可用性推動了該領域的研究。然而，圖像中車輛的低分辨率、微小目標的較差特征、車輛類型、尺寸和顏色的可變性，以及雜亂背景或干擾大氣因素的存在，仍然對卷積神經網絡的車輛檢測率提出了挑戰。

此外，集裝箱、建筑物或路標等令人困惑的物體的出現可能會增加誤報的可能性。此外，在準確性和延遲時間之間進行合理的權衡是必要的。主流的目標檢測器需要大量內存，通常只能在集中式高性能平臺中執行。特別地，two-stage檢測器不適合實時檢測，而單級檢測器僅在強大的資源上提供實時性能。它們中沒有一個是為小目標檢測而充分定制的。此外，由于數據處理成本更低、速度更快、與遠程服務器的數據交換不可靠或存在安全和隱私問題，許多工業應用程序要求在靠近數據源的邊緣設備上本地部署CNNs，然而這種設備的特征通常是在性能、成本等方面硬件資源有限，并且不包括GPU。因此，快速和輕量級的CNNs是強制性的，同時即使在小目標上也能保持令人滿意的準確性。Tiny-YOLOv3不能保證足夠的性能，因為其主干提取的特征很差，并且其輸出尺度很粗糙。

其他研究工作則以準確性換取速度。在[Research on Airplane and Ship Detection of Aerial Remote Sensing Images Based on Convolutional Neural Network]中，第四個輸出尺寸104×104被添加到YOLOv3中，以減少感受野，在DOTA（航空圖像中對象設計的數據集）的基礎上獲得了3%的mAP改進，盡管推理較慢。由于YOLOv3主要檢測規模為52×52的小目標。[.In Proceedings of the International Conference on AI and Big Data Application]提出了基于兩個輸出52×52和104×104的YOLO-E，并實現了一個雙向殘差子模塊，以減少網絡深度。它們還通過用GIoU取代并集交集（IoU）度量，并在YOLOv3損失函數中添加新的項1-GIoU，提高了對目標位置的敏感性。在VEDAI上，它獲得了91.2%的mAP，幾乎比YOLOv3準確五分之一，慢6.7%。在[Robust Vehicle Detection in Aerial Images Based on Cascaded Convolutional Neural Networks]中，提出了一種基于VGG16架構的級聯檢測器，其在VEDAI和Munich數據集上的性能優于Faster R-CNN，但推理速度要慢20-30%。此外，低分辨率航空圖像由于其外觀模糊性和與背景的相似性，使從車輛中提取有意義的特征變得更加困難。在[Joint-SRVDNet: Joint Super Resolution and Vehicle Detection Network]中，證明了兩個超分辨率和檢測網絡的聯合學習可以在超分辨率圖像中實現更有意義的目標和更高的感知質量，這又導致檢測任務的精度提高，并且在低分辨率航空圖像上的性能接近于用相應的高分辨率圖像饋送的現有技術方法。為了解決這個問題，其提出了一種聯合超分辨率和車輛檢測網絡（Joint SRVDNet），該網絡利用了兩個相互關聯的超分辨率和檢測任務的互補信息。聯合SRVDNet由兩個主要模塊組成：用于4×上采樣因子的圖像超分辨率的多尺度MsGAN和用于車輛檢測的YOLOv3。具體而言，作者證明了兩個網絡的聯合學習允許在超分辨率圖像中獲得更有意義的目標和更高的感知質量，這反過來又提高了探測任務的準確性，并提高了低分辨率航空圖像的性能，接近于用相應的高分辨率航空圖像提供的現有最先進的方法。

03 新框架詳細分析

研究者介紹了AIRES（cAr detectIon fRom-hElicopter imagesS），這是一個新的車輛數據庫，由1920×1080分辨率的航空全高清（FHD）圖像組成，由WESCAM MX-15 EO/IR成像系統傳輸，該系統放置在多傳感器四軸陀螺穩定炮塔系統中，安裝在載人警用直升機AW169的前端。直升機在近300米至1000米的不同高度飛行，不同的攝像機角度從約5°至80°不等。這些圖像是2019年6月至9月在兩個不同的地理區域拍攝的：意大利北部的倫巴第大區和挪威的奧斯陸市。該數據集由1275張用LabelImg軟件[36]注釋的圖像組成，包含15247個注釋的地面實況（GT）對象，分為八類：面包車、卡車、汽車、摩托車、人、其他、船和公共汽車。統計數據匯總在表1中：大多數類別是汽車，而人口較少的類別是摩托車，占0.5%，其他類別占0.8%，后者包括推土機和建筑工地使用的其他地面移動車輛。

Some images of the AIRES dataset

在這項工作中，提出了兩種新的類YOLO架構：YOLO-L和YOLO-S，其架構如下圖所示。

關于所提出的CNN的全部細節見下表，其中還報告了每層的感受野和累積步幅。假設輸入圖像的大小調整為默認大小416×416。YOLO-L由于推理速度有限，僅適用于高功率硬件上的離線處理，因此主要用于基準測試。YOLO-S，或YOLO-small，是為在邊緣設備上部署高效、輕量級和精確的網絡而提出的。

下表提供了進一步的細節，其中將所提出的網絡與其他最先進的檢測器在參數數量、體積、BFLOP和架構特性方面進行了比較。

我們以YOLO-S為例，如上圖b所示，是一個微小而快速的網絡，它利用圖c所示的特征融合和重塑穿透層的概念，將早期細粒度特征圖的精確位置信息與分辨率較低的深層特征圖的有意義語義信息相結合。基本上，它基于Darknet20主干，在特征提取階段用交錯卷積層和殘差單元取代Tiny-YOLOv3的最大池化層，以減少下采樣期間的信息損失，并有效地增加感受野。由七個殘差塊組成的輕量級主干還可以避免對小規模檢測到的目標進行無用的卷積操作，否則在更深的架構中，這可能會導致在多次下采樣后只剩下幾個像素的最終特征此外，YOLO-S采用了一個具有單個輸出規模52×52的head subnet和一個僅由4個交替卷積層1×1和3×3組成的較小卷積集，而不是YOLO-L和YOLOv3中的6個，以加快推理。這導致輸出的感受野大到101×101，一旦源圖像被重新縮放到網絡預期的大小，就足以獲得目標周圍有意義的上下文信息。

最后，通過橫向連接主干的第八層、第十三層和第十九層，分別對應于4×、8×和16×下采樣的特征圖，實現了跳躍連接，以提取更穩健的定位特征。由于這種特征圖表現出不同的分辨率，因此將上采樣應用于第十九層，并將整形應用于第八層，以在級聯之前將每個尺寸與形狀52×52相匹配。

總體而言，YOLO-S的模型體積比YOLOv3縮小了87%（YOLO-S尺寸僅為YOLOv3的7.9%），并且包含了近7.853M的可訓練參數，因此甚至比Tiny-YOLOv3輕10%。此外，它需要34.59個BFLOP，接近SlimYOLOv3-SPP3-50，幾乎是YOLOv3的一半，如上表所示。然而，在實驗中，所提出的模型YOLO-S在準確性方面優于YOLOv3。

04 實驗及可視化

首先，通過對每個類別進行分層抽樣，在訓練（70%）和測試（30%）中對數據集進行隨機分割。然后，為了豐富模型學習過程中可用的統計信息，啟用了標準的數據增強技術，包括水平翻轉、調整大小、裁剪和亮度、對比度、飽和度和色調的隨機失真。然而，由于缺乏數據而導致的過度擬合問題往往無法通過數據擴充方法得到有效解決，尤其是對于少數類。

因此，采用了所謂的“遷移學習”技術，以便利用可在公開數據庫上獲得的知識。這對準確性尤其有利：提取初步特征的基礎任務與感興趣的目標任務越相似，可達到的準確性就越高。具體如下圖：