FisheyeDetNet:首個基于魚眼相機的目標檢測算法
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
目標檢測在自動駕駛系統當中是一個比較成熟的問題,其中行人檢測是最早得以部署算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的近距離的感知相對來說研究較少。由于徑向畸變較大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述提到的相關問題,我們探索了擴展邊界框的標準對象檢測輸出表示。我們將旋轉的邊界框、橢圓、通用多邊形設計為極坐標弧/角度表示,并定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形的模型FisheyeDetNet優于其他模型,同時在用于自動駕駛的Valeo魚眼相機數據集上實現了49.5%的mAP指標。目前,這是第一個關于自動駕駛場景中基于魚眼相機的目標檢測算法研究。
文章鏈接:https://arxiv.org/pdf/2404.13443.pdf
網絡結構
我們的網絡結構建立在YOLOv3網絡模型的基礎上,并且對邊界框,旋轉邊界框、橢圓以及多邊形等進行多種表示。為了使網絡能夠移植到低功率汽車硬件上,我們使用ResNet18作為編碼器。與標準Darknet53編碼器相比,參數減少了近60%。提出了網絡架構如下圖所示。
邊界框檢測
我們的邊界框模型與 YOLOv3 相同,只是 Darknet53 編碼器被替換為 ResNet18 編碼器。與YOLOv3類似,目標檢測是在多個尺度上執行的。對于每個尺度中的每個網格,預測對象寬度()、高度()、對象中心坐標(,)和對象類。最后,使用非最大抑制來過濾冗余檢測。
旋轉邊界框檢測
在該模型中,與常規框信息(,,,)一起回歸框的方向。方向地面實況范圍 (-180 到 +180°) 在 -1 到 +1 之間進行歸一化。
橢圓檢測
橢圓回歸與定向框回歸相同。唯一的區別是輸出表示。因此損失函數也與定向框損失相同。
多邊形檢測
我們提出的基于多邊形的實例分割方法與PolarMask和PolyYOLO方法非常相似。而不是使用稀疏多邊形點和像PolyYOLO這樣的單尺度預測。我們使用密集多邊形注釋和多尺度預測。
實驗對比
我們在Valeo魚眼數據集上評估,該數據集有 60K 圖像,這些圖像是從歐洲、北美和亞洲的 4 個環繞視圖相機捕獲的。
所有模型都使用 IoU 閾值為 50% 的平均精度度量 (mAP) 進行比較。結果如下表所示。每個算法都基于兩個標準進行評估—相同表示和實例分割的性能。