成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

YOLO 詳解:基于深度學習的物體檢測

人工智能 深度學習
與依賴基于分類方法的傳統物體檢測模型不同,YOLO 通過基于回歸的方法直接推斷邊界框來預測物體位置。

引言

本文介紹了YOLO(You Only Look Once),一種基于卷積神經網絡(CNN)的物體檢測模型。與依賴基于分類方法的傳統物體檢測模型不同,YOLO通過基于回歸的方法直接推斷邊界框來預測物體位置。這種端到端的CNN模型以其卓越的處理速度和高預測精度脫穎而出,在這兩方面都優于許多現有的物體檢測架構。

圖1. YOLO檢測圖

背景

近年來,物體檢測的進展主要依賴于基于CNN的架構,包括R-CNN和DPM等著名模型。然而,大多數傳統模型涉及多階段流程,導致推理時間較長且復雜性增加。此外,它們復雜的結構使得優化和參數調整變得困難。相比之下,YOLO引入了一種基于回歸的端到端CNN架構,提供了幾個關鍵優勢:

  • 實時推理:YOLO實現了每秒45幀的驚人處理速度,當使用Titan X GPU時,其變體甚至可以達到每秒150幀。這使得模型能夠以極低的25毫秒延遲實時處理視頻流。
  • 全局推理:在訓練階段,YOLO一次性處理整個圖像,捕捉物體外觀和上下文信息。這種整體方法有助于減少背景錯誤,這是滑動窗口或基于區域提議方法的常見問題。
  • 學習可泛化的表示:作者通過在自然圖像上訓練的模型對藝術作品圖像進行測試,展示了YOLO的強大泛化能力。這一表現顯著優于傳統物體檢測模型。

方法

統一檢測

圖2. YOLO流程:該模型通過以下過程推斷物體的邊界框

如圖2所示,YOLO模型通過邊界框回歸對給定圖像進行分割并檢測物體。所有這些過程都在單個CNN模型中完成。

首先,模型將輸入圖像劃分為S × S的網格。每個網格單元預測B個邊界框并返回相應的置信度分數。置信度分數是模型準確預測目標物體的信心度量。作者將置信度分數定義為以下公式。

圖3. 計算不同邊界框IOU的示例:綠色框是真實值,紅色框是預測值

注意,IOU表示“交并比”,如圖3所示。它通過以下方程獲得:

重疊區域表示預測值和真實值重疊的區域,而并集區域是預測值和真實值區域的并集。

預測的邊界框有5個值。這些值是x、y、w、h和置信度。x和y值表示框的中心坐標相對于網格單元邊界的位置。w和h值表示預測邊界框的長度和高度相對于整個圖像的比例。最后,置信度表示置信度分數。

在圖2中,底部的彩色框表示每個網格單元的類別預測。這些預測表示為條件概率P(Class∣Object),表示在邊界框中存在物體的情況下,特定類別出現的可能性。

每個網格單元獨立于邊界框數量預測這些概率值。然后,通過將條件概率P(Class∣Object)與置信度分數P(Object) × IOU相乘,計算出類別特定的置信度分數。這個最終分數既包含了特定類別出現在邊界框中的概率,也包含了預測框與目標物體匹配的準確性。

網絡設計

圖4. YOLO模型結構

如前文所述,作者將YOLO設計為CNN結構。該網絡是一個簡單的結構,通過CNN層提取圖像特征,并通過最后的全連接層(FC層)輸出預測邊界框值的概率。

該模型是通過模擬GoogleNet構建的。網絡有24個CNN層和兩個FC層。所提出的模型與GoogLeNet的區別在于inception模塊。YOLO模型使用1 × 1的降維層,后接3 × 3的卷積層,而不是inception模塊。

作者還介紹了Fast YOLO,這是YOLO的更快版本。該模型使用9個卷積層,濾波器數量比YOLO少。除了模型大小外,YOLO和Fast YOLO的所有超參數都相同。

模型中的最后一個張量的形狀為S × S × (5B + C),其中C是類別概率。由于作者設置B = 2,C = 20,S = 7,最終張量的形狀為7 × 7 × 30。

模型訓練

(1) 預訓練

設計模型的前20個CNN層使用ImageNet數據集進行預訓練。該訓練一直進行到模型的分類性能達到88%的top-5準確率。然后,這個預訓練模型用于物體檢測任務,并添加了4個CNN層和2個FC層。這里,添加的層是隨機初始化的。為了提高物體檢測性能,作者將輸入圖像分辨率從224 × 224增加到448 × 448。

(2) 模型輸出

YOLO的最后一層返回類別概率和邊界框坐標。注意,邊界框的坐標、寬度和高度通過歸一化限制在0到1之間。

(3) 損失函數

損失函數考慮了所有預測邊界框的估計類別、坐標、高度和寬度。損失函數表達式如下。

在這種情況下,1?表示單元格i中是否存在物體,而1??表示單元格i中的第j個邊界框預測器負責進行預測。

作者優先考慮坐標預測的損失,而不是沒有物體的單元格的損失。為此,引入了兩個加權因子:一個用于坐標預測(λcoord),另一個用于非物體預測(λnoobj)。在本研究中,λcoord設置為5,λnoobj設置為0.5。

推理

YOLO模型預測多個邊界框,本文中具體為98個框。作者提到,所提出的模型可以快速推理,因為它只需要一次網絡評估。

網格設計強制了邊界框預測的空間多樣性。大多數目標物體落入一個單元格,模型只為每個物體預測一個框。此外,相對較大的目標可以通過多個單元格很好地定位。作者使用非極大值抑制來處理這些問題。這種抑制方法使mAP提高了23%。

與其他檢測系統的比較

本文簡要介紹了所提出的模型與其他現有方法的區別。

(1) 可變形部件模型

雖然可變形部件模型(DPM)通過分離的步驟檢測目標物體,但所提出的YOLO通過CNN模塊整合了這些單獨的過程。

(2) R-CNN

現有的R-CNN通過評估候選邊界框的分數來預測目標物體的位置。YOLO的不同之處在于它使用較少的候選邊界框,并且提取物體特征的過程完全通過CNN完成。

(3) 其他快速檢測器

這項工作提到了基于DPM的其他方法,如Fast R-CNN和Faster R-CNN。所提到的研究側重于提高幀處理速度,而作者則更注重在保持實時處理速度(每秒30幀)的同時提高預測準確性。

(4) Deep MultiBox

所提到的方法SSD(Deep Multibox)無法執行通用物體檢測,需要進一步的圖像塊分類,而所提出的YOLO是端到端的檢測框架。

(5) OverFeat

Overfeat和YOLO在目的上相似。然而,所提到的模型側重于定位,而YOLO則專注于優化檢測性能。

(6) MultiGrasp

MultiGrasp和YOLO的檢測過程相似,但所提到的方法是用于抓取檢測的模型,而所提出的網絡則設計用于更具挑戰性的任務——物體檢測。

實驗

數據集

圖5. VOC 2007數據中的物體檢測示例

使用了物體檢測領域的公共數據集PASCAL VOC 2007。該數據集包含許多圖像,其中有各種類型的物體,如汽車、狗、人、自行車等。作者還包含了VOC 2012數據集進行額外實驗。圖5展示了使用VOC數據集的示例結果。

模型設置

(1) 超參數

  • 訓練輪數:135
  • 批量大小:64
  • 優化器:隨機梯度下降(SGD)
  • 動量:0.9
  • 衰減:0.0005
  • 學習率:0.001(第一輪),0.01(第2 ~ 75輪),0.001(第76 ~ 105輪),0.0001(最后30輪)
  • Dropout:0.5

(2) 數據增強

在這項工作中,應用了數據增強以防止訓練模型的過擬合。作者隨機調整原始圖像的大小或平移,最多調整其原始大小的20%。此外,圖像的顏色曝光和飽和度在HSV顏色空間中隨機調整,最多調整1.5倍。

(3) 評估指標

作者采用了兩個測量指標,mAP(平均精度)和FPS(每秒幀數)。前者代表模型的檢測準確性,后者是實時處理能力的度量。

結果

圖6. PASCAL VOC 2007數據集上的比較結果。一些模型同時使用VOC 2007和VOC 2012進行訓練

作者將YOLO與其他現有的物體檢測方法(包括Faster R-CNN)進行了比較。這里,FPS達到30或更高的系統被歸類為實時檢測器。mAP和FPS的比較結果如圖6所示。其他現有方法的準確性略高于YOLO,但處理速度非常慢。另一方面,所提出的模型在實時能力和準確性之間取得了適當的平衡。

圖7. Fast R-CNN和YOLO檢測結果的錯誤分析圖

與當時最先進的Fast R-CNN模型進行了深入比較。作者根據交并比(IOU)指標描述了檢測結果如下。

  • 正確:類別正確且IOU > 0.5。
  • 定位:類別正確且0.1 < IOU < 0.5。
  • 相似:類別相似,IOU > 0.1。
  • 其他:類別錯誤,IOU > 0.1。
  • 背景:任何物體的IOU < 0.1

兩個模型的檢測結果圖如圖7所示。Fast R-CNN在準確性上略優于YOLO,但它也占據了相當大比例的完全錯誤情況(背景)。而YOLO模型正確推斷物體類別的比率高于對比模型。

與Fast R-CNN的結合

圖8. 結合模型的mAP結果。測試使用VOC 2007數據集進行

作者設計了以Fast R-CNN為骨干網絡的YOLO模型,并觀察了檢測性能的變化。與原始骨干網絡的結果比較如圖8所示。圖8中不同Fast R-CNN變體的括號中的文本指的是模型訓練方法。將Fast R-CNN插入YOLO架構中,結果優于不同的學習方法。此外,YOLO也受到骨干網絡的影響。

圖9. VOC 2012數據集上的mAP結果。這里,一些是實時模型,一些不是

作者還通過使用VOC 2012數據集進行測試,參考了比較結果。一些實時技術和不考慮處理速度的簡單檢測方法。實驗結果列在圖9中。圖9中的陰影行表示所提出的方法YOLO。作者提到,所提出的網絡在相對較小的準確性犧牲下確保了實時性。

泛化能力

本文還介紹了使用其他數據集的額外實驗。作者使用VOC 2007數據集訓練YOLO模型,并在未見過的數據集上進行測試。有趣的是,繪畫數據集(Picasso、People-art)也包括在內。

圖10. 使用Picasso數據集測試的幾個模型的精確率-召回率曲線

圖11. 幾個數據集上的定量結果

作者通過跨數據集實驗驗證了模型的泛化性能。圖10和圖11分別展示了精確率-召回率曲線、AP和F1的結果。與其他現有的物體檢測模型相比,YOLO表現出更好的泛化性能。特別是在訓練數據(VOC 2007)和未見數據集上的實驗結果差異相對較小,這意味著YOLO模型對圖像外觀具有魯棒性。

圖12. 使用各種圖像估計的邊界框

圖12展示了YOLO模型的定性結果。有一些錯誤的預測,如左下角第二個(一個飛行的人被估計為飛機)。然而,如其他結果所示,所提出的YOLO模型即使在單一類型的訓練數據集下,也能準確識別各種類型圖像中的物體。

結論

本文介紹了YOLO(You Only Look Once),這是一種非常快速且易于實現的物體檢測模型。與基于分類模型的傳統物體檢測方法不同,YOLO采用基于回歸的設計,實現了更直接和高效的物體檢測。通過比較分析和泛化實驗,作者展示了YOLO在實現高精度和卓越處理速度的同時,也證明了其對各種物體檢測任務的適應性。

回顧

YOLO(You Only Look Once)代表了物體檢測技術發展的一個重要里程碑,為后續眾多版本和改進奠定了基礎。其創新的損失函數和簡化的檢測方法相比早期方法帶來了顯著的性能提升。然而,正如作者在論文中承認的那樣,YOLO也存在一些局限性。這些局限性包括處理同一物體不同長寬比的挑戰,以及準確檢測非常小物體的困難。盡管存在這些限制,YOLO對實時物體檢測的貢獻及其對后續模型的影響是不可否認的。

參考文獻

(1) GoogleNet:https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf

(2) ImageNet:https://www.image-net.org/

(3) Deformable Parts Models(DPM):https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Girshick_Deformable_Part_Models_2015_CVPR_paper.pdf

(4) Fast R-CNN:https://openaccess.thecvf.com/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf

(5) You Only Look Once: Unified, Real-Time Object Detection:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdf

責任編輯:趙寧寧 來源: 小白玩轉Python
相關推薦

2024-06-24 05:00:00

YOLO模型人工智能

2022-10-26 15:41:38

深度學習Deepfake機器學習

2024-08-27 10:20:00

2025-01-06 12:20:00

YOLO物體識別開發

2022-02-14 11:37:59

自動駕駛算法技術

2024-01-04 08:00:00

人工智能深度學習

2021-07-09 10:45:23

BBAugPyTorch神經網絡

2024-02-16 08:00:00

機器學習ML-data預訓練模型

2017-11-06 14:00:46

深度學習神經科學夢境

2024-10-28 16:12:26

2019-05-24 10:30:38

2023-05-22 08:00:00

深度學習機器學習人工智能

2025-03-13 11:11:04

2024-07-10 10:19:26

2017-02-16 08:25:35

2023-10-10 19:00:57

云網關報文檢測

2017-08-03 11:00:20

2019-06-25 10:09:42

Web攻擊機器學習網絡攻擊

2024-11-04 08:14:48

2024-10-05 13:00:00

模型優化訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 99精品亚洲国产精品久久不卡 | 99精品国产一区二区三区 | 婷婷二区 | 一区二区av在线 | 成人精品在线观看 | 久草网免费 | 亚洲国产成人av好男人在线观看 | 成人免费一级 | 午夜日韩视频 | 免费av播放 | 二区中文字幕 | 久久国产精品亚洲 | 一区二区三区免费在线观看 | 午夜免费在线电影 | 国产综合精品一区二区三区 | 日本久久久一区二区三区 | 毛片a区 | 男人天堂国产 | 国产网站在线免费观看 | 中文字幕三区 | 99国产精品久久久久老师 | 亚洲精品v | 欧美日韩专区 | 特级做a爰片毛片免费看108 | 秋霞av国产精品一区 | 毛片免费在线观看 | 亚洲超碰在线观看 | av毛片 | 亚洲在线看 | 欧美视频 亚洲视频 | 日韩二区 | 久久久影院 | 欧美一级久久 | 久久免费视频网 | 国产在线视频一区 | 亚洲国产午夜 | 丝袜美腿一区二区三区动态图 | 91久久| 午夜精品久久久久久久星辰影院 | 天堂免费看片 | 亚洲精品乱码 |