關(guān)于 YOLOv10 架構(gòu)的簡(jiǎn)介
目標(biāo)檢測(cè)技術(shù),這一受人類視覺(jué)能力啟發(fā)的計(jì)算機(jī)視覺(jué)技術(shù),已在數(shù)字圖像和視頻領(lǐng)域取得顯著進(jìn)展。YOLOv10,作為YOLO系列的最新力作,以其卓越的性能和效率,繼續(xù)在目標(biāo)檢測(cè)領(lǐng)域保持領(lǐng)先地位。本文將探討YOLOv10的技術(shù)特性、架構(gòu)結(jié)構(gòu)、優(yōu)勢(shì)和潛在劣勢(shì)。
目標(biāo)檢測(cè)技術(shù)的進(jìn)步不斷推動(dòng)著計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展。YOLO(You Only Look Once)系列算法以其快速準(zhǔn)確的目標(biāo)檢測(cè)能力而聞名,其最新版本YOLOv10更是在性能和效率上取得了重大突破。2024年5月,清華大學(xué)的研究人員王等人(2024年)推出了YOLOv10算法,該算法通過(guò)雙重標(biāo)簽分配和效率-準(zhǔn)確性策略,有效降低了計(jì)算負(fù)荷并提升了性能。
YOLOv10的核心創(chuàng)新之一是引入了一致雙重分配(Consistent Dual Assignments)的新方法,這一方法旨在克服在推理過(guò)程中用于過(guò)濾冗余預(yù)測(cè)的非最大抑制(NMS)的困難和不一致性。通過(guò)這種方式,YOLOv10在目標(biāo)檢測(cè)過(guò)程中消除了對(duì)NMS的需求,顯著降低了檢測(cè)延遲。為此,YOLOv10在頭部區(qū)域創(chuàng)建了一個(gè)結(jié)合一對(duì)一和一對(duì)多匹配方法的雙重標(biāo)簽分配策略。
在一對(duì)一匹配中,每個(gè)真實(shí)樣本都被分配一個(gè)預(yù)測(cè),從而消除了對(duì)NMS的需求,并實(shí)現(xiàn)了端到端的分布。這種方法雖然可能導(dǎo)致監(jiān)督較弱,影響準(zhǔn)確性和收斂速度,但在一對(duì)多匹配中,提供了更豐富的監(jiān)督信號(hào),盡管推理過(guò)程仍需要NMS。在訓(xùn)練期間,一對(duì)一和一對(duì)多的頭部結(jié)構(gòu)被共同優(yōu)化,使用一對(duì)多匹配的豐富內(nèi)容進(jìn)行監(jiān)督,而推理僅使用一對(duì)一匹配的頭部,繞過(guò)了NMS的需求,實(shí)現(xiàn)了高效率且無(wú)需額外推理成本。
一致匹配度量(Consistent Matching Metric)是雙重標(biāo)簽分配策略的關(guān)鍵組成部分,用于評(píng)估預(yù)測(cè)和實(shí)際實(shí)例之間的一致性。在這個(gè)度量中,σ和β分別代表語(yǔ)義預(yù)測(cè)和位置回歸任務(wù),s表示預(yù)測(cè)的連接點(diǎn)是否在樣本內(nèi),p代表分類得分。這個(gè)度量包括分類得分和預(yù)測(cè)與實(shí)際邊界框之間的IoU(交集比并集),通過(guò)將一對(duì)一頭部的監(jiān)督與一對(duì)多頭部的監(jiān)督對(duì)齊,提高了模型在推理期間的預(yù)測(cè)質(zhì)量。
YOLOv10算法的第二個(gè)策略是效率-準(zhǔn)確性策略,該策略優(yōu)化了各個(gè)組件以減少計(jì)算負(fù)荷,同時(shí)提高性能。
- 輕量級(jí)分類頭部顯著降低了與以前版本相比的計(jì)算成本,這得益于頭部的3x3和1x1卷積層。
- 空間-通道解耦下采樣允許分別處理圖像的不同通道(例如RGB通道),以更好地分析每個(gè)通道的空間特征,顯著降低了計(jì)算成本和參數(shù)數(shù)量,同時(shí)保留了更多信息。
- Rank-Guided 塊設(shè)計(jì)通過(guò)簡(jiǎn)化整體架構(gòu)來(lái)提高計(jì)算效率,優(yōu)化了這些塊在模型中的放置,增加了模型的學(xué)習(xí)容量,減少了處理時(shí)間,并帶來(lái)了整體更好的性能。
- Large-Kernel 卷積可以一次處理更大的像素區(qū)域,提取更深層次的特征,更好地捕捉遠(yuǎn)距離像素之間的連接,并將更多的像素合并到單個(gè)特征圖中,以創(chuàng)建更豐富、更密集的特征圖。
然而,這種技術(shù)在計(jì)算上昂貴且容易過(guò)擬合,需要精心設(shè)計(jì)和優(yōu)化。部分自注意力模塊幫助模型關(guān)注輸入數(shù)據(jù)中的相關(guān)特征,提高了其準(zhǔn)確檢測(cè)和分類對(duì)象的能力。
Tips: YOLOv10的改進(jìn)和創(chuàng)新包括設(shè)計(jì)了一個(gè)無(wú)需NMS的模型,通過(guò)使用雙重標(biāo)簽分配策略和效率-準(zhǔn)確性策略減輕了計(jì)算負(fù)擔(dān)并提高了準(zhǔn)確性,并通過(guò)在頭部區(qū)域使用一致匹配度量提高了模型的推理質(zhì)量。
YOLOv10的優(yōu)勢(shì)在于提出了新的戰(zhàn)略和技術(shù),在低計(jì)算量的情況下實(shí)現(xiàn)了高準(zhǔn)確性。為了客觀比較YOLO系列模型,我們分析了原始論文中的性能結(jié)果,確保使用的是共同的數(shù)據(jù)集和評(píng)估指標(biāo)。從YOLO v2開(kāi)始,COCO 2017數(shù)據(jù)集被用作所有YOLO版本的訓(xùn)練和測(cè)試集。每個(gè)模型都使用來(lái)自同一數(shù)據(jù)集的640張圖像進(jìn)行測(cè)試。根據(jù)這些結(jié)果,觀察到模型性能隨時(shí)間提高,并從YOLOv5開(kāi)始設(shè)計(jì)不同大小的模型。下表顯示了v5及以后版本的性能結(jié)果。
觀察到模型的參數(shù)數(shù)量和結(jié)構(gòu)變化影響模型性能。例如,YOLOv6-N模型有35.9%的mAP和4.7M參數(shù),而YOLOv9-T有38.3%的mAP和2.0M參數(shù)。兩者都有各自版本中最低的參數(shù)。然而,YOLOv9-T比YOLOv6-N快約2倍,因?yàn)樗膮?shù)數(shù)量大約少了2倍,并且成功率高約2.5%。這主要是由于在模型結(jié)構(gòu)中添加和修改的算法。
結(jié)論
YOLOv10以其創(chuàng)新的架構(gòu)和策略,為實(shí)時(shí)端到端目標(biāo)檢測(cè)領(lǐng)域帶來(lái)了新的突破。其無(wú)需NMS的設(shè)計(jì)、雙重標(biāo)簽分配策略和效率-準(zhǔn)確性策略,不僅提高了檢測(cè)效率,還保持了高準(zhǔn)確性。隨著YOLO系列的不斷發(fā)展,我們可以期待未來(lái)在目標(biāo)檢測(cè)技術(shù)方面取得更多突破。