YOLOe問(wèn)世，實(shí)時(shí)觀察一切，統(tǒng)一開(kāi)放物體檢測(cè)和分割

作者：機(jī)器之心 2025-03-13 11:11:04

傳統(tǒng)的 YOLO 系列如同我們?nèi)斯ば?zhǔn)的精密儀器，其識(shí)別能力被嚴(yán)格框定在預(yù)定義的類(lèi)別目錄之中，每個(gè)檢測(cè)框的背后，都需要工程師手動(dòng)輸入認(rèn)知詞典。

它能像人眼一樣，在文本、視覺(jué)輸入和無(wú)提示范式等不同機(jī)制下進(jìn)行檢測(cè)和分割。

自 2015 年由華盛頓大學(xué)的 Joseph Redmon 研究團(tuán)隊(duì)提出 YOLO（You Only Look Once）以來(lái)，這項(xiàng)突破性的目標(biāo)檢測(cè)技術(shù)就像為機(jī)器裝上了「閃電之眼」，憑借單次推理的實(shí)時(shí)性能刷新了計(jì)算機(jī)視覺(jué)的認(rèn)知邊界。

傳統(tǒng)的 YOLO 系列如同我們?nèi)斯ば?zhǔn)的精密儀器，其識(shí)別能力被嚴(yán)格框定在預(yù)定義的類(lèi)別目錄之中，每個(gè)檢測(cè)框的背后，都需要工程師手動(dòng)輸入認(rèn)知詞典。這種預(yù)設(shè)規(guī)則在開(kāi)放場(chǎng)景中限制了視覺(jué)模型的靈活性。

但是在萬(wàn)物互聯(lián)的時(shí)代，行業(yè)迫切需要更接近人類(lèi)視覺(jué)的認(rèn)知范式 —— 不需要預(yù)先設(shè)定先驗(yàn)知識(shí)，卻能通過(guò)多模態(tài)提示理解大千世界。那么如何通過(guò)視覺(jué)模型來(lái)實(shí)現(xiàn)這一目標(biāo)呢？

近來(lái)，研究者們積極探索讓模型泛化至開(kāi)放提示的方法，力圖讓模型擁有如同人眼般的強(qiáng)大能力。不管是面對(duì)文本提示、視覺(jué)提示，甚至在無(wú)提示的情況下，模型都能借助區(qū)域級(jí)視覺(jué)語(yǔ)言預(yù)訓(xùn)練，實(shí)現(xiàn)對(duì)任意類(lèi)別的精準(zhǔn)識(shí)別。

論文標(biāo)題：YOLOE:Real-Time Seeing Anything
論文地址：https://arxiv.org/abs/2503.07465
技術(shù)展示頁(yè)：https://github.com/THU-MIG/yoloe?tab=readme-ov-file#demo

YOLOE 的設(shè)計(jì)思路

在 YOLO 的基礎(chǔ)之上，YOLOE 通過(guò) RepRTA 支持文本提示、通過(guò) SAVPE 支持視覺(jué)提示以及使用 LRPC 支持無(wú)提示場(chǎng)景。

圖 1.YOLOE 的架構(gòu)

如圖 1 所示，YOLOE 采用了典型的 YOLO 架構(gòu)，包括骨干、PAN、回歸頭、分割頭和對(duì)象嵌入頭。骨干和 PAN 為圖像提取多尺度特征。對(duì)于每個(gè)錨點(diǎn)，回歸頭預(yù)測(cè)用于檢測(cè)的邊界框，分割頭生成用于分割的原型和掩碼系數(shù)。對(duì)象嵌入頭遵循 YOLO 中分類(lèi)頭的結(jié)構(gòu)，只是最后一個(gè) 1× 卷積層的輸出通道數(shù)從閉集場(chǎng)景中的類(lèi)數(shù)更改為嵌入維度。同時(shí)，給定文本和視覺(jué)提示，YOLOE 分別使用 RepRTA 和 SAVPE 將它們編碼為規(guī)范化的提示嵌入 P。

在開(kāi)放集場(chǎng)景中，文本和對(duì)象嵌入之間的對(duì)齊決定了識(shí)別類(lèi)別的準(zhǔn)確性。先前的研究通常引入復(fù)雜的跨模態(tài)融合來(lái)改進(jìn)視覺(jué)文本表示以實(shí)現(xiàn)更好的對(duì)齊。然而，這些方法會(huì)產(chǎn)生大量的計(jì)算開(kāi)銷(xiāo)。鑒于此，作者提出了可重新參數(shù)化的區(qū)域文本對(duì)齊 (RepRTA) 策略，通過(guò)可重新參數(shù)化的輕量級(jí)輔助網(wǎng)絡(luò)在訓(xùn)練過(guò)程中改進(jìn)預(yù)訓(xùn)練的文本嵌入。文本和錨點(diǎn)對(duì)象嵌入之間的對(duì)齊可以在零推理和傳輸成本的情況下得到增強(qiáng)。

接下來(lái)是語(yǔ)義激活的視覺(jué)提示編碼器。為了生成視覺(jué)提示嵌入，先前的工作通常采用 Transformer 設(shè)計(jì)，例如可變形注意或附加 CLIP 視覺(jué)編碼器。然而，由于運(yùn)算符復(fù)雜或計(jì)算要求高，這些方法在部署和效率方面帶來(lái)了挑戰(zhàn)。

考慮到這一點(diǎn)，研究人員引入了語(yǔ)義激活的視覺(jué)提示編碼器（SAVPE）來(lái)高效處理視覺(jué)提示。它具有兩個(gè)解耦的輕量級(jí)分支：(1) 語(yǔ)義分支在 D 通道中輸出與提示無(wú)關(guān)的語(yǔ)義特征，而無(wú)需融合視覺(jué)提示的開(kāi)銷(xiāo)；(2) 激活分支通過(guò)在低成本下在更少的通道中將視覺(jué)提示與圖像特征交互來(lái)產(chǎn)生分組的提示感知權(quán)重。然后，它們的聚合會(huì)在最小復(fù)雜度下產(chǎn)生信息豐富的提示嵌入。

在沒(méi)有明確指導(dǎo)的無(wú)提示場(chǎng)景中，模型需要識(shí)別圖像中所有有名稱(chēng)的物體。先前的研究通常將這種設(shè)置表述為生成問(wèn)題，使用語(yǔ)言模型為密集的發(fā)現(xiàn)物體生成類(lèi)別。然而，其中語(yǔ)言模型遠(yuǎn)不能滿足高效率要求。YOLOE 將這種設(shè)置表述為檢索問(wèn)題并提出惰性區(qū)域提示對(duì)比（Lazy Region-Prompt Contrast，LRPC）策略。它以高效的方式從內(nèi)置的大型詞匯表中惰性檢索帶有物體的錨點(diǎn)的類(lèi)別名稱(chēng)。這種范例對(duì)語(yǔ)言模型的依賴為零，同時(shí)具有良好的效率和性能。

實(shí)驗(yàn)結(jié)果

那么在實(shí)驗(yàn)測(cè)試中，YOLOE 的效果如何呢？

作者將 YOLOE 基于 YOLOv8 和 YOLOv11 架構(gòu)開(kāi)展了實(shí)驗(yàn)，并提供了不同的模型尺度。如下表所示，對(duì)于 LVIS 上的檢測(cè)，YOLOE 在不同模型尺度上表現(xiàn)出效率和零樣本性能之間的良好平衡。

表 1. LVIS 上的零樣本檢測(cè)評(píng)估

實(shí)驗(yàn)結(jié)果表明 YOLOE 的訓(xùn)練時(shí)間少于其他對(duì)比模型，比 YOLO-Worldv2 快了近 3 倍。同時(shí) YOLOE-v8-S/M/L 的性能比 YOLOv8-Worldv2-S /M/L 分別高出 3.5/0.2/0.4AP，在 T4 和 iPhone 12 上的推理速度分別提高 1.4 倍 / 1.3 倍 / 1.3 倍和 1.3 倍 / 1.2 倍 / 1.2 倍。

不過(guò)在 Ap 指標(biāo)上，與 YOLO - Worldv2 相比，YOLOE-v8-M/L 稍顯遜色。進(jìn)一步分析發(fā)現(xiàn)，這種性能差距主要是由于 YOLOE 創(chuàng)新性地在一個(gè)模型中集成了檢測(cè)和分割功能。

作者還通過(guò)以下角度驗(yàn)證了模型和方法的有效性：