成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

YOLOe問(wèn)世,實(shí)時(shí)觀察一切,統(tǒng)一開(kāi)放物體檢測(cè)和分割

人工智能 新聞
傳統(tǒng)的 YOLO 系列如同我們?nèi)斯ば?zhǔn)的精密儀器,其識(shí)別能力被嚴(yán)格框定在預(yù)定義的類(lèi)別目錄之中,每個(gè)檢測(cè)框的背后,都需要工程師手動(dòng)輸入認(rèn)知詞典。

它能像人眼一樣,在文本、視覺(jué)輸入和無(wú)提示范式等不同機(jī)制下進(jìn)行檢測(cè)和分割。

自 2015 年由華盛頓大學(xué)的 Joseph Redmon 研究團(tuán)隊(duì)提出 YOLO(You Only Look Once)以來(lái),這項(xiàng)突破性的目標(biāo)檢測(cè)技術(shù)就像為機(jī)器裝上了「閃電之眼」,憑借單次推理的實(shí)時(shí)性能刷新了計(jì)算機(jī)視覺(jué)的認(rèn)知邊界。

傳統(tǒng)的 YOLO 系列如同我們?nèi)斯ば?zhǔn)的精密儀器,其識(shí)別能力被嚴(yán)格框定在預(yù)定義的類(lèi)別目錄之中,每個(gè)檢測(cè)框的背后,都需要工程師手動(dòng)輸入認(rèn)知詞典。這種預(yù)設(shè)規(guī)則在開(kāi)放場(chǎng)景中限制了視覺(jué)模型的靈活性。

但是在萬(wàn)物互聯(lián)的時(shí)代,行業(yè)迫切需要更接近人類(lèi)視覺(jué)的認(rèn)知范式 —— 不需要預(yù)先設(shè)定先驗(yàn)知識(shí),卻能通過(guò)多模態(tài)提示理解大千世界。那么如何通過(guò)視覺(jué)模型來(lái)實(shí)現(xiàn)這一目標(biāo)呢?

近來(lái),研究者們積極探索讓模型泛化至開(kāi)放提示的方法,力圖讓模型擁有如同人眼般的強(qiáng)大能力。不管是面對(duì)文本提示、視覺(jué)提示,甚至在無(wú)提示的情況下,模型都能借助區(qū)域級(jí)視覺(jué)語(yǔ)言預(yù)訓(xùn)練,實(shí)現(xiàn)對(duì)任意類(lèi)別的精準(zhǔn)識(shí)別。

image.png

YOLOE 的設(shè)計(jì)思路

在 YOLO 的基礎(chǔ)之上,YOLOE 通過(guò) RepRTA 支持文本提示、通過(guò) SAVPE 支持視覺(jué)提示以及使用 LRPC 支持無(wú)提示場(chǎng)景。

f2.png

圖 1.YOLOE 的架構(gòu)

如圖 1 所示,YOLOE 采用了典型的 YOLO 架構(gòu),包括骨干、PAN、回歸頭、分割頭和對(duì)象嵌入頭。骨干和 PAN 為圖像提取多尺度特征。對(duì)于每個(gè)錨點(diǎn),回歸頭預(yù)測(cè)用于檢測(cè)的邊界框,分割頭生成用于分割的原型和掩碼系數(shù)。對(duì)象嵌入頭遵循 YOLO 中分類(lèi)頭的結(jié)構(gòu),只是最后一個(gè) 1× 卷積層的輸出通道數(shù)從閉集場(chǎng)景中的類(lèi)數(shù)更改為嵌入維度。同時(shí),給定文本和視覺(jué)提示,YOLOE 分別使用 RepRTA 和 SAVPE 將它們編碼為規(guī)范化的提示嵌入 P。

在開(kāi)放集場(chǎng)景中,文本和對(duì)象嵌入之間的對(duì)齊決定了識(shí)別類(lèi)別的準(zhǔn)確性。先前的研究通常引入復(fù)雜的跨模態(tài)融合來(lái)改進(jìn)視覺(jué)文本表示以實(shí)現(xiàn)更好的對(duì)齊。然而,這些方法會(huì)產(chǎn)生大量的計(jì)算開(kāi)銷(xiāo)。鑒于此,作者提出了可重新參數(shù)化的區(qū)域文本對(duì)齊 (RepRTA) 策略,通過(guò)可重新參數(shù)化的輕量級(jí)輔助網(wǎng)絡(luò)在訓(xùn)練過(guò)程中改進(jìn)預(yù)訓(xùn)練的文本嵌入。文本和錨點(diǎn)對(duì)象嵌入之間的對(duì)齊可以在零推理和傳輸成本的情況下得到增強(qiáng)。

接下來(lái)是語(yǔ)義激活的視覺(jué)提示編碼器。為了生成視覺(jué)提示嵌入,先前的工作通常采用 Transformer 設(shè)計(jì),例如可變形注意或附加 CLIP 視覺(jué)編碼器。然而,由于運(yùn)算符復(fù)雜或計(jì)算要求高,這些方法在部署和效率方面帶來(lái)了挑戰(zhàn)。

考慮到這一點(diǎn),研究人員引入了語(yǔ)義激活的視覺(jué)提示編碼器(SAVPE)來(lái)高效處理視覺(jué)提示。它具有兩個(gè)解耦的輕量級(jí)分支:(1) 語(yǔ)義分支在 D 通道中輸出與提示無(wú)關(guān)的語(yǔ)義特征,而無(wú)需融合視覺(jué)提示的開(kāi)銷(xiāo);(2) 激活分支通過(guò)在低成本下在更少的通道中將視覺(jué)提示與圖像特征交互來(lái)產(chǎn)生分組的提示感知權(quán)重。然后,它們的聚合會(huì)在最小復(fù)雜度下產(chǎn)生信息豐富的提示嵌入。

在沒(méi)有明確指導(dǎo)的無(wú)提示場(chǎng)景中,模型需要識(shí)別圖像中所有有名稱(chēng)的物體。先前的研究通常將這種設(shè)置表述為生成問(wèn)題,使用語(yǔ)言模型為密集的發(fā)現(xiàn)物體生成類(lèi)別。然而,其中語(yǔ)言模型遠(yuǎn)不能滿足高效率要求。YOLOE 將這種設(shè)置表述為檢索問(wèn)題并提出惰性區(qū)域提示對(duì)比(Lazy Region-Prompt Contrast,LRPC)策略。它以高效的方式從內(nèi)置的大型詞匯表中惰性檢索帶有物體的錨點(diǎn)的類(lèi)別名稱(chēng)。這種范例對(duì)語(yǔ)言模型的依賴為零,同時(shí)具有良好的效率和性能。

實(shí)驗(yàn)結(jié)果

那么在實(shí)驗(yàn)測(cè)試中,YOLOE 的效果如何呢?

作者將 YOLOE 基于 YOLOv8 和 YOLOv11 架構(gòu)開(kāi)展了實(shí)驗(yàn),并提供了不同的模型尺度。如下表所示,對(duì)于 LVIS 上的檢測(cè),YOLOE 在不同模型尺度上表現(xiàn)出效率和零樣本性能之間的良好平衡。

表 1. LVIS 上的零樣本檢測(cè)評(píng)估

實(shí)驗(yàn)結(jié)果表明 YOLOE 的訓(xùn)練時(shí)間少于其他對(duì)比模型,比 YOLO-Worldv2 快了近 3 倍。同時(shí) YOLOE-v8-S/M/L 的性能比 YOLOv8-Worldv2-S /M/L 分別高出 3.5/0.2/0.4AP,在 T4 和 iPhone 12 上的推理速度分別提高 1.4 倍 / 1.3 倍 / 1.3 倍和 1.3 倍 / 1.2 倍 / 1.2 倍。

不過(guò)在 Ap 指標(biāo)上,與 YOLO - Worldv2 相比,YOLOE-v8-M/L 稍顯遜色。進(jìn)一步分析發(fā)現(xiàn),這種性能差距主要是由于 YOLOE 創(chuàng)新性地在一個(gè)模型中集成了檢測(cè)和分割功能。

作者還通過(guò)以下角度驗(yàn)證了模型和方法的有效性:

  • 分割評(píng)估

圖片

表 2. LVIS 上的分割評(píng)估

  • 無(wú)提示詞評(píng)估

圖片

表 3.  LVIS 上的無(wú)提示詞評(píng)估

  • 可遷移性評(píng)估

圖片

表 4. 在 COCO 上的可遷移性測(cè)試,測(cè)試了兩種微調(diào)策略,線性探測(cè)和完全調(diào)整

這些結(jié)果充分證明,YOLOE 擁有強(qiáng)大的功能和高效率,適用于各種提示方式,可以實(shí)時(shí)看到任何東西。

image.png

此外,研究人員對(duì) YOLOE 開(kāi)展了四種場(chǎng)景的可視化分析:

  • 圖 (a):在 LVIS 上進(jìn)行零樣本推理,以類(lèi)別名稱(chēng)作為文本提示
  • 圖 (b):可輸入任意文本作為提示
  • 圖 (c):能繪制視覺(jué)線索作為提示
  • 圖 (d):無(wú)明確提示,模型自動(dòng)識(shí)別所有對(duì)象

結(jié)果顯示,YOLOE 在這些不同場(chǎng)景下均表現(xiàn)出色,能準(zhǔn)確檢測(cè)和分割各類(lèi)物體,進(jìn)一步體現(xiàn)了其在多種應(yīng)用中的有效性與實(shí)用性。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2012-12-31 11:22:58

開(kāi)源開(kāi)放

2018-02-25 05:45:35

2023-04-10 15:52:57

模型樣本

2023-04-27 09:27:44

視頻AI

2023-04-18 15:08:46

模型圖像

2024-06-24 05:00:00

YOLO模型人工智能

2024-07-30 10:51:51

2023-05-04 12:19:47

模型AI

2016-08-31 17:24:05

大數(shù)據(jù)分析

2020-09-11 10:55:10

useState組件前端

2024-03-01 10:04:11

研究訓(xùn)練編碼器

2025-02-20 11:20:41

2021-02-28 09:47:54

軟件架構(gòu)軟件開(kāi)發(fā)軟件設(shè)計(jì)

2012-11-05 15:22:59

康普光纜DCD

2018-11-23 11:17:24

負(fù)載均衡分布式系統(tǒng)架構(gòu)

2021-02-19 23:08:27

軟件測(cè)試軟件開(kāi)發(fā)

2021-09-01 07:21:39

Exporter指標(biāo)監(jiān)控

2021-01-26 10:02:01

GCCLinux互聯(lián)網(wǎng)

2025-03-10 13:11:00

2023-04-25 11:36:17

CV模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 精品一区av | 视频一二三区 | h片免费看| 91中文字幕在线观看 | 黄色大片免费看 | 午夜一区二区三区在线观看 | 天堂在线www | 久久精品国产久精国产 | 91久久久久久 | chengrenzaixian| 精品人伦一区二区三区蜜桃网站 | 激情网五月天 | 日韩国产一区二区三区 | 精品一区二区三区在线视频 | 国产男女猛烈无遮掩视频免费网站 | 一久久久 | 国产免费一区二区三区 | 久久久久国产一区二区三区 | 亚洲网址| www.99热| 国产精品jizz在线观看老狼 | 美日韩中文字幕 | 99精品在线 | 一二区视频 | 国产99久久精品一区二区300 | 亚洲免费一区二区 | 自拍偷拍第一页 | 成人福利视频 | 欧美一区视频在线 | 国产一区二区观看 | 免费污视频 | 国产高清在线 | 精品视频一区二区 | 91原创视频 | 亚洲高清在线观看 | 欧美二区在线 | 国产农村妇女精品一二区 | 国产精品无码久久久久 | 户外露出一区二区三区 | 亚洲顶级毛片 | 久久久久中文字幕 |