Open Vocabulary Detection 開(kāi)放世界目標(biāo)檢測(cè)競(jìng)賽 2023獲勝團(tuán)隊(duì)方案分享

作者：王斌 2023-11-27 07:14:51

由中國(guó)圖象圖形學(xué)學(xué)會(huì)與360人工智能研究院舉辦的Open Vocabulary Detection Contest - 開(kāi)放世界目標(biāo)檢測(cè)競(jìng)賽已經(jīng)正式結(jié)束，本文在征集各個(gè)競(jìng)賽團(tuán)隊(duì)的許可后，對(duì)部分優(yōu)勝團(tuán)隊(duì)的技術(shù)方案匯總并公開(kāi)分享。

OVD技術(shù)簡(jiǎn)介

目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一項(xiàng)核心任務(wù)，其主要目標(biāo)是讓計(jì)算機(jī)能夠自動(dòng)識(shí)別圖片中目標(biāo)的類(lèi)別，并準(zhǔn)確標(biāo)示每個(gè)目標(biāo)的位置。目前，主流的目標(biāo)檢測(cè)方法主要針對(duì)閉集目標(biāo)的開(kāi)發(fā)，即在任務(wù)開(kāi)始之前需要對(duì)待檢測(cè)目標(biāo)進(jìn)行類(lèi)別定義，并進(jìn)行人工數(shù)據(jù)標(biāo)注，通過(guò)有監(jiān)督模型的訓(xùn)練來(lái)實(shí)現(xiàn)目標(biāo)檢測(cè)。這種方法通常適用于待檢測(cè)目標(biāo)數(shù)量較少的情況，一般限定在幾十個(gè)類(lèi)別以?xún)?nèi)。然而，當(dāng)待檢測(cè)目標(biāo)的類(lèi)別數(shù)量增加到幾千甚至萬(wàn)級(jí)時(shí)，以上述方式進(jìn)行數(shù)據(jù)標(biāo)注已經(jīng)無(wú)法滿(mǎn)足需求。同時(shí)，已經(jīng)訓(xùn)練好的模型也無(wú)法應(yīng)對(duì)新出現(xiàn)的類(lèi)別。當(dāng)新的類(lèi)別出現(xiàn)時(shí)，需要手動(dòng)進(jìn)行標(biāo)注并重新訓(xùn)練模型，整體效率較低。

開(kāi)放詞集目標(biāo)檢測(cè)（Open Vocabulary Detection, OVD），亦即開(kāi)放世界目標(biāo)檢測(cè)，提供了解決上述問(wèn)題的新思路。借助于現(xiàn)有跨模態(tài)模型（CLIP[1]、ALIGN[2]、R2D2[3] 等）的泛化能力，OVD可以實(shí)現(xiàn)以下功能：1）對(duì)已定義類(lèi)別的few shot檢測(cè)；2）對(duì)未定義類(lèi)別的zero-shot檢測(cè)。OVD技術(shù)的出現(xiàn)吸引了計(jì)算機(jī)視覺(jué)研究者們的廣泛關(guān)注，首先，對(duì)于已定義類(lèi)別的few shot檢測(cè)，OVD的強(qiáng)大泛化能力可以讓算法在僅有少量樣本的情況下，準(zhǔn)確地識(shí)別出新的目標(biāo)類(lèi)別。其次，對(duì)于未定義類(lèi)別的zero-shot檢測(cè)，OVD的能力更是令人驚嘆。通過(guò)學(xué)習(xí)各種物體的視覺(jué)特征和語(yǔ)義信息，OVD可以在沒(méi)有見(jiàn)過(guò)的類(lèi)別中進(jìn)行目標(biāo)檢測(cè)，進(jìn)一步將語(yǔ)言大模型技術(shù)引入OVD，將會(huì)進(jìn)一步提升OVD對(duì)未知類(lèi)別的檢測(cè)能力。OVD技術(shù)有望成為未來(lái)目標(biāo)檢測(cè)算法開(kāi)發(fā)的新范式。

競(jìng)賽介紹

OVD技術(shù)的研究在國(guó)內(nèi)尚處于起步階段，為了促進(jìn)國(guó)內(nèi)OVD技術(shù)的發(fā)展，并加強(qiáng)OVD技術(shù)的生態(tài)社區(qū)建設(shè)，360人工智能研究院聯(lián)合中國(guó)圖象圖形學(xué)學(xué)會(huì)于ICIG2023大會(huì)上開(kāi)設(shè)了Open Vocabulary Detection Contest - 開(kāi)放世界目標(biāo)檢測(cè)2023競(jìng)賽。大賽于4月12日啟動(dòng)報(bào)名，報(bào)名期間吸引了來(lái)自新加坡南洋理工大學(xué)、清華大學(xué)、北京大學(xué)、香港大學(xué)、中國(guó)科學(xué)院自動(dòng)化研究所紫東太初大模型研究中心、鵬城實(shí)驗(yàn)室、華中科技大學(xué)、字節(jié)跳動(dòng)、滴滴等知名大學(xué)與公司機(jī)構(gòu)共140支隊(duì)伍參加競(jìng)賽。此次大賽所使用的賽題數(shù)據(jù)、競(jìng)賽提交平臺(tái)與賽題設(shè)置均由360人工智能研究院提供支持。

賽題數(shù)據(jù)主要涵蓋了服裝、數(shù)碼產(chǎn)品等眾多商品類(lèi)目，對(duì)于一件商品，均給出了它的圖片以及對(duì)應(yīng)的檢測(cè)框標(biāo)注信息作為訓(xùn)練數(shù)據(jù)。商品數(shù)據(jù)在互聯(lián)網(wǎng)搜索、推薦中具有重要價(jià)值，是非常貼近業(yè)務(wù)場(chǎng)景的實(shí)用數(shù)據(jù)。其次商品數(shù)據(jù)集的難度較大，同類(lèi)別商品之間普遍存在一些細(xì)節(jié)差異，而這一點(diǎn)也限制了傳統(tǒng)目標(biāo)檢測(cè)技術(shù)的泛化能力，進(jìn)而體現(xiàn)出OVD技術(shù)的優(yōu)勢(shì)性。

賽題設(shè)置：參賽者運(yùn)用OVD相關(guān)的方法，對(duì)圖像中的商品目標(biāo)進(jìn)行檢測(cè)。對(duì)于一件商品，主辦方會(huì)給出它的圖片以及bbox作為訓(xùn)練數(shù)據(jù)。目標(biāo)類(lèi)別有兩類(lèi)：base類(lèi)和novel類(lèi)。類(lèi)別均為中文商品詞組。base類(lèi)的目標(biāo)提供少量已標(biāo)注的訓(xùn)練樣本，novel類(lèi)的目標(biāo)則沒(méi)有訓(xùn)練樣本。評(píng)測(cè)分別在base類(lèi)的測(cè)試集和novel類(lèi)的測(cè)試集上進(jìn)行，評(píng)測(cè)指標(biāo)為novel和base類(lèi)的mAP@50，競(jìng)賽按照novel和base類(lèi)別的整體mAP@50排序。

競(jìng)賽共分為初賽與復(fù)賽兩個(gè)階段，由初賽到復(fù)賽，賽題難度逐步提升，考驗(yàn)選手對(duì)開(kāi)放世界目標(biāo)檢測(cè)賽題的熟悉程度與靈活應(yīng)變能力。比賽中，各位選手的方案追逐激烈，最終前三名團(tuán)隊(duì)的復(fù)賽分?jǐn)?shù)十分接近。經(jīng)過(guò)初賽與復(fù)賽的層層選拔，最終有6支隊(duì)伍脫穎而出，由來(lái)自南洋理工大學(xué)的吳思澤團(tuán)隊(duì)摘得桂冠。獲得二等獎(jiǎng)的是來(lái)自華中科技大學(xué)的STAR團(tuán)隊(duì)與來(lái)自中國(guó)科學(xué)院自動(dòng)化研究所紫東太初大模型研究中心的咱們組有名稱(chēng)嗎團(tuán)隊(duì)，獲得三等獎(jiǎng)的是來(lái)自北京大學(xué)的OVD團(tuán)隊(duì)、來(lái)自哈爾濱工業(yè)大學(xué)的wzmwzr團(tuán)隊(duì)與來(lái)自武漢郵電科學(xué)研究院的藍(lán)色閃團(tuán)隊(duì)。Open Vocabulary Detection Contest - 開(kāi)放世界目標(biāo)檢測(cè)競(jìng)賽的官網(wǎng)鏈接：開(kāi)放世界目標(biāo)檢測(cè)競(jìng)賽2023 (360cvgroup.github.io)

在各個(gè)競(jìng)賽團(tuán)隊(duì)的積極參與、中國(guó)圖象圖形學(xué)學(xué)會(huì)與360人工智能研究院的大力支持下，Open Vocabulary Detection Contest - 開(kāi)放世界目標(biāo)檢測(cè)競(jìng)賽已經(jīng)正式結(jié)束，在征集各個(gè)競(jìng)賽團(tuán)隊(duì)的許可后，我們將部分優(yōu)勝團(tuán)隊(duì)的技術(shù)方案匯總并公開(kāi)分享，詳見(jiàn)本文下半部分。

[1] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, et al. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pages 8748–8763. PMLR, 2021.

[2] C. Jia, Y. Yang, Y. Xia, Y.-T. Chen, Z. Parekh, H. Pham, Q. V. Le, Y. Sung, Z. Li, and T. Duerig. Scaling up visual and vision-language representation learning with noisy text supervision. In International Conference on Machine Learning, 2021.

[3] Xie C, Cai H, Song J, et al. Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework[J]. arXiv preprint arXiv:2205.03860, 2022.

冠軍方案講解

團(tuán)隊(duì)介紹

來(lái)自南洋理工大學(xué)的博士生吳思澤

賽題分析

1、數(shù)據(jù)集

本次主辦方提供的是商品數(shù)據(jù)集，總共466個(gè)物體類(lèi)別，其中訓(xùn)練中可見(jiàn)的有233個(gè)base類(lèi)別，測(cè)試時(shí)檢測(cè)器需要能夠同時(shí)識(shí)別base類(lèi)的物體意見(jiàn)另外233個(gè)novel類(lèi)別的物體。數(shù)據(jù)集中圖片以網(wǎng)購(gòu)商品圖為主，背景通常較為簡(jiǎn)單，每張圖物體數(shù)量不多，存在大量以物體為中心（object-centric）的圖片，訓(xùn)練集中平均每張圖的物體標(biāo)注數(shù)量<2。

2、解決思路

根據(jù)數(shù)據(jù)集屬性，可知互聯(lián)網(wǎng)中存在大量包含新類(lèi)別的商品圖片，由于圖片場(chǎng)景簡(jiǎn)單，物體單一，在圖像層級(jí)（image-level）上學(xué)習(xí)新類(lèi)別的表征，可很好泛化到檢測(cè)上。因此選擇基礎(chǔ)方案為Detic，使用爬蟲(chóng)獲取帶有新類(lèi)別tag的圖片，用于image-level的訓(xùn)練。

方案總覽

采用Detic[1]的訓(xùn)練策略，同時(shí)使用目標(biāo)檢測(cè)數(shù)據(jù)（base類(lèi)）和圖像分類(lèi)數(shù)據(jù)（base類(lèi)+novel類(lèi)）訓(xùn)練檢測(cè)器。

方案流程介紹

1、數(shù)據(jù)處理

選擇百度圖片為爬取對(duì)象，索引關(guān)鍵詞為”[中文名稱(chēng)] 商品圖片”，為保證類(lèi)別平衡，novel和base類(lèi)別均爬取40頁(yè)(大約1000張)。每個(gè)類(lèi)別爬取到的圖片存到一個(gè)路徑下，這些圖片只有類(lèi)別Tag，沒(méi)有物體框標(biāo)注。

2、類(lèi)別名稱(chēng)翻譯

為方便使用現(xiàn)有的開(kāi)源模型（CLIP），需要將466個(gè)中文名稱(chēng)均翻譯成英文，我們使用google translator翻譯每個(gè)名稱(chēng)并人工校對(duì)。

3、模型介紹

選擇ResNet50和SwinB作為檢測(cè)器backbone，檢測(cè)器結(jié)構(gòu)為CenterNet2，使用Detic公開(kāi)的在公開(kāi)數(shù)據(jù)集LVIS和ImageNet上預(yù)訓(xùn)練的模型權(quán)重作為初始化。CLIP模型選擇ViT-L-14（只用text encoder）來(lái)得到類(lèi)別名稱(chēng)的embeddings。分類(lèi)的損失函數(shù)為BCE Loss。

4、Learnable Prompt

為了獲取類(lèi)別名稱(chēng)的text embeddings，在訓(xùn)練過(guò)程中學(xué)習(xí)一組長(zhǎng)度為4的learnable prompt以獲得更好的text表征。具體方案參考了coop[2]。

5、重要參數(shù)

模型初始化：使用LVIS和ImageNet上預(yù)訓(xùn)練的模型作為初始化。
總迭代次數(shù)：18000。
image-level分支的batch size: 8x96，檢測(cè)分支batch size: 8x4。
image-level的權(quán)重：1.2，det分支權(quán)重：1.0。
圖像分辨率：image-level分支448，檢測(cè)分支 896。

6、測(cè)試結(jié)果

這里介紹的測(cè)試結(jié)果是隨著我們模塊和參數(shù)改變的變化，我們初始使用R50 backbone作為baseline, image-level分支的batch size為32，訓(xùn)練資源8xV100，增加到64之后需要8xA100 （或者整體batch size縮小，迭代數(shù)增加）。以下結(jié)果均來(lái)自初賽。

ADetecting Twenty-thousand Classes using Image-level Supervision, Zhou et.al ECCV 2022.
Prompt Learning for Vision-Language Models, Zhou et.al IJCV 2022.