搜索圖片有新招了！北大課題組提出圖像檢索新方法，輸入草圖or藝術or低分辨率 | ECCV 2024

作者：量子位 2024-08-23 09:20:00

人工智能新聞

一句話，這種檢索任務要求模型面對風格多樣的查詢條件時，依然能精準找圖。

從一大堆圖片中精準找圖，有新招了！論文已經中了ECCV 2024。

北京大學袁粒課題組，聯合南洋理工大學實驗室，清華自動化所提出了一種新的通用檢索任務：通用風格檢索(Style-Diversified Retrieval)。

一句話，這種檢索任務要求模型面對風格多樣的查詢條件時，依然能精準找圖。

傳統圖片檢索主要靠文本查詢，查詢方法單一不說，在使用其他檢索方案的性能也一般。

而論文提出的新圖像檢索方法，能夠根據多樣化的查詢風格（如草圖、藝術畫、低分辨率圖像和文本等）來檢索相應圖像，甚至包括組合查詢（草圖+文本、藝術+文本等）。

同時，模型在與其他檢索基線之間的性能比較中達到SOTA。（最外圍藍色）

目前，論文已在arXiv公開，相關代碼和數據集也已開源。

新圖像檢索方法

當前，圖像檢索的一大痛點是：

讓檢索模型具備理解多樣化用戶查詢向量的能力

通俗點說就是，不管用戶用哪種方式檢索查詢，最后都能命中用戶想要的圖像。

為了實現這一點，團隊進行了兩項工作：

構建專有的檢索數據集，包括多種類型的查詢圖片。
提出即插即用的框架，使傳統檢索模型也能快速具有通用檢索能力。

數據集構建

針對多種查詢風格的圖片文本檢索任務，團隊生成并構建了細粒度檢索數據集DSR（Diverse-Style Retrieval Dataset）。

展開來說，數據集包括10,000張自然圖片以及對應的四種檢索風格（文本、草圖、低分辨率、卡通藝術）。

其中的草圖標注由FSCOCO數據集提供，卡通藝術圖片和低分辨率圖像由AnimateDiff生成。

同時，團隊也采用ImageNet-X作為大尺寸粗粒度的多風格檢索數據集。

ImageNet-X包括100萬張帶有各種風格標注的自然圖片，相較于DSR，ImageNet-X數據集的圖片更加簡單，便于檢索。

提出FreestyleRet框架

概括而言，FreestyleRet框架通過將圖片風格提取并注入，有效解決了當前圖片檢索模型無法兼容不同類型的檢索向量的問題。

在構建FreestyleRet框架時，團隊主要考慮到兩個問題：

如何有效地理解不同風格的查詢向量的語義信息。
如何有效利用現有的圖文檢索模型，實現優秀的擴展能力。

圍繞這兩個核心問題，團隊設計三個模塊來組成FreestyleRet框架：

（1）基于格拉姆矩陣的風格提取模塊用于顯式提取未知查詢向量的風格表征；
（2）風格空間構建模塊，通過對風格表征聚類從而構建檢索的風格空間，并將聚類中心作為風格的一致性表征；
（3）風格啟發的提示微調模塊，通過對檢索模型的Transformer layer進行風格初始化的插值，實現對現有檢索模型的多風格查詢能力擴展。