CLIP當RNN用入選CVPR:無需訓練即可分割無數概念|牛津大學&谷歌研究院
循環調用CLIP,無需額外訓練就有效分割無數概念。
包括電影動漫人物,地標,品牌,和普通類別在內的任意短語。
牛津大學與谷歌研究院聯合團隊的這項新成果,已被CVPR 2024接收,并開源了代碼。
團隊提出名為CLIP as RNN(簡稱CaR)的新技術,解決了開放詞匯量圖像分割領域中的幾個關鍵問題:
- 無需訓練數據:傳統方法需要大量的掩膜注釋或圖像-文本數據集進行微調,CaR技術則無需任何額外的訓練數據即可工作。
- 開放詞匯量的限制:預訓練的視覺-語言模型(VLMs)在經過微調后,其處理開放詞匯量的能力受到限制。CaR技術保留了VLMs的廣泛詞匯空間。
- 對非圖像中概念的文本查詢處理:在沒有微調的情況下,VLMs難以對圖像中不存在的概念進行準確分割,CaR通過迭代過程逐步優化,提高了分割質量。
受RNN啟發,循環調用CLIP
要理解CaR的原理,需要先回顧一下循環神經網絡RNN。
RNN引入了隱狀態(hidden state)的概念,就像是一個”記憶體”,存儲了過去時間步的信息。而且每個時間步共享同一組權重,可以很好地建模序列數據。
受RNN啟發,CaR也設計成循環的框架,由兩部分組成:
- 掩膜提議生成器:借助CLIP為每個文本查詢生成一個mask。
- 掩膜分類器:再用一個CLIP模型,評估生成的每個mask和對應的文本查詢的匹配度。如果匹配度低,就把那個文本查詢剔除掉。
就這樣反復迭代下去,文本查詢會越來越精準,mask的質量也會越來越高。
最后當查詢集合不再變化,就可以輸出最終的分割結果了。
之所以要設計這個遞歸框架,是為了最大限度地保留CLIP預訓練的”知識”。
CLIP預訓練中見過的概念可是海量,涵蓋了從名人、地標到動漫角色等方方面面。如果在分割數據集上微調,詞匯量勢必會大幅縮水。
例如“分割一切”SAM模型就只能認出一瓶可口可樂,百事可樂是一瓶也不認了。
但是直接拿CLIP做分割,效果又不盡如人意。
這是因為CLIP的預訓練目標本來就不是為密集預測設計的。尤其是當圖像中不存在某些文本查詢時,CLIP很容易生成一些錯誤的mask。
CaR巧妙地通過RNN式的迭代來解決這個問題。通過反復評估、篩選查詢,同時完善mask,最終實現了高質量的開放詞匯分割。
最后再來跟隨團隊的解讀,了解一下CaR框架的細節。
CaR技術細節
- 循環神經網絡框架:CaR采用了一個新穎的循環框架,通過迭代過程不斷優化文本查詢與圖像之間的對應關系。
- 兩階段分割器:由掩膜提議生成器和掩膜分類器組成,均基于預訓練的CLIP模型構建,且權重在迭代過程中保持不變。
- 掩膜提議生成:使用gradCAM技術,基于圖像和文本特征的相似度得分來生成掩膜提議。
- 視覺提示:應用如紅圈、背景模糊等視覺提示,以增強模型對圖像特定區域的關注。
- 閾值函數:通過設置相似度閾值,篩選出與文本查詢對齊程度高的掩膜提議。
- 后處理:使用密集條件隨機場(CRF)和可選的SAM模型進行掩膜細化。
通過這些技術手段,CaR技術在多個標準數據集上實現了顯著的性能提升,超越了傳統的零樣本學習方法,并在與進行了大量數據微調的模型相比時也展現出了競爭力。如下表所示,盡管完全無需額外訓練及微調,CaR在零樣本語義分割的8個不同指標上表現出比之前在額外數據上進行微調過的方法更強的性能。
作者還測試了CaR在零樣本Refering segmentation的效果,CaR也表現出了相較之前零樣本的方法表現出更強的性能。
綜上所述,CaR(CLIP as RNN)是一種創新的循環神經網絡框架,能夠在無需額外訓練數據的情況下,有效地進行零樣本語義和指代圖像分割任務。它通過保留預訓練視覺-語言模型的廣泛詞匯空間,并利用迭代過程不斷優化文本查詢與掩膜提議的對齊度,顯著提升了分割質量。
CaR的優勢在于其無需微調、處理復雜文本查詢的能力和對視頻領域的擴展性,為開放詞匯量圖像分割領域帶來了突破性進展。
論文鏈接:https://arxiv.org/abs/2312.07661。
項目主頁:https://torrvision.com/clip_as_rnn/。