CLIP當RNN用入選CVPR：無需訓練即可分割無數概念｜牛津大學&谷歌研究院

2024-06-05 19:45:08

CaR（CLIP as RNN）是一種創新的循環神經網絡框架，能夠在無需額外訓練數據的情況下，有效地進行零樣本語義和指代圖像分割任務。它通過保留預訓練視覺-語言模型的廣泛詞匯空間，并利用迭代過程不斷優化文本查詢與掩膜提議的對齊度，顯著提升了分割質量。

循環調用CLIP，無需額外訓練就有效分割無數概念。

包括電影動漫人物，地標，品牌，和普通類別在內的任意短語。

牛津大學與谷歌研究院聯合團隊的這項新成果，已被CVPR 2024接收，并開源了代碼。

團隊提出名為CLIP as RNN（簡稱CaR）的新技術，解決了開放詞匯量圖像分割領域中的幾個關鍵問題：

要理解CaR的原理，需要先回顧一下循環神經網絡RNN。

RNN引入了隱狀態(hidden state)的概念，就像是一個”記憶體”，存儲了過去時間步的信息。而且每個時間步共享同一組權重，可以很好地建模序列數據。

受RNN啟發，CaR也設計成循環的框架，由兩部分組成：

就這樣反復迭代下去，文本查詢會越來越精準，mask的質量也會越來越高。

最后當查詢集合不再變化，就可以輸出最終的分割結果了。

之所以要設計這個遞歸框架，是為了最大限度地保留CLIP預訓練的”知識”。

CLIP預訓練中見過的概念可是海量，涵蓋了從名人、地標到動漫角色等方方面面。如果在分割數據集上微調，詞匯量勢必會大幅縮水。

例如“分割一切”SAM模型就只能認出一瓶可口可樂，百事可樂是一瓶也不認了。

但是直接拿CLIP做分割，效果又不盡如人意。

這是因為CLIP的預訓練目標本來就不是為密集預測設計的。尤其是當圖像中不存在某些文本查詢時，CLIP很容易生成一些錯誤的mask。

CaR巧妙地通過RNN式的迭代來解決這個問題。通過反復評估、篩選查詢，同時完善mask，最終實現了高質量的開放詞匯分割。

最后再來跟隨團隊的解讀，了解一下CaR框架的細節。

通過這些技術手段，CaR技術在多個標準數據集上實現了顯著的性能提升，超越了傳統的零樣本學習方法，并在與進行了大量數據微調的模型相比時也展現出了競爭力。如下表所示，盡管完全無需額外訓練及微調，CaR在零樣本語義分割的8個不同指標上表現出比之前在額外數據上進行微調過的方法更強的性能。

作者還測試了CaR在零樣本Refering segmentation的效果，CaR也表現出了相較之前零樣本的方法表現出更強的性能。

綜上所述，CaR（CLIP as RNN）是一種創新的循環神經網絡框架，能夠在無需額外訓練數據的情況下，有效地進行零樣本語義和指代圖像分割任務。它通過保留預訓練視覺-語言模型的廣泛詞匯空間，并利用迭代過程不斷優化文本查詢與掩膜提議的對齊度，顯著提升了分割質量。

CaR的優勢在于其無需微調、處理復雜文本查詢的能力和對視頻領域的擴展性，為開放詞匯量圖像分割領域帶來了突破性進展。

論文鏈接：https://arxiv.org/abs/2312.07661。
項目主頁：https://torrvision.com/clip_as_rnn/。

責任編輯：姜華來源：量子位

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看