成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICML 2024 Oral|外部引導的深度聚類新范式 精華

發布于 2024-6-7 13:01
瀏覽
0收藏

本文作者李云帆,四川大學計算機學院 2020級直博研究生。在導師彭璽教授的指導下,博士期間主要圍繞深度聚類開展理論、方法和應用的研究。目前已在國際權威刊物Nature Communications/JMLR/TPAMI/IJCV/ICML/CVPR等上發表學術論文13篇,谷歌學術引用共954次;發表于AAAI2021的Contrastive Clustering被引516次,是2021年以來聚類領域引用最高的論文;獲首批國家自然科學基金青年學生基礎研究項目(博士研究生)資助。


怎樣才能將可愛又迷人的柯基與柴犬的圖像進行區分?


ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區


如果單從圖像識別角度而言,兩種犬類在外觀上極為相似,擁有相近的色塊像素,僅憑數據內蘊信息(即圖像自身)可能難以對二者進行區分,但如果借助外部數據和知識,情況可能會大幅改觀。


近日,一篇以《Image Clustering with External Guidance》為題的論文,提出了能夠大幅提升CLIP圖像聚類性能,引入外部知識庫內容輔助深度聚類的方法。


ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區



背景


作為機器學習的經典任務之一,圖像聚類旨在無需依賴樣本標注的情況下,將圖像依據語義劃分到不同的類簇中,其核心在于利用先驗知識構建監督信號。從經典基于類簇緊致性的k-means到近年來基于增廣不變性的對比聚類[1],聚類方法的發展本質上對應于監督信號的演進。


ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區

圖1: 聚類方法的發展大致可分為三個階段: (1)傳統聚類,基于數據分布假設設計聚類策略; (2)深度聚類,利用深度神經網絡提取有利于聚類的特征; (3)自監督聚類,通過數據增廣或動量網絡等策略構建自監督信號。不同于此前的工作聚焦于從數據內部挖掘監督信號,本文提出利用外部知識來引導聚類,并將新范式歸類為 (4)外部引導聚類。實驗結果表明,通過利用文本模態中的語義信息,所提出的方法(TAC)顯著提升了圖像聚類精度。


現有的聚類研究雖然在方法設計上各不相同,但均是從數據內部挖掘監督信號,其性能最終會受限于數據自身所蘊含信息量的固有上限。舉例來說,柯基和巴哥犬的圖片有明顯的差異,但其和柴犬在外觀上十分相似,僅依據圖像本身難以對二者進行區分。


但值得注意的是,在數據內蘊信息之外,現實世界中還存在著大量有助于聚類的外部知識,而在現有工作中被很大程度地忽略了。


在上述例子中,假設模型具備來自知識庫的「柯基腿較短,而柴犬腿較長」等非圖像域的外部先驗,則能更準確地對二者的圖像進行區分。


換而言之,與從數據中竭力地挖掘內部監督信號相比,利用更加豐富且容易獲得的外部知識來引導聚類,有望起到事半功倍的效果。


方法


本文提出了一種簡單而有效的外部引導聚類方法TAC(Text-Aided Clustering,文本輔助的聚類),基于預訓練CLIP模型,通過利用來自文本模態的外部知識輔助圖像聚類。


在缺乏類別標注和圖像描述等文本信息的情況下,利用文本語義輔助圖像聚類面臨兩個挑戰:


  • 如何構建圖像的文本表征;
  • 如何協同圖像和文本進行聚類。


ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區

圖2:所提出的TAC方法框架,包括文本表征構建跨模態互蒸餾兩部分。


一、文本表征構建


針對第一個挑戰,由于樣本標注、圖像描述等文本信息在圖像聚類任務中不可用,本文提出將來自WordNet[2]的所有名詞作為文本模態的候選詞,選擇其中具有代表性的名詞集合來組成文本空間。


具體地,為了使文本表征精確地覆蓋圖像語義,同時盡可能在不同類別圖像之間具有區分度,本文首先使用k-means算法來計算圖像語義中心。


考慮到過多的語義中心會關注過于細粒度的特征,不利于區分不同類別的圖像,而過少的語義中心則會難以準確覆蓋位于聚類邊界圖像的語義,本文提出根據樣本點的個數估計k-means算法中合適的k值(實驗中選取k=N/300,N為圖像個數),并計算圖像語義中心如下:

ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區


其中

ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區

當且僅當圖像ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區屬于第l個聚類,ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區表示第i張圖像經過CLIP圖像編碼器后得到的表征。在得到圖像語義中心后,為了選取具有代表性的名詞集合,與常見的CLIP Zero-shot分類相反,本文將所有WordNet中的名詞劃分到k個圖像語義中心,其中第i個名詞屬于第l和語義中心的概率為:

ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區

其中sim表示余弦相似性,ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區表示第i個名詞經過預訓練好的文本編碼器后得到的表征。保留每個語義中心對應概率最高的名詞,作為組成文本空間的候選詞。


選取完具有代表性的名詞集合后,可通過為每張圖像檢索其最相關的名詞來構建其文本模態的表征:

ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區

其中,ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區表示第i張圖像對應的文本模態中的表征,ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區表示組成文本空間的第j個候選名詞,ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區控制檢索的平滑程度。


至此,作者為每張圖像構建出了其在文本模態中的表征。此時可通過在文本和圖像的拼接表征ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區直接使用經典k-means聚類方法來實現圖像聚類。


由于融入了來自文本模態的緊湊語義,拼接后的表征具有更好的判別性,從而相較于直接在圖像表征上使用k-means會得到更好的圖像聚類結果。


值得注意的是,上述文本模態的構建過程不需要任何的額外訓練和模型調優,其中名詞選取和檢索過程的計算開銷幾乎可以忽略不計。


二、跨模態互蒸餾


盡管直接將文本和圖像表征進行拼接已能顯著提升圖像聚類效果,但是簡單的拼接并不能充分協同文本和圖像兩個模態。因此,本文進一步提出跨模態互蒸餾方法,通過訓練額外的聚類網絡進一步提升聚類性能。


具體地,為每張圖像構建鄰居集合ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區,并引入一個聚類網絡f對每個圖像表征做出聚類指派,在每次迭代中,計算所有圖像和其鄰居集合中隨機的一個圖像的聚類指派,記為:

ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區

其中ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區分別對應圖像i及其鄰居的聚類指派,P和ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區均為n*K的矩陣,其中K表示目標聚類個數。


相類似的,引入另一個聚類網絡g來對每個文本表征做出聚類指派,同樣為每個文本表征構建鄰居集合ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區,在每次迭代中,計算所有文本和其鄰居集合中隨機的一個文本的聚類指派,記為:


ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區


其中ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區分別對應文本i及其鄰居的聚類指派,Q和Q^N同樣均為n*K的矩陣。


為了協同圖像和文本兩個模態,要求網絡對于圖像和其對應文本模態的鄰居具有類似的聚類指派,同時對于文本和其對應圖像模態的鄰居也具有類似的聚類指派。為實現該目標,本文設計了如下的損失函數:


ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區


其中ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區分別表示聚類指派矩陣P,P^N,Q,Q^N的第i列,

ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區為溫度系數。該損失函數一方面能通過跨模態鄰居之間的聚類指派一致性實現圖文模態的協同,另一方面能擴大不同的類簇之間的差異性。


此外,為了使訓練過程更加穩定,本文設計了另外兩個正則項損失函數。首先,為了鼓勵模型做出更加置信的聚類指派,提出如下損失函數:


ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區

該損失函數在ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區均為獨熱(One-hot)編碼時被最小化,因此能提升聚類指派的置信度。另外,為了防止模型將大量圖像和文本都分配到個別類簇中,提出了以下損失函數:

ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區

其中

ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區分別表示圖像和文本模態中整體的聚類分布。


綜合上述三個損失函數,本文使用如下損失函數來優化圖像和文本模態的聚類網絡f和g:

ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區

其中ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區為權重參數。需要指出的是,上述損失函數只用來優化額外引入的聚類網絡,并不修改CLIP預訓練好的文本和圖像編碼器,因此其整體訓練開銷較小,實驗表明所提出的方法在CIFAR-10的6萬張圖像上訓練僅需使用1分鐘。


訓練完成后,只需將待聚類的圖像輸入聚類網絡f,即可得到其聚類指派,從而實現準確的圖像聚類。


實驗


本文在五個經典數據集和三個更具挑戰性的圖像聚類數據集上對方法進行了驗證,部分實驗結果如下:


ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區

表1:所提出的TAC方法在經典圖像聚類數據集上的聚類性能


ICML 2024 Oral|外部引導的深度聚類新范式-AI.x社區

表2:所提出的TAC方法在更具挑戰性的圖像聚類數據集上的聚類性能


從結果中可以看出,在缺少標注信息的情況下所提出的TAC方法通過為每個圖像構建文本表征,能夠有效地從文本模態中挖掘語義信息。在無需任何額外訓練的情況下,TAC (no train)顯著提高了直接在CLIP提取的圖像表征上使用k-means聚類的性能,特別是在更困難的數據集上。


當進一步使用提出的跨模態相互蒸餾策略訓練聚類網絡時,TAC取得了最優的聚類性能,甚至超過了依賴類別標簽信息的CLIP Zero-shot分類性能。


總結與展望


不同于現有的聚類研究聚焦于從數據內部構建監督信號,本文創新性地提出利用此前被忽略的外部知識來引導聚類。


所提出的TAC方法通過在無需文本描述的情況下,從預訓練CLIP模型的文本模態挖掘語義信息,顯著提升了圖像聚類性能,證明了所提出的外部引導聚類新范式的有效性。


所提出的外部引導聚類范式的挑戰在于:


  • 如何選擇合適的外部知識;
  • 如何有效的整合外部知識以輔助聚類。


除了本工作關注的文本語義外,外部知識廣泛存在于各類的數據、模型、知識庫等,對于不同的數據類型和聚類目標,需要針對性地選擇與利用外部知識。


總的來說,在目前大模型、知識庫日趨成熟背景下,外部引導的聚類新范式具備良好的發展潛力,希望未來有更多工作進行相關的探索。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/-_gubDBCpbBZpLE9ZfNdCw??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产精品久久久久久中文字 | 狠狠操狠狠搞 | 国产精品污www一区二区三区 | 神马久久久久久久久久 | 中文字幕国产在线 | 午夜精品一区二区三区在线观看 | 一级毛片网| 亚洲成av | 日本精品久久久久久久 | 亚洲成人久久久 | 成人在线视频免费看 | 久久久久久久电影 | 日韩伦理一区二区 | 欧美在线天堂 | 久久精品国产一区 | 一区二区高清不卡 | 国产精品久久久久久久久久 | 美日韩免费视频 | 免费国产视频 | 国产在线精品一区二区三区 | 欧美日韩亚 | 久久久精品网站 | 日韩三级| 精品一区二区在线视频 | 麻豆久久久久久久久久 | 草草草网站 | 国产福利视频在线观看 | 久久久久久免费毛片精品 | 国产精品毛片无码 | 91精品国产91久久久久久吃药 | 国产免费视频 | 一区二区三区欧美 | 一级黄a视频 | 99pao成人国产永久免费视频 | 成人免费视屏 | 黄视频欧美| 亚洲一区二区三区四区五区中文 | 红色av社区 | 国产激情视频在线观看 | 日韩一区二区在线视频 | 欧美黄在线观看 |