標注受限也能識別多標簽圖像!中山大學等發布異構語義轉移HST框架 | IJCV 2024
隨著深度學習的快速發展,許多研究者們開始嘗試利用深度神經網絡解決多標簽圖像識別(Multi-label Image Recognition, MLR)任務,并已取得了不俗的進展。
但是,由于圖像本身和潛在標簽類別的復雜性,收集滿足現有模型訓練的多標簽標注信息往往成本高昂且難以拓展,導致現有的大部分多標簽圖像識別模型難以在現實應用場景中落地。
因此,近年來許多研究者開始致力于探索標注受限情況下的多標簽圖像識別(Multi-label Image Recognition with Partial Label, MLR-PL)算法來解決這個問題。
圖1 多標簽圖像識別任務中完整標注與標注受限的區別
為此,近期中山大學聯合廣東工業大學聯手探索標注受限情況下的多標簽圖像識別任務,提出了兩種解決方案(即,結構化語義遷移和語義感知表達混合)并發表多篇文章于頂級期刊/會議(IJCV / TMM / AAAI)。
此外,為了更好的衡量現有方法在不同標注比例下的性能,研究人員構建了一個統一且公平的評測基準,該基準復現了多個效果較好的傳統多標簽圖像識別方法,以及數個最新發表的標注受限情況下的多標簽圖像識別算法,并使用統一的數據集以及標注比例,以此進行公平的比較評測。
倉庫鏈接:??https://github.com/HCPLab-SYSU/HCP-MLR-PL??
具體而言,研究人員做了以下兩方面的工作:
通過對多標簽圖像中的強語義相關性的探索研究,團隊提出了一種異構語義轉移(Heterogeneous Semantic Transfer, HST) 框架。
該框架探索圖像內和圖像間潛在的語義相關性,從而實現有效的未知標簽生成。相關文章發表于 IJCV'24 & AAAI'22。
IJCV 2024:??https://arxiv.org/pdf/2205.11131??
AAAI 2022:??https://aaai-2022.virtualchair.net/poster_aaai1133??
除了正負樣本標注受限情況外,正樣本標注受限情況下的多標簽圖像識別(Multi-label Image Recognition with Partial Positive Label, MLR-PPL)對進行了額外的拓展討論。
在該問題中,提出了一種類別自適應標簽發現與噪音抑制(Category-Adaptive Label Discovery and Noise Rejection)框架。相關文章發表于 TMM'24。
TMM 2024:??https://ieeexplore.ieee.org/document/10517428/??
通過對多標簽圖像混合中的可能存在的語義/上下文混淆進行分析,團隊提出了一種語義感知表達混合(Dual-Perspective Semantic-Aware Representation Blending, DSRB)框架。
該框架分別從實例和原型的角度混合特定于類別的視覺表達,以此實現多樣化且穩定的混合視覺表達生成。相關文章發表于 ESWA'24 & AAAI'22。
ESWA 2024:??https://www.sciencedirect.com/science/article/abs/pii/S0957417424003919??
AAAI 2022:??https://aaai-2022.virtualchair.net/poster_aaai1134??
結構化語義遷移
現有的 MLR 算法主要將多標簽圖像識別任務視為多個二元分類子任務,從該角度出發將未知標簽視為缺失或負標簽是一種直觀且簡單的方法,因此可以通過調整這些算法來解決 MLR-PL 任務。
然而,這種簡單粗暴的處理會導致模型丟失部分標注數據,甚至產生一些噪聲標簽,這可能會損害模型的訓練過程并不可避免地導致明顯的性能下降。
幸運的是,每個多標簽圖像內以及不同多標簽圖像之間都存在很強的語義相關性。這些相關性有助于有效地遷移已知標簽的語義知識來構造未知標簽,從而解決上述困境。
如下圖所示,語義相關性分為兩種類型,即
1)圖像內相關性:標簽共現在現實世界的圖像中廣泛存在,并且具有高共現概率的標簽可能共存于一幅圖像中,例如,汽車 往往與 人 同時出現,而 桌子 則傾向于與 椅子 同時出現。
2)跨圖像相關性:屬于同一類別且來自不同圖像的對象可能具有相似的視覺外觀,因此具有相似視覺特征的圖像可能具有相同的標簽。
圖2 多標簽圖像中存在強語義相關性
基于上述發現,團隊開展了對于語義相關性的探索研究,以通過一種新穎的異構語義轉移(Heterogeneous Semantic Transfer, HST)框架來幫助補充未知標簽。
該框架由語義感知表達學習 (SARL) 模塊、圖像內語義轉移(IST)模塊和跨圖像語義轉移(CST)模塊組成,其中 SARL 模塊通過結合各個類別的語義來學習特定于類別的特征表達;IST 模塊通過學習每個圖像的所有類別之間的共現矩陣,以此補充與已知標簽具有高共現概率的未知標簽;CST 模塊通過學習特定類別的表達原型以及相應的特征表達和原型之間的特定于類別的相似性,并基于此補充具有高相似性的未知標簽。
最后,可以使用已知標簽和補充標簽來監督 MLR 模型的訓練。
圖3 HST 框架圖 (發表于 IJCV 2024 & AAAI 2022)
類別自適應標簽發現與噪音抑制
除了上述工作外,團隊也對 MLR-PL 任務本身進行了拓展討論。為了更貼合實際應用場景,坐著建議訓練具有部分正標簽的 MLR 模型(MLR-PPL),即僅知道一部分正標簽,而其余正標簽和所有負標簽缺失。
在這種情況下,可以充分利用豐富的在線用戶標記圖像來大幅降低標注成本。然而,團隊也認識到這項任務提出了更大的挑戰,主要是由于監督信號的大幅減少和負標簽的缺失,這會導致模型表現出始終預測正面標簽的強烈偏見。
由于缺乏負訓練樣本,僅使用部分正標簽訓練 MLR 模型的傳統做法通常會導致「始終預測正」解決方案。
為了解決這個問題,之前的研究提出了一種樸素的訓練策略,假設負數(AN),其中所有缺失的標簽都被視為負數。
雖然這種策略在一定程度上緩解了困境,但由于將許多積極標簽錯誤地注釋為消極標簽,它可能會顯著降低性能。為此,團隊提出了一種新穎的框架,該框架探索各個類別的跨圖像語義相關性,以此識別未知的正標簽并丟棄噪聲標簽。
具體而言,該框架由兩個互補模塊組成,分別是類別自適應標簽發現模塊(Category-Adaptive Label Discovery, CALD)和類別自適應噪聲抑制(Category-Adaptive Noise Rejection, CANR)模塊。
其中,CALD 模塊測量正樣本隊列中同一類別的特征表示之間的語義相似度,然后利用這些語義相似度來生成偽標簽。
同時,CANR 模塊通過評估各個樣本之間的語義相似度來計算樣本權重。隨后,它通過識別相關權重較低的標簽來消除噪聲標簽。與之前的工作不同,團隊還設計了類別自適應閾值更新來自適應調整 CALD 和 CANR 模塊中每個類別的閾值,避免了極其耗時和費力的手動調整。
圖4 所提出方法的框架圖(發表于 TMM 2024)
語義感知表達混合
除了語義相關性外,團隊也發現在一個圖像 I^n 中未知的特定標簽 c 在另一圖像 I^m 中可能是已知的。
因此,將圖像 I^m 中已知標簽 c 的信息混合到圖像 I^n 可能有助于補充圖像 I^n 的未知標簽 c
然而,通過簡單的混合操作混合兩個圖像幾乎無法幫助促進 MLR-PL 任務,因為此類操作可能會導致語義和上下文混淆。
首先,多標簽圖像包含不同語義類別的多個對象,簡單地混合兩個圖像可能會將兩個具有完全不同語義的對象混合在一起,從而在訓練過程中誤導模型。
如下圖所示,將圖像 I^m 混合到圖像 I^n 中,混合了 I^m 中的 人 和 I^n 中的 交通燈 在一起,這會產生令人混淆的區域,并可能會損害訓練過程。
其次,許多物體類別由于數據樣本數量的原因嚴重依賴上下文進行識別。因此, 簡單地混合任意兩個圖像,特別是如果它們屬于不同的場景,可能會破壞這些依賴性。
例如下圖中在街道和浴室中捕獲的兩個圖像,街道的場景可能會為識別 吹風機 和 牙刷 提供令人困惑的上下文信息。
圖5 圖像混合中的語義/上下文混淆
基于上述發現,團隊提出了一種語義感知表達混合(Dual-Perspective Semantic-Aware Representation Blending, DSRB)框架,該框架學習每個圖像的特定于類別的表達,然后執行特定于類別的表達混合以補充未知標簽。
它由兩個關鍵模塊組成,分別從實例和原型的角度混合特定于類別的視覺表達。具體而言,DSRB 框架建立在特定類別表達學習 (CSRL) 模塊的基礎上,該模塊合并類別語義來指導學習特定類別語義表達。
然后,團隊設計了一個實例視角表達混合(IPRB)模塊,即將一幅圖像 I^m 中已知標簽 c 的表達與另一幅圖像 I^n 中相應未知標簽 c 的表達混合,因此它可以補充圖像 I^n 的未知標簽 c。
同時,提出了原型視角表達混合(PPRB)模塊來學習每個類別的更魯棒的表達原型,并以位置敏感的方式將未知標簽的表達與相應標簽的原型混合以補充這些未知標簽。通過這種方式,可以同時生成多樣化且穩定的混合視覺表達來補充未知標簽,從而促進 MLR-PL 任務。
圖6 DSRB 框架圖(發表于 ESWA 2024 & AAAI 2022)
統一且公平的評測基準
為了解決不同標注比例下對比不公平的問題,團隊構建了一個統一且公平的評測基準。該評測基準復現了多個效果較好的傳統多標簽圖像識別方法,以及數個最新發表的標簽受限下多標簽圖像識別算法,并使用統一的數據集以及標注比例,以此進行公平的比較評測。與其他工作相比,該評測基準有多個優點:
標注比例選取一致:該評測基準統一了多種標注比例下的數據設置,以此確保對各個方法進行統一且公平的對比。
對比方法涵蓋范圍廣:該評測基準對比了多樣化的不同方法:1)效果較好的傳統多標簽圖像識別方法,包括 SSGRL [1],GCN-ML [2],KGGR [3],P-GCN [4],ASL [5];2)最新發表的標簽受限下多標簽圖像識別算法,包括 CL [6],Partial BCE [6]。
圖7 在不同標注比例下的實驗結果
本文轉自新智元 ,作者:新智元
