零樣本 | ZeroDiff:擴散模型助力零樣本學習,打破數據限制,實現高效泛化
1. 一眼概覽
ZeroDiff 提出了一種基于擴散模型的生成式零樣本學習(ZSL)方法,提升數據利用效率,實現類別級和實例級的增強。在多個ZSL基準數據集上,ZeroDiff 取得了顯著的性能提升,特別是在數據稀缺情況下仍保持穩健。
2. 核心問題
零樣本學習(ZSL)試圖在無訓練樣本的情況下識別新類別,主要依賴于已知類別的語義信息。然而,現有方法高度依賴于已有類別的數據量,忽視了實例級數據有效性的問題。當訓練樣本不足時,現有生成式方法(如GANs)容易崩潰,導致性能下降。因此,如何在有限訓練數據下仍能有效生成逼真的類別特征,是本研究的核心問題。
3. 技術亮點
- 擴散噪聲增強實例級數據利用效率:利用前向擴散鏈將有限數據轉換為擴增的帶噪數據,從而增強泛化能力,避免生成模型過擬合。
- 雙分支擴散生成結構:結合擴散特征生成器(DFG) 和 擴散表示生成器(DRG),分別學習交叉熵特征分布和對比學習表示,協同增強類別級生成能力。
- 多判別器+互學習損失:引入三種判別器,從不同角度評估生成特征,并設計基于Wasserstein距離的互學習損失,實現不同判別器的知識傳遞,提升生成質量。
4. 方法框架
ZeroDiff 通過以下關鍵步驟進行零樣本學習:
- 特征提取與預訓練:
a.采用ResNet-101提取視覺特征,并進行交叉熵(CE)和監督對比(SC)學習。
- 擴散表示生成(DRG):
? 訓練基于擴散的表示生成器,學習潛在語義表示并凍結模型,為后續特征生成提供支持。
- 擴散特征生成(DFG):
通過擴散模型生成具有噪聲擾動的特征,并利用判別器進行質量評估。
- 訓練最終分類器:
? 結合生成特征進行ZSL/GZSL分類,評估ZeroDiff的泛化能力。
5. 實驗結果速覽
基準測試對比
在AWA2、CUB、SUN 三個數據集上,ZeroDiff 取得了新的SOTA性能:
? ZSL (Top-1 Accuracy):
AWA2: 86.4%(提升10.5%)
CUB: 87.5%(提升1.7%)
SUN: 77.3%(提升0.1%)
? GZSL (Harmonic Mean H):
AWA2: 79.5%(領先于次優方法 73.7%)
CUB: 81.6%(超過次優方法 81.1%)
訓練數據不足情況下的對比
當僅有10%訓練數據時:
? 傳統GAN-based方法(如f-VAEGAN)精度大幅下降,而ZeroDiff 仍能保持較高準確率(83.3%)。
? t-SNE可視化顯示,ZeroDiff 生成的未見類別特征保持穩定,而f-VAEGAN 出現崩潰現象。
6. 實用價值與應用
ZeroDiff 在以下數據有限的任務中具有廣泛應用潛力:
- 計算機視覺:目標檢測、圖像分類任務中的零樣本泛化。
- 醫學影像分析:處理稀缺病癥數據,提高診斷模型的泛化能力。
- 自動駕駛:在低數據場景下增強目標識別能力。
- 自然語言處理:結合文本生成,實現更高效的跨模態學習。
7. 開放問題
- ZeroDiff 在更復雜的真實世界數據(如長尾分布數據)下表現如何?
- 能否結合大規模預訓練擴散模型,如Stable Diffusion,提升ZSL能力?
- 該方法是否可以推廣到跨模態生成任務,如文本到圖像生成?