模型安全武裝,復旦新研究實現SOTA擴散模型風險概念擦除效果,入選AAAI 2025
論文第一、第二作者為復旦大學視覺與學習實驗室的碩士生韓楓和博士生陳凱。通訊作者為陳靜靜副教授。研究團隊專注于 AI 安全的研究,近年來在 CVPR,ECCV,AAAI,ACM MM 等頂會上發表過多篇 AI 安全的研究成果。
文生圖模型生成圖片過于露骨?不妨直接給圖像穿上衣服。
復旦大學團隊設計的風險概念移除網絡 DuMo 不僅實現上述功能,同時盡可能保證人物以及其他屬性不受影響。達到現有最好的指哪擦哪效果。
同時,DuMo 也可避免文生圖模型模仿藝術家風格,從而制作一些侵犯版權的照片。
隨著生成式人工智能技術的快速發展,擴散模型圖像生成能力已達到了令人驚嘆的高度。然而,這一技術也伴隨著安全隱患,例如生成含有敏感、不當或侵犯版權的內容。
現有方法一般通過一種名為概念擦除的微調方法以實現模型去毒。
復旦大學研究團隊提出了一種全新的雙編碼器調制網絡(DuMo),通過創新性的架構和算法,實現了對擴散模型中特定風險概念的精準擦除,在擦除效果和精確度方面均達到 SOTA 水平,研究成果已被頂級會議 AAAI 2025 收錄。
- 論文:DuMo: Dual Encoder Modulation Network for Precise Concept Erasure
- 論文鏈接:https://arxiv.org/abs/2501.01125
DuMo:擦除風險內容,保護生成能力
當前的概念擦除技術普遍面臨兩個挑戰:一是難以有效擦除風險概念,二是擦除過程中,微調后模型對其他安全概念的生成能力被破壞。DuMo 在這兩個方面取得了突破,成功地解決了「擦除」和「保護」之間的矛盾。
具體而言,U-Net 特征分為主干網絡特征,和跳躍連接特征。其他方法都對 U-Net 的主干特征進行了修改,會對安全概念的生成產生不良影響,破壞其結構完整性 [1]。此外,跳躍連接特征的潛力沒有得到充分挖掘,這限制了模型在執行概念擦除時的能力,同時也影響了模型的生成效果 [2]。
DuMo 通過對 EPR 擦除模塊和時間 - 層級調制機制(TLMO)的兩階段微調以實現上述效果:
1、基于跳躍連接的 EPR 擦除模塊
DuMo 采用了創新性的「基于先驗知識的擦除模塊」(EPR)。EPR 擦除模塊是由一份 U-Net Enoder 的副本和零卷積組拼接得到的。零卷積組的卷積層參數被初始化為零,而且原始 U-Net 主干的參數被凍結,其包含的模型先驗知識被全部保留,只有跳躍連接特征被修改,從而最大程度避免對安全概念的結構和生成質量產生負面影響 [1]。第一階段微調過程中 DuMo 將不安全概念(例如「裸露」)對齊到目標概念(例如,空文本 「 」)以達到概念擦除的效果
2、時間 - 層級調制(TLMO)機制
作者觀察到,EPR 模塊在不同的跳躍連接層和去噪時間步上,對圖像中的低頻結構元素和高頻細節部分表現出不同的擦除偏好。通過將跳躍連接層和時間步分組,DuMo 發現不同層級和時間步對圖像的影響不同,因此采取了特定的調整策略。
DuMo 設計了一個獨特的時間 - 層級調制(TLMO)策略,針對擴散模型的生成過程中的不同時間步和網絡層級,使用微調得到的調制系數,自動調整 EPR 模塊不同輸出的擦除強度。
同時在第二階段的微調過程中,除了損失函數中原有的項外,還添加了一個正則項,用于將微調后的模型噪聲(對應空文本)與原始模型進行對齊。這些機制大幅減少對安全概念的影響,從而在擦除風險概念的同時,保證安全概念的生成質量和細節。
實驗驗證:擦除能力與生成保留的雙贏
DuMo 在裸露內容擦除、卡通概念移除和藝術風格擦除三個任務上進行了全面驗證,其表現優于當前所有主流方法。
裸露內容擦除
在風險性最高的「裸露內容擦除」任務中,DuMo 在 I2P 基準數據集上的表現令人矚目:
- 裸體部位檢測數量僅為 34 個,是現有最佳方法。
- 生成圖像的質量指標(FID)與 CLIP Score 均達到頂尖水平,生成能力顯著優于其他方法。
在擦除裸露概念后,DuMo 還能很好的保持圖像的結構。如第一行人物的姿勢和第二行人物位置與背景。
卡通概念移除
針對「Snoopy」等流行卡通概念的擦除任務,DuMo 實現了更好的平衡:
- 單概念擦除任務中,LPIPS_da(擦除效果 - 生成能力保留平衡性)提升了 0.096;
- 多概念擦除任務中,LPIPS_da 進一步提升了 0.142,證明其對復雜任務的優異適應性。
藝術風格擦除
在藝術風格移除任務中,DuMo 精準擦除了「梵高」和「倫勃朗」等風格特征,同時對其他藝術家風格的破壞降到最低:
- 實現了 SOTA 級別的風格擦除效果;
- 定量指標 LPIPS_da 表現顯著優于對比方法。
在擦除梵高風格的實驗中,其他藝術家風格圖片的生成也不受影響。