橘貓減去「貓」會變成什么?清華聯合阿里推出概念半透膜模型
第一步在常見 AI 作圖模型輸入「一只胖胖的像面包的橘貓」,畫出一只長得很像面包的貓貓,然后用概念半透膜 SPM 技術,將貓貓這個概念擦掉,結果它就失去夢想變成了一只面包。上圖 1 是更多的貓貓圖失去貓這個概念后的結果。
▲ 圖1. 概念半透膜 SPM 針對不同的「貓」圖擦除貓概念后的效果
下圖 2 到圖 6 展示了更多的示例。
▲ 圖2. 失去夢想變成一只面包表情包
▲ 圖3. 西裝光劍米老鼠圖擦除米老鼠概念
▲ 圖4. 稻田里的史努比圖擦除史努比概念
▲ 圖5. 梵高的向日葵圖擦除梵高概念
▲ 圖6. 畢加索的抽象畫擦除畢加索概念
這便是清華大學丁貴廣教授團隊和阿里安全聯合發布的概念半透膜模型(concept Semi-Permeable Membrane,SPM 模型),該模型能夠在 Diffusion 架構的 AI 作圖模型中,精準、可控地擦除各類具象或抽象概念,并對無關概念做到幾乎完全保留。
相關論文《One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications》已經被計算機視覺國際頂級會議 CVPR 2024 高分錄用。
項目鏈接:
??https://lyumengyao.github.io/projects/spm??
代碼鏈接:
??https://github.com/Con6924/SPM??
論文鏈接:
??https://arxiv.org/abs/2312.16145??
阿里集團資深總監、人工智能治理與可持續發展研究中心主任、集團科技倫理治理委員會執行主席薛暉表示:該項成果在通義大模型系列的 AIGC 內生安全領域、可控生成等方面都具備落地潛力,能夠有效避免有害概念的侵害,促進通義等 AI 技術產品可用、可靠、可信、可控地向善發展。
01 動機和研究背景
前不久,OpenAI 的文生視頻模型 Sora 帶來了 AIGC 新時代,主流的視覺 AIGC 基于擴散模型(Diffusion Model,DM),但依然存在各類問題,比如可以被誘導生成涉黃、侵權等危險概念、無法精準地對某些概念進行作畫和控制等。這里的 「概念」可以是具象的「蘋果」,也可以是抽象的「梵高風」、「色情」、「暴力」。
外置安全系統攔截風險會造成較差的用戶體驗(一些無惡意的用戶可能在創作時,因為模型偶然生成一些違規內容而被攔截),因此需要一種基于模型內生安全的概念擦除方法,保留用戶意圖,同時對模型違規元素進行柔性地精準擦除。
針對此,本文提出了概念半透膜模型(concept Semi-Permeable Membrane,SPM 模型)。
02 技術框架
如下圖 7 所示,給定一個目標概念,本文的主要目標是從預訓練的 DM 中精確地擦除該概念,同時保留其他生成內容。
為了避免對特定 DM 參數的依賴和訓練過程中出現的參數漂移,本文首先設計了一種輕量化的一維 Adapter,稱為概念半透膜(concept Semi-Permeable Membrane,SPM)。這種極輕量的非侵入性結構可以插入任何預訓練的 DM(如 SD v1.x)中,以學習特定概念的可遷移識別及其相應的擦除,同時保持原始模型的完整性。
然后,本文提出了一種新穎的 SPM 微調策略——Latent Anchoring(LA),以有效地在潛空間中利用連續的概念進行精確的擦除和有效的概念保留。一旦 SPM 獨立學習到擦除不同的潛在風險的能力,這些 SPMs 就構成了一個概念擦除庫,其中任何概念的組合(例如 Van Gogh + nudity)都可以根據需求場景定制,并直接免訓練地遷移到其他 SPM 兼容的模型中(例如社區中的 RealisticVision 模型)。
在適配 SPM 后的推理過程中,本文的 Facilitated Transport 機制在接受輸入 prompt 時會動態地控制 SPM 的激活和滲透性。例如,包含不雅內容的 prompt 將由 nudity SPM 擦除,但不會觸發 Van Gogh SPM。同時,沒有在 DM 中安裝相應 SPM 的 Picasso 風格的生成幾乎不會受到影響。
▲ 圖7. SPM 技術框架
2.1 輕量化的一維Adapter:SPM
為了擺脫預訓練模型的參數依賴,本文設計了一種輕量高效的 Adapter,SPM。它僅有一個內在維度,作為一種「半透薄膜」被插入到 DM 中來實現精準擦除。
SPM 的單元結構由兩個可學習的向量組成。擦除信號
用于抑制特定概念的生成,而它的振幅
由對應的調節器控制,以確定擦除的強度。
SPM 的結構設計使得多個 SPM 可以疊加地插入到同一個 DM 中,基于信號加法的擦除使得多個危險概念可以靈活定制,以滿足錯綜復雜且不斷變化的擦除需求。此外,它可以在大多數的 DM 上輕松遷移,相比現有方法,顯著提高推理、部署和存儲效率。
2.2 微調階段的概念半透性精準習得:Latent Anchoring
本文通過模型參數微調使 SPM 獲得對特定概念的擦除半滲透性。基于 LDM 中概念的疊加與消去對應于對數概率算數運算的理論,本文對 SPM 進行參數化,以在 DM 的噪聲預測過程中執行概念的擦除。
具體而言,給定目標概念
,本文預定義一個代理概念
(或一般地,空字符串),用來指定目標概念擦出后模型預期的行為,擦除損失如下:
然而,僅用上述學習目標會引發 DM 中其他概念的災難性遺忘,導致生成中概念的侵蝕現象。對此,本文提出 Latent Anchoring 策略,在上式基礎上,對于其他的尤其是距離目標概念更遠的概念,本文期望模型盡可能地與原生成保持一致
其中有:
是影響目標概念近義詞行為的超參數。
目標概念的精準擦除和安全概念的廣泛保留由
平衡,SPM 的微調總損失如下:
2.3 生成階段的概念半透性動態適配:Facilitated Transport
當前文得到一系列擦除不同目標的獨立 SPM 后,可以將它們不沖突地組合并覆蓋在其他 DM(如)上:
盡管 Latent Anchoring 旨在在微調過程中保護非目標概念,但在安裝了多個 SPM 的挑戰性場景中,已有方法的結果表明整體生成效果不可避免地退化。為了進一步最小化對無關概念的影響,本文在推理階段引入 Facilitated Transport 機制,動態地傳輸目標概念的擦除信號,同時拒絕 SPM 對非目標概念的響應。
具體地,對于給定的 prompt p,每個 SPM 的信息滲透性和傳輸速率,表示為
,取決于 p 中包含的目標概念 c 的概率。為了估計這個概率,本方法首先在 CLIP 文本編碼空間中計算 p 和 c 的語義距離,表示為
。然而,潛空間上的距離作為一種全局視角可能無法完全捕捉到簡單的概念名稱和復雜的 prompt 局部描述之間的相關性。為此,本文又引入了局部的度量標準,以在 token 級別上識別相關性:
其中 T 表示 DM 的 Tokenizer。
最終將
計算為:
以在全局和局部兩個視角下捕捉到 prompt 和目標概念的相關性。當輸入的 prompt 中蘊涵了概念 c 的相關信息, 一個較大的
將會在在上文公式中激活對應的 SPM,使得相應的生成被抑制;反之,
將接近于零,保持生成與原有模型一致。
03 實驗效果
3.1 單概念的擦除
面對具體概念如「史努比」(圖 8 一行五列),抽象概念如「梵高畫風」和「畢加索畫風」(圖 9 一行六列,四行六列),SPM 都擦除足夠徹底,且對其他概念幾乎沒有影響。而其他方法或擦除不徹底,或對無關概念有所破壞。
▲ 圖8. 擦除史努比的效果
▲ 圖9. 擦除梵高、畢加索畫風的效果
3.2 多概念的擦除
擦除多個概念時,SPM 能保持穩定效果如圖 10,且不會影響其他無關概念如圖 11,而其他方法都或多或少對無關概念進行侵蝕。
▲ 圖10. SPM 對多個概念的擦除效果
▲ 圖11. SPM 擦除多概念時對無關概念沒有影響
3.3 違規概念的擦除
如圖 12,對于一些抽象的有害概念例如色情,只需要加入 SPM,即可做到相對穩定的消除。如圖 13,在學界著名的 I2P 測評集合上,SPM 對于色情概念的擦除效果目前達到了業界最優。
▲ 圖12. 擦除色情概念的效果
▲ 圖13. 色情概念擦除效果業界最優
3.4 無需訓練的遷移
如圖 15 顯示,當 SPM 訓練完成后,就可以直接遷移到同樣架構、不同參數的其他模型上,達成即插即用的擦除目的。
▲ 圖15. 在不同社區模型下的擦除表現
04 結論
SPM 針對視覺 AIGC 的可控擦除,能夠帶來更多創作可能性,也能通過擦除危險概念幫助 AI 向善。未來可以遷移到視頻側、3d 側等各種模態下的概念編輯和擦除工作,都會成為后續 Sora 時代值得研究的點。
本文轉自 PaperWeekly ,作者:機器之心編輯部
