橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型

zhangyannni

發布于 2024-3-28 11:44

瀏覽

0收藏

第一步在常見 AI 作圖模型輸入「一只胖胖的像面包的橘貓」，畫出一只長得很像面包的貓貓，然后用概念半透膜 SPM 技術，將貓貓這個概念擦掉，結果它就失去夢想變成了一只面包。上圖 1 是更多的貓貓圖失去貓這個概念后的結果。

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

▲ 圖1. 概念半透膜 SPM 針對不同的「貓」圖擦除貓概念后的效果

下圖 2 到圖 6 展示了更多的示例。

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

▲ 圖2. 失去夢想變成一只面包表情包

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

▲ 圖3. 西裝光劍米老鼠圖擦除米老鼠概念

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

▲ 圖4. 稻田里的史努比圖擦除史努比概念

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

▲ 圖5. 梵高的向日葵圖擦除梵高概念

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

▲ 圖6. 畢加索的抽象畫擦除畢加索概念

這便是清華大學丁貴廣教授團隊和阿里安全聯合發布的概念半透膜模型（concept Semi-Permeable Membrane，SPM 模型），該模型能夠在 Diffusion 架構的 AI 作圖模型中，精準、可控地擦除各類具象或抽象概念，并對無關概念做到幾乎完全保留。

相關論文《One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications》已經被計算機視覺國際頂級會議 CVPR 2024 高分錄用。

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

項目鏈接：

??https://lyumengyao.github.io/projects/spm??

代碼鏈接：

??https://github.com/Con6924/SPM??

論文鏈接：

??https://arxiv.org/abs/2312.16145??

阿里集團資深總監、人工智能治理與可持續發展研究中心主任、集團科技倫理治理委員會執行主席薛暉表示：該項成果在通義大模型系列的 AIGC 內生安全領域、可控生成等方面都具備落地潛力，能夠有效避免有害概念的侵害，促進通義等 AI 技術產品可用、可靠、可信、可控地向善發展。

01 動機和研究背景

前不久，OpenAI 的文生視頻模型 Sora 帶來了 AIGC 新時代，主流的視覺 AIGC 基于擴散模型（Diffusion Model，DM），但依然存在各類問題，比如可以被誘導生成涉黃、侵權等危險概念、無法精準地對某些概念進行作畫和控制等。這里的「概念」可以是具象的「蘋果」，也可以是抽象的「梵高風」、「色情」、「暴力」。

外置安全系統攔截風險會造成較差的用戶體驗（一些無惡意的用戶可能在創作時，因為模型偶然生成一些違規內容而被攔截），因此需要一種基于模型內生安全的概念擦除方法，保留用戶意圖，同時對模型違規元素進行柔性地精準擦除。

針對此，本文提出了概念半透膜模型（concept Semi-Permeable Membrane，SPM 模型）。

02 技術框架

如下圖 7 所示，給定一個目標概念，本文的主要目標是從預訓練的 DM 中精確地擦除該概念，同時保留其他生成內容。

為了避免對特定 DM 參數的依賴和訓練過程中出現的參數漂移，本文首先設計了一種輕量化的一維 Adapter，稱為概念半透膜（concept Semi-Permeable Membrane，SPM）。這種極輕量的非侵入性結構可以插入任何預訓練的 DM（如 SD v1.x）中，以學習特定概念的可遷移識別及其相應的擦除，同時保持原始模型的完整性。

然后，本文提出了一種新穎的 SPM 微調策略——Latent Anchoring（LA），以有效地在潛空間中利用連續的概念進行精確的擦除和有效的概念保留。一旦 SPM 獨立學習到擦除不同的潛在風險的能力，這些 SPMs 就構成了一個概念擦除庫，其中任何概念的組合（例如 Van Gogh + nudity）都可以根據需求場景定制，并直接免訓練地遷移到其他 SPM 兼容的模型中（例如社區中的 RealisticVision 模型）。

在適配 SPM 后的推理過程中，本文的 Facilitated Transport 機制在接受輸入 prompt 時會動態地控制 SPM 的激活和滲透性。例如，包含不雅內容的 prompt 將由 nudity SPM 擦除，但不會觸發 Van Gogh SPM。同時，沒有在 DM 中安裝相應 SPM 的 Picasso 風格的生成幾乎不會受到影響。

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

▲ 圖7. SPM 技術框架

2.1 輕量化的一維Adapter：SPM

為了擺脫預訓練模型的參數依賴，本文設計了一種輕量高效的 Adapter，SPM。它僅有一個內在維度，作為一種「半透薄膜」被插入到 DM 中來實現精準擦除。

SPM 的單元結構由兩個可學習的向量組成。擦除信號

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

用于抑制特定概念的生成，而它的振幅

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

由對應的調節器控制，以確定擦除的強度。

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

SPM 的結構設計使得多個 SPM 可以疊加地插入到同一個 DM 中，基于信號加法的擦除使得多個危險概念可以靈活定制，以滿足錯綜復雜且不斷變化的擦除需求。此外，它可以在大多數的 DM 上輕松遷移，相比現有方法，顯著提高推理、部署和存儲效率。

2.2 微調階段的概念半透性精準習得：Latent Anchoring

本文通過模型參數微調使 SPM 獲得對特定概念的擦除半滲透性。基于 LDM 中概念的疊加與消去對應于對數概率算數運算的理論，本文對 SPM 進行參數化，以在 DM 的噪聲預測過程中執行概念的擦除。

具體而言，給定目標概念橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

，本文預定義一個代理概念橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

（或一般地，空字符串），用來指定目標概念擦出后模型預期的行為，擦除損失如下：

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

然而，僅用上述學習目標會引發 DM 中其他概念的災難性遺忘，導致生成中概念的侵蝕現象。對此，本文提出 Latent Anchoring 策略，在上式基礎上，對于其他的尤其是距離目標概念更遠的概念，本文期望模型盡可能地與原生成保持一致

其中有：

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區是影響目標概念近義詞行為的超參數。

目標概念的精準擦除和安全概念的廣泛保留由橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

平衡，SPM 的微調總損失如下：

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

2.3 生成階段的概念半透性動態適配：Facilitated Transport

當前文得到一系列擦除不同目標的獨立 SPM 后，可以將它們不沖突地組合并覆蓋在其他 DM（如橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區）上：

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區

盡管 Latent Anchoring 旨在在微調過程中保護非目標概念，但在安裝了多個 SPM 的挑戰性場景中，已有方法的結果表明整體生成效果不可避免地退化。為了進一步最小化對無關概念的影響，本文在推理階段引入 Facilitated Transport 機制，動態地傳輸目標概念的擦除信號，同時拒絕 SPM 對非目標概念的響應。

具體地，對于給定的 prompt p，每個 SPM 的信息滲透性和傳輸速率，表示為

橘貓減去「貓」會變成什么？清華聯合阿里推出概念半透膜模型-AI.x社區