AI圖片橡皮擦來(lái)了,清華&阿里合作推出「概念半透膜」模型,還能改頭換面
一只橘貓,減去「貓」,它會(huì)變成什么?
第一步在常見(jiàn) AI 作圖模型輸入「一只胖胖的像面包的橘貓」,畫(huà)出一只長(zhǎng)得很像面包的貓貓,然后用概念半透膜 SPM 技術(shù),將貓貓這個(gè)概念擦掉,結(jié)果它就失去夢(mèng)想變成了一只面包。上圖 1 是更多的貓貓圖失去貓這個(gè)概念后的結(jié)果。
圖 1 概念半透膜 SPM 針對(duì)不同的「貓」圖擦除貓概念后的效果
下圖 2 到圖 6 展示了更多的示例。
圖 2 失去夢(mèng)想變成一只面包表情包
圖 3 西裝光劍米老鼠圖擦除米老鼠概念
圖 4 稻田里的史努比圖擦除史努比概念
圖 5 梵高的向日葵圖擦除梵高概念
圖 6 畢加索的抽象畫(huà)擦除畢加索概念
這便是清華大學(xué)丁貴廣教授團(tuán)隊(duì)和阿里安全聯(lián)合發(fā)布的概念半透膜模型(concept Semi-Permeable Membrane,SPM 模型),該模型能夠在 Diffusion 架構(gòu)的 AI 作圖模型中,精準(zhǔn)、可控地擦除各類(lèi)具象或抽象概念,并對(duì)無(wú)關(guān)概念做到幾乎完全保留。
相關(guān)論文《One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications》已經(jīng)被計(jì)算機(jī)視覺(jué)國(guó)際頂級(jí)會(huì)議 CVPR 2024 高分錄用。
- 項(xiàng)目主頁(yè):https://lyumengyao.github.io/projects/spm
- Github 地址:https://github.com/Con6924/SPM
- 論文地址:https://arxiv.org/abs/2312.16145
阿里集團(tuán)資深總監(jiān)、人工智能治理與可持續(xù)發(fā)展研究中心主任、集團(tuán)科技倫理治理委員會(huì)執(zhí)行主席薛暉表示:該項(xiàng)成果在通義大模型系列的 AIGC 內(nèi)生安全領(lǐng)域、可控生成等方面都具備落地潛力,能夠有效避免有害概念的侵害,促進(jìn)通義等 AI 技術(shù)產(chǎn)品可用、可靠、可信、可控地向善發(fā)展。
1、動(dòng)機(jī)和研究背景
前不久,OpenAI 的文生視頻模型 Sora 帶來(lái)了 AIGC 新時(shí)代,主流的視覺(jué) AIGC 基于擴(kuò)散模型(Diffusion Model,DM),但依然存在各類(lèi)問(wèn)題,比如可以被誘導(dǎo)生成涉黃、侵權(quán)等危險(xiǎn)概念、無(wú)法精準(zhǔn)地對(duì)某些概念進(jìn)行作畫(huà)和控制等。這里的 「概念」可以是具象的「蘋(píng)果」,也可以是抽象的「梵高風(fēng)」、「色情」、「暴力」。
外置安全系統(tǒng)攔截風(fēng)險(xiǎn)會(huì)造成較差的用戶(hù)體驗(yàn)(一些無(wú)惡意的用戶(hù)可能在創(chuàng)作時(shí),因?yàn)槟P团既簧梢恍┻`規(guī)內(nèi)容而被攔截),因此需要一種基于模型內(nèi)生安全的概念擦除方法,保留用戶(hù)意圖,同時(shí)對(duì)模型違規(guī)元素進(jìn)行柔性地精準(zhǔn)擦除。
針對(duì)此,本文提出了概念半透膜模型(concept Semi-Permeable Membrane,SPM 模型)。
2、技術(shù)框架
如下圖 7 所示,給定一個(gè)目標(biāo)概念,本文的主要目標(biāo)是從預(yù)訓(xùn)練的 DM 中精確地擦除該概念,同時(shí)保留其他生成內(nèi)容。
為了避免對(duì)特定 DM 參數(shù)的依賴(lài)和訓(xùn)練過(guò)程中出現(xiàn)的參數(shù)漂移,本文首先設(shè)計(jì)了一種輕量化的一維 Adapter,稱(chēng)為概念半透膜(concept Semi-Permeable Membrane,SPM)。這種極輕量的非侵入性結(jié)構(gòu)可以插入任何預(yù)訓(xùn)練的 DM(如 SD v1.x)中,以學(xué)習(xí)特定概念的可遷移識(shí)別及其相應(yīng)的擦除,同時(shí)保持原始模型的完整性。
然后,本文提出了一種新穎的 SPM 微調(diào)策略 ——Latent Anchoring(LA),以有效地在潛空間中利用連續(xù)的概念進(jìn)行精確的擦除和有效的概念保留。一旦 SPM 獨(dú)立學(xué)習(xí)到擦除不同的潛在風(fēng)險(xiǎn)的能力,這些 SPMs 就構(gòu)成了一個(gè)概念擦除庫(kù),其中任何概念的組合(例如 Van Gogh + nudity)都可以根據(jù)需求場(chǎng)景定制,并直接免訓(xùn)練地遷移到其他 SPM 兼容的模型中(例如社區(qū)中的 RealisticVision 模型)。
在適配 SPM 后的推理過(guò)程中,本文的 Facilitated Transport 機(jī)制在接受輸入 prompt 時(shí)會(huì)動(dòng)態(tài)地控制 SPM 的激活和滲透性。例如,包含不雅內(nèi)容的 prompt 將由 nudity SPM 擦除,但不會(huì)觸發(fā) Van Gogh SPM。同時(shí),沒(méi)有在 DM 中安裝相應(yīng) SPM 的 Picasso 風(fēng)格的生成幾乎不會(huì)受到影響。
圖 7 SPM 技術(shù)框架
2.1 輕量化的一維 Adapter:SPM
為了擺脫預(yù)訓(xùn)練模型的參數(shù)依賴(lài),本文設(shè)計(jì)了一種輕量高效的 Adapter,SPM。它僅有一個(gè)內(nèi)在維度,作為一種「半透薄膜」被插入到 DM 中來(lái)實(shí)現(xiàn)精準(zhǔn)擦除。
SPM 的單元結(jié)構(gòu)由兩個(gè)可學(xué)習(xí)的向量組成。擦除信號(hào)用于抑制特定概念的生成,而它的振幅
由對(duì)應(yīng)的調(diào)節(jié)器控制,以確定擦除的強(qiáng)度。
SPM 的結(jié)構(gòu)設(shè)計(jì)使得多個(gè) SPM 可以疊加地插入到同一個(gè) DM 中,基于信號(hào)加法的擦除使得多個(gè)危險(xiǎn)概念可以靈活定制,以滿(mǎn)足錯(cuò)綜復(fù)雜且不斷變化的擦除需求。此外,它可以在大多數(shù)的 DM 上輕松遷移,相比現(xiàn)有方法,顯著提高推理、部署和存儲(chǔ)效率。
2.2 微調(diào)階段的概念半透性精準(zhǔn)習(xí)得:Latent Anchoring
本文通過(guò)模型參數(shù)微調(diào)使 SPM 獲得對(duì)特定概念的擦除半滲透性?;?LDM 中概念的疊加與消去對(duì)應(yīng)于對(duì)數(shù)概率算數(shù)運(yùn)算的理論,本文對(duì) SPM 進(jìn)行參數(shù)化,以在 DM 的噪聲預(yù)測(cè)過(guò)程中執(zhí)行概念的擦除。
具體而言,給定目標(biāo)概念,本文預(yù)定義一個(gè)代理概念
(或一般地,空字符串),用來(lái)指定目標(biāo)概念擦出后模型預(yù)期的行為,擦除損失如下:
然而,僅用上述學(xué)習(xí)目標(biāo)會(huì)引發(fā) DM 中其他概念的災(zāi)難性遺忘,導(dǎo)致生成中概念的侵蝕現(xiàn)象。對(duì)此,本文提出 Latent Anchoring 策略,在上式基礎(chǔ)上,對(duì)于其他的尤其是距離目標(biāo)概念更遠(yuǎn)的概念,本文期望模型盡可能地與原生成保持一致
其中有:
是影響目標(biāo)概念近義詞行為的超參數(shù)。
目標(biāo)概念的精準(zhǔn)擦除和安全概念的廣泛保留由平衡,SPM 的微調(diào)總損失如下:
2.3 生成階段的概念半透性動(dòng)態(tài)適配:Facilitated Transport
當(dāng)前文得到一系列擦除不同目標(biāo)的獨(dú)立 SPM 后,可以將它們不沖突地組合并覆蓋在其他 DM(如)上:
盡管 Latent Anchoring 旨在在微調(diào)過(guò)程中保護(hù)非目標(biāo)概念,但在安裝了多個(gè) SPM 的挑戰(zhàn)性場(chǎng)景中,已有方法的結(jié)果表明整體生成效果不可避免地退化。為了進(jìn)一步最小化對(duì)無(wú)關(guān)概念的影響,本文在推理階段引入 Facilitated Transport 機(jī)制,動(dòng)態(tài)地傳輸目標(biāo)概念的擦除信號(hào),同時(shí)拒絕 SPM 對(duì)非目標(biāo)概念的響應(yīng)。
具體地,對(duì)于給定的 prompt p,每個(gè) SPM 的信息滲透性和傳輸速率,表示為,取決于 p 中包含的目標(biāo)概念 c 的概率。為了估計(jì)這個(gè)概率,本方法首先在 CLIP 文本編碼空間中計(jì)算 p 和 c 的語(yǔ)義距離,表示為
。然而,潛空間上的距離作為一種全局視角可能無(wú)法完全捕捉到簡(jiǎn)單的概念名稱(chēng)和復(fù)雜的 prompt 局部描述之間的相關(guān)性。為此,本文又引入了局部的度量標(biāo)準(zhǔn),以在 token 級(jí)別上識(shí)別相關(guān)性:
其中 T 表示 DM 的 Tokenizer。
最終將計(jì)算為:
以在全局和局部?jī)蓚€(gè)視角下捕捉到 prompt 和目標(biāo)概念的相關(guān)性。當(dāng)輸入的 prompt 中蘊(yùn)涵了概念 c 的相關(guān)信息, 一個(gè)較大的將會(huì)在在上文公式中激活對(duì)應(yīng)的 SPM,使得相應(yīng)的生成被抑制;反之,
將接近于零,保持生成與原有模型一致。
3、實(shí)驗(yàn)效果
3.1 單概念的擦除
面對(duì)具體概念如「史努比」(圖 8 一行五列),抽象概念如「梵高畫(huà)風(fēng)」和「畢加索畫(huà)風(fēng)」(圖 9 一行六列,四行六列),SPM 都擦除足夠徹底,且對(duì)其他概念幾乎沒(méi)有影響。而其他方法或擦除不徹底,或?qū)o(wú)關(guān)概念有所破壞。
圖 8 擦除史努比的效果
圖 9 擦除梵高、畢加索畫(huà)風(fēng)的效果
3.2 多概念的擦除
擦除多個(gè)概念時(shí),SPM 能保持穩(wěn)定效果如圖 10,且不會(huì)影響其他無(wú)關(guān)概念如圖 11,而其他方法都或多或少對(duì)無(wú)關(guān)概念進(jìn)行侵蝕。
圖 10 SPM 對(duì)多個(gè)概念的擦除效果
圖 11 SPM 擦除多概念時(shí)對(duì)無(wú)關(guān)概念沒(méi)有影響
3.3 違規(guī)概念的擦除
如圖 12,對(duì)于一些抽象的有害概念例如色情,只需要加入 SPM,即可做到相對(duì)穩(wěn)定的消除。如圖 13,在學(xué)界著名的 I2P 測(cè)評(píng)集合上,SPM 對(duì)于色情概念的擦除效果目前達(dá)到了業(yè)界最優(yōu)。
圖 12 擦除色情概念的效果
圖 13 色情概念擦除效果業(yè)界最優(yōu)
3.4 無(wú)需訓(xùn)練的遷移
如圖 15 顯示,當(dāng) SPM 訓(xùn)練完成后,就可以直接遷移到同樣架構(gòu)、不同參數(shù)的其他模型上,達(dá)成即插即用的擦除目的。
圖 15 在不同社區(qū)模型下的擦除表現(xiàn)
4、結(jié)論
SPM 針對(duì)視覺(jué) AIGC 的可控擦除,能夠帶來(lái)更多創(chuàng)作可能性,也能通過(guò)擦除危險(xiǎn)概念幫助 AI 向善。未來(lái)可以遷移到視頻側(cè)、3d 側(cè)等各種模態(tài)下的概念編輯和擦除工作,都會(huì)成為后續(xù) Sora 時(shí)代值得研究的點(diǎn)。