3秒讓AI變乖,生成風險圖片減少30%!復旦新研究拿下擴散模型概念移除新SOTA|ECCV 2024
讓AI繪畫模型變“乖”,現在僅需3秒調整模型參數。
效果be like:生成的風險圖片比以往最佳方法減少30%!
像這樣,在充分移除梵高繪畫風格的同時,對非目標藝術風格幾乎沒有影響。
在移除裸露內容上,效果達到“只穿衣服,不改結構”。
這就是復旦大學提出的概念移除新方法——RECE。
目前,基于擴散模型的AI生圖有時真假難辨,常被惡意用戶用來生成侵犯版權和包含風險內容(如虛假新聞、暴力色情內容)的圖像。
SD中使用的的安全措施是使用安全檢查器,對違規的生成圖像不予展示,還集成了一些用classifier-free guidance來規避風險概念的方法。
但在開源條件下,惡意用戶可以輕松繞過這些機制,網上甚至有大把的教程……
針對此,學界提出了“概念移除”,即通過微調來移除文生圖擴散模型中特定的風險概念,使其不再具備生成相應內容的能力。
這種方法的資源消耗遠低于從頭重新訓練的SD v2.1版本,也不能被輕易繞過。
而最新研究RECE,拿下概念移除SOTA效果,并且對無關概念破壞極小,論文已被頂會ECCV 2024接收。
整個過程基于高效的解析解
此前,盡管概念移除進展迅速,其問題仍然明顯:
- 已有的方法為了安全性犧牲了較多的生成質量。
- 已有方法即使對模型破壞較大,仍不能充分移除不當概念,有很大幾率生成風險圖像。
- 大多數方法需要大量的微調步數,計算資源消耗大。
那么RECE是如何實現的?
RECE主要包含兩個模塊:模型編輯和嵌入推導。
首先,RECE以解析解的形式,在交叉注意力層中將風險概念映射到無害概念。
然后,RECE以解析解的形式推導出風險概念的新嵌入表示并用于下一輪的模型編輯。
RECE還包括了一個簡潔有效的正則項,可以證明其具有保護模型能力的作用,進而保證概念移除可以交替進行多輪。整個概念移除的過程都基于高效的解析解。
風險概念嵌入推導
RECE的有效性來自于對已有方法概念移除不徹底的觀察:
- 以”裸露“為提示詞,SD生成了裸露圖像,UCE(一種概念移除方法)成功避免了裸露內容的生成;
- 然而,輸入有意設計的提示詞或文本嵌入,UCE再次生成了裸露內容。
為引導編輯后的模型重新生成裸露內容,接下來將以“裸露”為例,介紹RECE是如何推導上述具有攻擊性的概念嵌入的。
既然是文生圖,那首先思考文本引導的機制——交叉注意力。
SD利用CLIP作為文本編碼器得到提示詞的嵌入形式,并且獲得key與value,與表征視覺特征的query一起,得到輸出:
如果能得到一個新的概念嵌入,滿足在編輯后的交叉注意力映射后,足夠接近經過編輯前的映射值,那么應能夠誘導生成裸露圖片:
上式為凸函數,因此具有解析解,不需要繁瑣的梯度下降近似求解:
模型編輯
接下來RECE將編輯交叉注意力以移除風險概念。RECE借鑒了已有的方法UCE,通過解析解來編輯交叉注意力的權重,一步到位,避免繁瑣微調。
給定“源”概念(例如,“裸露”),“目標”概念(例如,空文本“ ”),以及交叉注意力的K/V投影矩陣,UCE的目標是找到新權重,將新權重下的映射值對齊到。
其中后面兩項是為了控制參數變化,最小化對無關概念的影響。這也是凸函數,將解析解直接賦值給新權重:
正則項
理想情況下,將公式(5)得到的移除就可以避免生成裸露內容了,然而團隊發現這會對模型能力產生極大的破壞。
因此在相鄰的兩輪概念移除中,RECE對無關概念的映射值變化做了約束:
學過線性代數的同學是不是覺得很熟悉呢?
利用矩陣范數的相容性,證明得到:
因此只需在推導時添加一個范數約束項,就能保護模型的能力:
其解析解為:
綜上,RECE的算法流程歸納為:
RECE效果如何?
不安全概念移除
首先來看最敏感的內容——色情。在I2P基準數據集上,RECE的裸露移除效果超過了全部已有方法。
團隊還評估了概念移除后模型的正常內容生成能力,即無關概念集COCO-30k上的FID指標,也遠超CA等方法。
藝術風格移除
保護藝術版權不受AI侵犯同樣十分敏感。綜合效果方面,RECE優于所有方法。
并且細致來看,RECE是唯一一個在目標藝術家擦除效果和無關藝術家保留效果方面都表現優異的方法。
紅隊魯棒性
RECE對惡意用戶的有意攻擊同樣可以有效防護,在紅隊攻擊下,RECE生成風險圖片的幾率仍是最低。
模型編輯耗時
RECE 5個Epoch僅需3.4秒,參數改動比例、編輯耗時遠低于CA等方法。UCE的耗時也很短,但UCE的概念移除效果與RECE相差較大。
作者簡介
論文共同第一作者為復旦大學視覺與學習實驗室的碩士新生公超和博士生陳凱。
通訊作者為陳靜靜副教授。
研究團隊專注于AI安全的研究,近年來在CVPR,ECCV,AAAI,ACM MM等頂會上發表過多篇AI安全的研究成果。
論文地址:https://arxiv.org/abs/2407.12383
代碼地址:https://github.com/CharlesGong12/RECE