成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ECCV 2024 | 機器遺忘之后,擴散模型真正安全了嗎?

人工智能 新聞
我們好奇,經過機器遺忘的擴散模型,真的就一定安全了嗎?

本文第一作者為密歇根州立大學計算機系博士生張益萌,賈景晗,兩人均為OPTML實驗室成員,指導教師為劉思佳助理教授。OPtimization and Trustworthy Machine Learning (OPTML) 實驗室的研究興趣涵蓋機器學習/深度學習、優化、計算機視覺、安全、信號處理和數據科學領域,重點是開發學習算法和理論,以及魯棒且可解釋的人工智能。

在人工智能領域,圖像生成技術一直是一個備受關注的話題。近年來,擴散模型(Diffusion Model)在生成逼真且復雜的圖像方面取得了令人矚目的進展。然而,技術的發展也引發了潛在的安全隱患,比如生成有害內容和侵犯數據版權。這不僅可能對用戶造成困擾,還可能涉及法律和倫理問題。

盡管目前已有不少機器遺忘(Machine Unlearning, MU)方法 [1-3],希望讓擴散模型在使用不適當的文本提示時避免生成不合時宜的圖片,但其有效性存疑。

只是我們好奇,經過機器遺忘的擴散模型,真的就一定安全了嗎?

圖片

為了應對這一挑戰,密歇根州立大學 (Michigan State University) 和英特爾(Intel)的研究者們提出了一種高效且無需輔助模型的對抗性文本提示生成方法 UnlearnDiffAtk [4],并用優化后得到的對抗性文本提示作為檢驗遺忘后擴散模型安全可靠性的工具,論文目前已被 ECCV 2024 接收。本文第一作者為密歇根州立大學計算機系博士生張益萌、賈景晗,兩人均為 OPTML 實驗室成員,指導教師為劉思佳助理教授。

圖片

  • 論文題目:To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy to Generate Unsafe Images ... For Now
  • 論文地址:https://arxiv.org/abs/2310.11868
  • 代碼地址:https://github.com/OPTML-Group/Diffusion-MU-Attack
  • Unlearned Diffusion Model Benchmark:  https://huggingface.co/spaces/Intel/UnlearnDiffAtk-Benchmark 

Unlearned DM 可以從兩個角度評估模型:

  • 安全可靠性:通過對抗性文本提示攻擊 (UnlearnDiffAtk) 來進行評估;
  • 圖片生成能力:通過一萬張生成圖片平均 FID(Fréchet inception distance)和 CLIP score 進行評估。

圖片

文章與代碼均已開源,研究團隊還在積極收納更多的方法到 Unlearned DM Benchmark。如有意向,歡迎郵件聯系作者(zhan1853@msu.edu)溝通模型測評相關事宜。

UnlearnDiffAtk 方法有什么獨特之處?

UnlearnDiffAtk 的目標是通過尋找離散的對抗性文本來進行攻擊,而與之不同的是,CCE [5] 側重于尋找連續的文本嵌入進行攻擊。

然而,CCE 并不是一個理想的評估方式,因為文本反轉 [6] 的初衷是通過優化生成 “新” 的詞元(token),從而使擴散模型能夠生成未見過的事物或風格。

因此,即使擴散模型已經遺忘了某些特定內容,仍然可以通過優化生成新的詞元來使模型生成相應的事物。而 UnlearnDiffAtk 與其他對抗式文本生成方法不同,UnlearnDiffAtk 無需依靠輔助模型或未經機器遺忘的原模型提供優化指導。它利用擴散模型內在的分類器辨別能力 [7],來指導對抗性文本的生成,使得攻擊更具可操作性。

優化過程中僅需一張目標圖片(Target Image,圖片)提供指導,大大降低了對硬件的要求并提高了攻擊效率。需要注意的是,目標圖片不必與原有的不適當文本提示描述完全吻合,僅需包含攻擊后期望得到的有害內容即可。例如,若 UnlearnDiffAtk 希望強迫遺忘后的模型生成包含裸體的圖片,那么目標圖片只需是網絡上的任何一張裸體照片即可。

具體來說,根據 Diffusion Classifier [7] 的概念,預測輸入圖片 x 為標簽 c 的概率變為如下:

而在擴散模型中,圖片的對數似然去噪誤差相關,則可以得到:

圖片

通過擴散分類器 (3) 的視角,創建對抗性提示詞 c’ 以規避目標遺忘后擴散模型的任務可以表述為:

圖片

然而分類只需要噪聲誤差之間的相對差異,不需要它們的絕對大小,所以公式(3)可以變形為

圖片

然后我們可以將攻擊生成問題 (4) 變為

圖片

為了便于優化,我們通過利用 exp (?) 的凸性來簡化公式 (6)。使用 Jensen 不等式,對于凸函數,公式 (6) 中的單個目標函數(針對特定的 j)的上界為:

圖片

由于第二項與優化變量 c’無關,通過將公式 (7) 納入公式 (6) 并排除與 c’無關的項,我們得到以下簡化的攻擊生成優化問題:

圖片

任務類型

擴散模型的機器遺忘任務可分為三大類,而 UnlearnDiffAtk 在這三類任務中均展現了較強的攻擊成功率:

  • 有害內容 (如:裸體,暴力,違法行為)
  • 藝術風格
  • 物體

圖片

本文不僅深入了解了擴散模型在生成安全性方面的挑戰,還提出了有效的解決方案。希望這項研究能引起更多對圖像生成技術安全性的關注,并推動相關技術的進一步發展。

實驗結果與可視化

下述表格和可視化結果分別展示了在遺忘有害內容、遺忘藝術風格以及遺忘物體這三類任務中的表現。通過這些結果可以看出,即使在沒有額外輔助模型提供優化指導的情況下,僅僅依靠擴散模型自身攜帶的分類器特性,UnlearnDiffAtk 依然表現出與同期工作 P4D 相當甚至更高的攻擊成功率。此外,由于無需依賴額外的模型輔助,UnlearnDiffAtk 能夠顯著提高攻擊速度,平均節省約 30% 的攻擊時間。

圖片

圖片

圖片

圖片

圖片

圖片

圖片

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-08-16 10:20:00

自動駕駛模型

2016-12-09 09:12:20

2009-11-26 09:37:04

2023-07-21 12:48:37

2023-07-10 09:52:51

機器谷歌

2021-07-23 07:54:06

網絡安全熊貓燒香

2024-08-21 09:57:38

2024-08-26 09:35:00

模型文生圖

2024-05-10 07:58:03

2009-04-02 15:38:49

2012-02-15 15:18:07

2024-11-04 10:05:00

AI模型

2022-08-13 13:11:45

安全違規網絡安全

2013-04-11 15:20:23

2025-02-25 09:30:00

2024-04-24 11:29:54

模型雷達

2024-08-13 15:00:00

大模型提示學習

2024-01-07 20:20:46

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品久久久久久久久久久久 | 国产无套一区二区三区久久 | 99久久精品免费看国产四区 | 亚洲高清视频一区 | 亚洲国产精品日韩av不卡在线 | 国产精品中文字幕在线 | 午夜欧美 | 日产久久 | 午夜男人天堂 | 蜜桃在线视频 | 日本一区二区在线视频 | 亚洲日本成人 | 色姑娘综合网 | 久久精品久久久 | 国产一区二区三区高清 | 一区二区三区四区国产 | 一区二区三区av夏目彩春 | 成人三级视频 | 日本精品一区二区三区在线观看 | 青青草一区| 国产免费一区二区三区网站免费 | 黄色一级免费看 | 国产精品成人在线观看 | 51ⅴ精品国产91久久久久久 | 久久精品成人 | 一级片成人 | 国产精品久久久久久久久久久久久 | 免费看黄色国产 | 精品国产乱码久久久久久88av | 91久久久精品国产一区二区蜜臀 | 亚洲免费人成在线视频观看 | 国产精品久久久久一区二区三区 | 日韩视频一区二区在线 | 黄网免费看 | 久久五月婷 | www九色| 久久逼逼| 午夜在线免费观看 | 麻豆一区一区三区四区 | 亚洲日本激情 | 久色视频在线 |