成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大) 精華

發(fā)布于 2024-5-14 10:29
瀏覽
0收藏

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2405.05846


過去幾年見證了由擴(kuò)散模型驅(qū)動(dòng)的文本引導(dǎo)圖像生成領(lǐng)域的重大進(jìn)展。然而,已經(jīng)顯示出文本到圖像擴(kuò)散模型容易受到訓(xùn)練圖像記憶的影響,引發(fā)了對版權(quán)侵犯和隱私侵犯的擔(dān)憂。在這項(xiàng)工作中,本文對文本到圖像擴(kuò)散模型中的記憶化進(jìn)行了實(shí)際分析。針對需要保護(hù)的一組圖像,本文對它們進(jìn)行了量化分析,而無需收集任何prompt。具體而言,本文首先正式定義了圖像的記憶化,并確定了記憶化的三個(gè)必要條件,分別是相似性、存在性和概率性。然后,本文揭示了模型預(yù)測誤差與圖像復(fù)制之間的相關(guān)性。基于這種相關(guān)性,本文提出利用反演技術(shù)來驗(yàn)證目標(biāo)圖像對記憶化的安全性,并測量它們被記憶化的程度。模型開發(fā)人員可以利用本文的分析方法發(fā)現(xiàn)被記憶化的圖像,或可靠地宣稱對抗記憶化的安全性。對流行的開源文本到圖像擴(kuò)散模型 Stable Diffusion 進(jìn)行了大量實(shí)驗(yàn),證明了本文分析方法的有效性。

介紹

擴(kuò)散概率模型在圖像生成、視頻、3D 點(diǎn)云等方面展現(xiàn)了令人印象深刻的能力。這些技術(shù)為商業(yè)系統(tǒng)或社區(qū)奠定了基礎(chǔ),如 Stable Diffusion、Midjourney、DALL·E 2/3 和 Imagen,吸引了數(shù)百萬活躍用戶。擴(kuò)散模型的普及可以歸因于分層去噪過程,該過程在數(shù)十億數(shù)據(jù)上訓(xùn)練時(shí)提供了高穩(wěn)定性,并且具備了對多模態(tài)條件生成的可擴(kuò)展性。


用于訓(xùn)練最先進(jìn)的文本到圖像生成模型的大規(guī)模數(shù)據(jù)集,例如開源圖像描述數(shù)據(jù)集 LAION-5B,被廣泛認(rèn)為包含可能引起版權(quán)和隱私擔(dān)憂的內(nèi)容。例如,據(jù)報(bào)道,LAION-5B可能未經(jīng)授權(quán)地涉及攝影師的作品,其中還發(fā)現(xiàn)了私人醫(yī)療照片。由于未經(jīng)篩選的訓(xùn)練數(shù)據(jù),擴(kuò)散模型可能生成侵犯創(chuàng)作者版權(quán)或暴露個(gè)人信息的內(nèi)容。


在這項(xiàng)工作中,本文專注于文本到圖像擴(kuò)散模型中的記憶化問題,這是對訓(xùn)練數(shù)據(jù)誤用的最壞情況。文本到圖像擴(kuò)散模型中的記憶化是一種生成失敗,當(dāng)輸入一定的prompt但不同的隨機(jī)種子時(shí),模型總是剛性地生成與其訓(xùn)練集中相同的數(shù)據(jù)。這種類型的生成被視為失敗,因?yàn)楦怕噬赡P蛻?yīng)該生成新穎和多樣化的圖像。


下圖1展示了 Stable Diffusion 中記憶化的兩個(gè)例子。文本到圖像擴(kuò)散模型中的記憶化不僅是一種類似于生成對抗網(wǎng)絡(luò)(GAN)中的mode collapse的技術(shù)問題,而且也是對圖像所有者利益的偏見。在版權(quán)保護(hù)方面,即使模型開發(fā)者被授權(quán)使用受版權(quán)保護(hù)的圖像訓(xùn)練他們的模型,圖像所有者也不會(huì)希望他們的圖像被復(fù)制給任意用戶,因?yàn)檫@將導(dǎo)致無法控制的傳播。

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

在過去的幾年中,文本到圖像模型因生成模仿藝術(shù)家風(fēng)格的衍生圖像而面臨訴訟。然而,與法律地位尚未確定的衍生生成相比,對受版權(quán)保護(hù)的圖像的精確復(fù)制是毫無爭議地不可容忍的。為了保護(hù)隱私,一系列研究提出使用合成數(shù)據(jù)代替真實(shí)數(shù)據(jù)以防止共享私人信息。為了實(shí)現(xiàn)這一目標(biāo),潛在的記憶化也應(yīng)該被謹(jǐn)慎地回避。Carlini等人和Somepalli等人首次證明了文本到圖像模型中的記憶化的存在。他們研究了最流行的開源文本到圖像擴(kuò)散模型 Stable Diffusion,并發(fā)現(xiàn)了觸發(fā)模型生成訓(xùn)練圖像的prompt。


雖然已發(fā)現(xiàn)文本到圖像擴(kuò)散模型容易受到記憶化的影響,但實(shí)際分析方法仍然是一個(gè)具有挑戰(zhàn)性的問題。首先,現(xiàn)有的分析方法都是基于prompt的:它們首先使用原始訓(xùn)練集中的標(biāo)題生成大量候選圖像,然后檢測低多樣性的風(fēng)險(xiǎn)生成,搜索與訓(xùn)練圖像高度相似的生成圖像,或檢測預(yù)測誤差較高的prompt。


基于prompt的分析方法無法確定任意圖像是否被記憶化。事實(shí)上,只有在發(fā)現(xiàn)了記憶化后,它們才能意識到哪些圖像可能被記憶化。此外,對于那些訓(xùn)練標(biāo)題似乎不觸發(fā)記憶化現(xiàn)象的其他圖像,它們對記憶化的安全性仍然不確定,并且很難通過現(xiàn)有方法進(jìn)行分析,因?yàn)椴豢赡軐λ衟rompt進(jìn)行窮盡測試。因此,實(shí)際分析方法希望是基于圖像而不是基于prompt的。其次,實(shí)際分析方法需要量化記憶化。


先前的工作重點(diǎn)是發(fā)現(xiàn)被記憶化的圖像,而缺乏對每個(gè)實(shí)例的記憶化的準(zhǔn)確描述。對記憶化的量化測量不僅為記憶化圖像的安全風(fēng)險(xiǎn)提供了有力的證據(jù),而且允許模型開發(fā)者負(fù)責(zé)地向圖像所有者聲明對正常圖像的安全性。


為了應(yīng)對這些挑戰(zhàn),本文考慮了一個(gè)實(shí)際場景,在這個(gè)場景中,模型開發(fā)者預(yù)先定義了一組受版權(quán)保護(hù)或保護(hù)隱私的目標(biāo)圖像。他們的目標(biāo)是對目標(biāo)圖像進(jìn)行安全分析,以決定模型是否記憶了它們,并量化它們被記憶的程度。基于這項(xiàng)分析,開發(fā)者能夠向數(shù)據(jù)提供者聲明目標(biāo)圖像對記憶化的安全性,或者提前發(fā)現(xiàn)被記憶的圖像并修復(fù)這一漏洞。


為了執(zhí)行安全分析,本文首先正式定義了擴(kuò)散模型中的圖像記憶化,并確定了說一個(gè)圖像被記憶化的三個(gè)條件,分別命名為相似性、存在性和概率性。


相似性條件意味著生成的圖像應(yīng)該與目標(biāo)圖像完全相同。正如之前提到的,這個(gè)條件反映了訓(xùn)練數(shù)據(jù)最壞情況下的誤用,并構(gòu)成了重大的安全威脅。本文不是計(jì)算生成圖像和目標(biāo)圖像之間的相似度,而是利用模型的預(yù)測誤差作為度量標(biāo)準(zhǔn)來識別圖像的復(fù)制。 這個(gè)度量標(biāo)準(zhǔn)與以前的度量標(biāo)準(zhǔn)在識別圖像復(fù)制方面同樣有效。它還使本文能夠反轉(zhuǎn)模型以找到導(dǎo)致復(fù)制的輸入,基于這個(gè)輸入本文對其他兩個(gè)條件進(jìn)行分析。


存在性條件要求存在一個(gè)prompt來觸發(fā)目標(biāo)圖像的復(fù)制。本文提出了一個(gè)prompt反演算法來分析這個(gè)條件,并通過矛盾驗(yàn)證了這種prompt的存在性。


概率性條件在采樣時(shí)頻繁地復(fù)制目標(biāo)圖像。本文提出通過比較模型在目標(biāo)圖像上的預(yù)測誤差與一個(gè)安全模型的預(yù)測誤差來衡量這個(gè)條件。如果目標(biāo)圖像以高概率被復(fù)制,那么可以觀察到一個(gè)明顯的分布偏移,遠(yuǎn)離安全模型的誤差分布。


本文通過矛盾驗(yàn)證了大規(guī)模數(shù)據(jù)上訓(xùn)練的無條件擴(kuò)散模型是安全的,因此可以作為安全模型。本文對 Stable Diffusion 進(jìn)行了全面的實(shí)驗(yàn),以展示本文的分析方法的有效性。

總的來說,本文的貢獻(xiàn)如下:

  • 對文本到圖像擴(kuò)散模型中的記憶化進(jìn)行了更實(shí)用的分析。本文的分析方法是基于圖像的,不需要收集大量prompt,比基于prompt的分析方法更可靠。
  • 提供了文本到圖像擴(kuò)散模型中記憶化的正式定義,并確定了它的三個(gè)條件。然后,本文提出了有效的度量標(biāo)準(zhǔn)和算法來衡量每個(gè)條件,最終量化了目標(biāo)圖像被記憶的程度。
  • 通過對 Stable Diffusion 的詳細(xì)實(shí)驗(yàn),本文證明了本文分析方法的可行性,揭示了文本到圖像擴(kuò)散模型中記憶化的內(nèi)在特性。

背景

Diffusion Model

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

條件 Diffusion Model

擴(kuò)散模型可以擴(kuò)展為條件變體,以在某些輸入條件的指導(dǎo)下生成圖像,例如對象類別、文本prompt等。文本到圖像模型是一種條件擴(kuò)散模型,允許用戶輸入一些prompt來指示生成圖像的期望內(nèi)容。主要有兩種類型的引導(dǎo),即分類器引導(dǎo)和無分類器引導(dǎo)。

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

其中,較大的超參數(shù) ?? 導(dǎo)致生成的圖像與輸入條件更一致。

Text-To-Image Diffusion Model

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

記憶化的定義

首先本文先正式定義記憶化,然后再與現(xiàn)有的定義進(jìn)行比較:


定義: 如果在采樣時(shí)存在一個(gè)prompt,在該prompt的指導(dǎo)下,模型生成的樣本與訓(xùn)練樣本 ?? 幾乎完全相同的概率顯著,則稱訓(xùn)練樣本 ?? 被記憶化。所謂幾乎完全相同并不意味著字面上完全相同或在文件系統(tǒng)中逐字節(jié)匹配。它仍然是在感知級別上,但排除了甚至是微小的轉(zhuǎn)換,如視角變化和組件重組。


確切地說,訓(xùn)練樣本 ??、存在prompt和顯著概率是判斷訓(xùn)練樣本是否被記憶化的三個(gè)條件。為了簡潔起見,本文稱它們?yōu)橄嗨菩?、存在性和概率條件?,F(xiàn)有的研究以不同程度涵蓋了這三個(gè)條件。


Carlini 等人提供了一個(gè)嚴(yán)格的記憶化定義,即如果一個(gè)訓(xùn)練圖像在訓(xùn)練集中最多出現(xiàn) ?? 次,并且可以通過一些prompt從模型中提取出來,那么它就是重現(xiàn)的記憶化的。如果生成的樣本與訓(xùn)練樣本完全相同或重現(xiàn)的(下圖 2a),本文都將其視為記憶化。

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

其他的研究沒有給出正式的定義,并討論了記憶化的更廣泛范圍,以衍生生成的形式,比如部分復(fù)制和類似風(fēng)格的復(fù)制(上圖 2b)。將記憶化限制在最極端的情況“完全相同”上具有幾個(gè)優(yōu)點(diǎn)。


首先,在圖像生成模型中對衍生行為的訴訟仍處于非常早期的階段。要對其合法性做出決定需要時(shí)間。相比之下,“完全相同”的記憶化如果相關(guān)圖像受版權(quán)或隱私保護(hù),則絕對不被允許。其次,從技術(shù)角度來看,擴(kuò)散模型固有地經(jīng)過訓(xùn)練以逐像素地復(fù)制訓(xùn)練樣本,就像方程 4 中所示。因此,“完全相同”的記憶化不僅在問題級別上定義,而且可能在模型本身中找到證據(jù)。這使本文能夠利用模型的內(nèi)部統(tǒng)計(jì)數(shù)據(jù)來衡量其記憶化問題,而不是依賴外部模型來匹配訓(xùn)練圖像并生成圖像,后者由于潛在的風(fēng)險(xiǎn),如對抗性攻擊,可靠性較低。

存在性條件并不是以前的研究關(guān)注的問題,因?yàn)樗鼈円曰趐rompt的方式分析記憶化,因此該條件總是滿足的。對于本文的基于圖像的分析,存在性條件很重要,以便能夠揭示現(xiàn)實(shí)風(fēng)險(xiǎn),稍后將討論。


至于概率條件,Carlini 等人在其定義中沒有明確涉及概率條件,但在他們設(shè)計(jì)的成員推斷攻擊中涉及了概率條件,用于檢測異常prompt,這激發(fā)了本文在本文的定義中加入概率條件。其他的研究并沒有強(qiáng)調(diào)概率。概率條件對于分析記憶化至關(guān)重要;正如本文稍后將展示的那樣,擴(kuò)散模型中可以提取任何樣本,但并非所有樣本都被記憶化。

圖像復(fù)制的識別

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

方法論

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

實(shí)驗(yàn)設(shè)置

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

結(jié)果

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

條件 1:相似性。Z0預(yù)測誤差符合相似性條件。本文直接利用擴(kuò)散模型的內(nèi)部預(yù)測誤差作為生成圖像和目標(biāo)圖像之間相似性的指標(biāo)。本文相信,基于模型自身的功能進(jìn)行比較比使用粗略的度量 [8] 或外部獨(dú)立訓(xùn)練的模型 [40, 41] 更可靠。

觸發(fā)記憶

識別圖像復(fù)制工作在擴(kuò)散模型部署后起到作用,以防止可能的訓(xùn)練圖像泄露。圖像生成模型的開發(fā)者在開發(fā)模型過程中對一組敏感圖像進(jìn)行安全性分析也有很強(qiáng)的動(dòng)機(jī)。這對抗記憶化起到了積極的防御作用。安全性分析的主要目標(biāo)是確定目標(biāo)圖像是否被記憶,并量化它們被記憶的程度。作為一種直接的方法,搜索容易生成目標(biāo)圖像的prompt并不可行,因?yàn)檫@是隨機(jī)且費(fèi)力的。相反,本文提出了一種基于反演的分析方法,無需訪問任何prompt。


對抗記憶化的安全性分析分為兩個(gè)步驟。首先,針對每個(gè)目標(biāo)圖像,本文嘗試反演一個(gè)輸入prompt,觸發(fā)模型對其進(jìn)行記憶的行為。本文通過反證驗(yàn)證,如果一個(gè)圖像是安全的,那么不可能反演出一個(gè)觸發(fā)其記憶的prompt。其次,本文對無條件擴(kuò)散模型進(jìn)行分析,發(fā)現(xiàn)在大規(guī)模數(shù)據(jù)上訓(xùn)練的無條件擴(kuò)散模型不會(huì)發(fā)生記憶化。因此,它可以作為衡量條件文本到圖像模型安全性的一種防護(hù)。


在這一節(jié)中,本文詳細(xì)闡述了如何觸發(fā)圖像的記憶化。記憶化的測量將在下一節(jié)中描述。

方法論

為了回答目標(biāo)圖像是否可以被記憶化的問題,本文嘗試搜索一個(gè)可以觸發(fā)生成目標(biāo)圖像的prompt。這可以通過最小化關(guān)于輸入token embedding ??的條件預(yù)測誤差的期望來完成。

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

其中 ?? 是一個(gè)超參數(shù),用于控制正則化項(xiàng)的權(quán)重。

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

實(shí)驗(yàn)設(shè)置

本文使用了78張記憶圖像和100張來自LAION的隨機(jī)采樣正常圖像作為目標(biāo)圖像集。在所有實(shí)驗(yàn)中,本文不訪問目標(biāo)圖像的訓(xùn)練標(biāo)題。本文使用Adam優(yōu)化器,初始學(xué)習(xí)率為0.01,不進(jìn)行衰減。??2-范數(shù)正則化由Adam的內(nèi)部權(quán)重衰減實(shí)現(xiàn)。?? 設(shè)置為0.01。本文使用批量大小為16,并進(jìn)行500次迭代的優(yōu)化。每個(gè)圖像被調(diào)整大小并中心裁剪為512×512,不進(jìn)行增強(qiáng)。

結(jié)果

請注意,一個(gè)prompt ?? 由 ?? 個(gè)token embedding組成,每個(gè) embedding代表一個(gè)token。穩(wěn)定擴(kuò)散的文本編碼器默認(rèn)使用最大長度為 77 個(gè)token,其中第一個(gè)和最后一個(gè)token是填充token,表示prompt的開始和結(jié)束。其余的 75 個(gè)token可自由優(yōu)化。


通過將要優(yōu)化的token數(shù)量從 1 調(diào)整到 75,本文發(fā)現(xiàn)在 Webster(46)發(fā)現(xiàn)的 78 個(gè)記憶圖像中,有 66 個(gè)圖像的記憶可以通過僅優(yōu)化 1 個(gè)token來觸發(fā),有 2 個(gè)圖像可以通過優(yōu)化 2 個(gè)token來觸發(fā),其他 10 個(gè)圖像是部分記憶圖像,無論優(yōu)化多少token,如下圖 6 所示。

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

相比之下,普通圖像的記憶不能通過正則化來觸發(fā)。下圖 7 顯示了記憶圖像和普通圖像的訓(xùn)練統(tǒng)計(jì)數(shù)據(jù),可以看到,對于記憶圖像,預(yù)測誤差和正則化項(xiàng)可以同時(shí)優(yōu)化到較小的值。相比之下,對于普通圖像,只有token embedding的 ??2-范數(shù)被最小化,而普通圖像的預(yù)測誤差仍然很高。這表明,對于普通(未記憶)圖像來說,減小預(yù)測誤差和將學(xué)習(xí)的token與預(yù)訓(xùn)練的token對齊之間的矛盾是無法解決的。因此,對于要保護(hù)的目標(biāo)圖像,如果本文不能優(yōu)化遵循預(yù)訓(xùn)練token embedding分布以減小預(yù)測誤差的token embedding,那么本文可以聲明這些圖像沒有被記憶。

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

對于成功觸發(fā)某些圖像記憶的有效token embedding,學(xué)習(xí)到的連續(xù)token embedding與離散token之間仍然存在差距。簡單的正則化器,例如本文使用的 ??2-范數(shù)正則化器,并不保證學(xué)習(xí)到的連續(xù)token embedding可以投影到現(xiàn)實(shí)token。這是具有挑戰(zhàn)性的,因?yàn)檫B續(xù) embedding空間中有無限多個(gè)點(diǎn),其中的一個(gè)子集比可能的硬prompt具有更低的誤差。

token embedding可能被過度優(yōu)化到產(chǎn)生較低誤差但不對應(yīng)于任何token prompt的區(qū)域。此外,基于貪婪算法的現(xiàn)有硬prompt調(diào)整方法不適用于搜索觸發(fā)目標(biāo)圖像記憶的prompt,因?yàn)楸疚挠^察到觸發(fā)記憶的prompt并不一定具有貪婪性質(zhì)。


為了解決這個(gè)問題,本文提出了一種簡單但有效的算法來優(yōu)化觸發(fā)記憶的硬prompt,如算法 1 所示。算法 1 在 ?? 個(gè)集合的笛卡爾積中執(zhí)行暴力搜索,每個(gè)集合包含與學(xué)習(xí)到的token embedding距離最小的 ?? 個(gè)候選token。最優(yōu)prompt是具有最小預(yù)測誤差的prompt。該算法的有效性在很大程度上取決于初始化,這是硬prompt調(diào)整中的一個(gè)常見問題。本文對不同的初始化重復(fù)執(zhí)行算法 1 最多 20 次。本文將本文的算法與兩種硬prompt調(diào)整算法 AUTOPROMPT 和 PEZ 進(jìn)行了比較。要優(yōu)化的token數(shù)量設(shè)置為 3。對于 20 個(gè)倒置prompt,本文選擇預(yù)測誤差最低的一個(gè)進(jìn)行說明。圖 8 展示了 2 個(gè)成功的倒置示例。

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

本文的硬prompt倒置算法成功地倒置了一個(gè)觸發(fā)記憶的prompt。這反映出記憶只由幾個(gè)關(guān)鍵token決定(在示例中為 3 個(gè)token)。它還反映出導(dǎo)致訓(xùn)練圖像復(fù)制的prompt并不是唯一的。關(guān)鍵token的位置可能不同。如示例所示,三個(gè)詞 "limits"、"business" 和 "podcast" 分別是第 3、4 和 6 個(gè)。將它們移到prompt的開頭并不會(huì)產(chǎn)生影響,就像本文所倒置的那樣。然而,token的順序并不總是沒有影響的。將prompt排列為 "businesses limits podcast" 將無法觸發(fā)記憶。這解釋了為什么硬prompt倒置對初始化狀態(tài)敏感。僅僅通過梯度下降來約束倒置token的位置是困難的。


相比之下,AUTOPROMPT 和 PEZ 在記憶的prompt倒置方面不起作用。這表明,與它們最初的應(yīng)用相比,在記憶的prompt倒置方面比語義理解任務(wù)更困難。本文觀察到觸發(fā)記憶的prompt并沒有貪婪可解的屬性,因此它們無法被 AUTOPROMPT 和 PEZ 找到。具體地,本文將prompt初始化為 "limits business",然后對 AUTOPROMPT 和 PEZ 進(jìn)行運(yùn)行,搜索第三個(gè)token "podcast"。如果它是貪婪可解的,AUTOPROMPT 和 PEZ 將保持前兩個(gè)詞不變,并找到最后一個(gè)詞 "podcast"。然而,它們逐漸改變了前兩個(gè)詞,并沒有收斂。


由于這個(gè)困境,連續(xù)的token embedding在后續(xù)的測量中被采用。雖然連續(xù)的token embedding并不嚴(yán)格滿足潛在記憶圖像的存在條件,但本文希望澄清,出于兩個(gè)原因,將它們用于測量是合理的。首先,對于潛在的記憶圖像,通過正則化反轉(zhuǎn)的連續(xù)token embedding足以表明記憶已經(jīng)發(fā)生。其次,對于普通圖像,反轉(zhuǎn)硬prompt對它們來說是沒有意義的。無論如何將優(yōu)化的token embedding投影到硬prompt中都會(huì)引入額外的誤差到測量中。

測量記憶力

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

無條件 Model

無條件模型是文本到圖像模型的一部分,并在采樣時(shí)用作懲罰(參見前文)。它之所以可能不受記憶影響,有以下幾個(gè)原因。首先,無條件模型是訓(xùn)練來最大化數(shù)據(jù)分布的可能性,沒有任何外部指導(dǎo)(在 Stable Diffusion 中為空字符串)。只有在無條件模型頻繁生成特定圖像時(shí),即表現(xiàn)空間崩潰的形式,記憶才會(huì)發(fā)生。然而,擴(kuò)散模型的一個(gè)優(yōu)點(diǎn)是在訓(xùn)練中的穩(wěn)定性,沒有發(fā)現(xiàn)任何崩潰。其次,在觀察到記憶是由于對圖像-prompt對的過度擬合引起的的情況下,無條件模型沒有過擬合的機(jī)會(huì),因?yàn)槠溆?xùn)練數(shù)據(jù)由圖像-空對組成,形成了多對一的對應(yīng)關(guān)系。最后,Somepalli 等人發(fā)現(xiàn),當(dāng)訓(xùn)練數(shù)據(jù)的數(shù)量足夠大時(shí),無條件擴(kuò)散模型不會(huì)復(fù)制訓(xùn)練圖像,而只會(huì)生成類似的圖像。

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

對于無條件模型,本文使用方程 10 進(jìn)行噪聲倒置,有或沒有 KL 散度正則化項(xiàng)。結(jié)果可以在下圖 11 和下圖 12 中找到。

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

測量

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

結(jié)果。 下圖 14 展示了記憶圖像和普通圖像的預(yù)測誤差分布的示例。記憶圖像的條件誤差分布與無條件誤差分布之間存在明顯的間隙。然而,普通圖像的條件誤差分布與其無條件誤差分布糾纏在一起。下圖 15 展示了所有測試圖像的 Wasserstein 距離分布。與普通圖像相比,記憶圖像呈現(xiàn)出明顯更大的 Wasserstein 距離。

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

回顧一下,測試集中存在部分記憶圖像。本文發(fā)現(xiàn),與其他完全記憶圖像相比,這些圖像對應(yīng)的距離較低,如下圖 16 所示。這表明本文的測量方法能夠量化圖像被記憶的程度,而不僅僅是簡單地區(qū)分記憶圖像和普通圖像。

如何正確使用Stable Diffusion?文本到圖像擴(kuò)散模型中記憶化實(shí)用分析(浙大)-AI.x社區(qū)

相關(guān)工作

圖像生成模型中的記憶化

以前,在圖像生成模型中,例如 GAN 和 VAE,記憶化曾經(jīng)引起了關(guān)注,主要集中在無條件生成類型上。已經(jīng)有研究關(guān)于訓(xùn)練算法和評估指標(biāo),以提高 GAN 的泛化能力,擺脫對訓(xùn)練數(shù)據(jù)的簡單復(fù)制。已經(jīng)表明,小數(shù)據(jù)量或訓(xùn)練時(shí)間過長可能導(dǎo)致 GAN 中的記憶化。 Van der Burg 等人測量 VAE 中的記憶化,方法是移除訓(xùn)練集中的一個(gè)樣本后觀察概率的變化。


對于擴(kuò)散模型,Vyas 等人提出了一種版權(quán)保護(hù)方法,以防止復(fù)制敏感的訓(xùn)練圖像。該模型被訓(xùn)練以匹配一個(gè)不使用敏感數(shù)據(jù)進(jìn)行訓(xùn)練的安全模型。Carlini 等人和 Somepalli 等人表明,記憶化也發(fā)生在文本到圖像的擴(kuò)散模型中。通過成員推斷攻擊或使用圖像檢索模型搜索最相似的訓(xùn)練圖像,從眾多生成的樣本中發(fā)現(xiàn)了記憶圖像。Webster提供了從文本到圖像模型中提取訓(xùn)練圖像的更有效的攻擊方法。隨后,Wen 等人關(guān)注觸發(fā)生成訓(xùn)練圖像的異常prompt的檢測。與這些工作相比,本文對訓(xùn)練圖像的記憶化進(jìn)行了實(shí)際分析,無需訪問任何prompt。本文的分析不僅能夠找到記憶圖像,還提供了定量的測量,并允許開發(fā)者對普通圖像進(jìn)行安全聲明。

擴(kuò)散模型中的反演技術(shù)

擴(kuò)散模型中的反演技術(shù)主要用于圖像編輯。通過反演,源圖像中包含的對象、風(fēng)格和概念可以被壓縮到潛在的噪聲或輸入token embedding中。然后,利用反演的潛在噪聲或輸入token embedding生成保留所需內(nèi)容的新圖像。


本文利用類似的反演技術(shù)來分析擴(kuò)散模型中的訓(xùn)練圖像記憶化。與實(shí)用性不同,本文更注重反演信號的規(guī)律性,這對于識別記憶圖像至關(guān)重要。在這個(gè)意義上,記憶圖像是一個(gè)“自然”可反演的類別。

討論和總結(jié)

在這項(xiàng)工作中,本文對文本到圖像擴(kuò)散模型中的記憶化進(jìn)行了實(shí)際分析。本文的分析針對一組圖像,測量它們被記憶的程度,無需收集大量prompt。本文首先提供了訓(xùn)練圖像記憶化的正式定義,并確定了說一個(gè)圖像被記憶的三個(gè)條件。本文展示了模型內(nèi)部的預(yù)測誤差是訓(xùn)練圖像復(fù)制的一個(gè)強(qiáng)有力指標(biāo)?;诖?,分析觸發(fā)記憶的prompt的存在通過反轉(zhuǎn)一系列token embedding進(jìn)行。本文強(qiáng)調(diào)了反演驗(yàn)證中正則化的重要性。此外,本文提出了一種正則化的噪聲反演方法,以驗(yàn)證在大規(guī)模數(shù)據(jù)上訓(xùn)練的無條件擴(kuò)散模型是否安全免受記憶化的影響。基于驗(yàn)證,測量圖像被記憶的程度是通過無條件誤差和條件誤差之間的分布轉(zhuǎn)移來衡量的。在實(shí)踐中,文本到圖像擴(kuò)散模型的開發(fā)者可以利用本文的分析方法對一組敏感的訓(xùn)練圖像進(jìn)行安全性分析。


本文的方法使開發(fā)者能夠發(fā)現(xiàn)潛在的記憶化風(fēng)險(xiǎn),并及時(shí)修復(fù),或者負(fù)責(zé)地向數(shù)據(jù)提供者聲明對記憶化的安全性。本文從記憶化的角度研究了擴(kuò)散模型中訓(xùn)練數(shù)據(jù)的安全性。未來,還需要對更廣泛范圍的情況進(jìn)行分析。


防御不安全的衍生生成。 擴(kuò)散模型生成的大多數(shù)圖像都不僅僅是訓(xùn)練圖像的副本,這被稱為衍生生成。其中,已經(jīng)發(fā)現(xiàn)了相當(dāng)多的倫理威脅,包括偏見、色情、暴力等。通過編輯方法和幾幅圖像,擴(kuò)散模型也可以用于生成個(gè)人人類照片的變體和模仿藝術(shù)家的作品。過去,大部分的防止不安全生成的努力都集中在訓(xùn)練數(shù)據(jù)清洗和有毒內(nèi)容檢測上。盡管如此,仍然可能通過視覺同義詞或看似無害的prompt來引導(dǎo)它們的產(chǎn)生。為了更可靠地防御不安全的衍生生成,提高擴(kuò)散模型潛在空間的可解釋性將是有益的。本文尚未完全理解擴(kuò)散模型潛在空間的語義結(jié)構(gòu)。設(shè)計(jì)訓(xùn)練算法,將人類的倫理觀念與擴(kuò)散模型潛在空間對齊,將是一個(gè)有趣的方向。


限制。 本文的工作有兩個(gè)限制。首先,盡管本文的hard prompt反演算法在分析記憶化方面比現(xiàn)有的hard prompt調(diào)整方法更有效,但并不適用于所有的記憶化圖像,特別是那些需要更多關(guān)鍵token才能觸發(fā)的圖像。在實(shí)踐中,如果有一個(gè)示例的hard prompt可用,那將提供更強(qiáng)的證據(jù)。本文希望能夠設(shè)計(jì)更穩(wěn)定和有效的用于分析記憶化的hard prompt反演算法。第二,本文僅針對無條件和文本到圖像擴(kuò)散模型提供了安全性分析方法。還應(yīng)對其他類型的條件模型以及相應(yīng)的正則化方法進(jìn)行更全面的調(diào)查。盡管存在這些限制,但本文相信本文的方法為開發(fā)者優(yōu)化其模型提供了實(shí)用的安全性分析工具。


本文轉(zhuǎn)自 AI生成未來 ,作者:Zhe Ma等


原文鏈接:??https://mp.weixin.qq.com/s/pewKhB-0kBdb1F1y7NxkSQ??

標(biāo)簽
已于2024-5-14 10:30:26修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: yiren22综合网成人 | 狠狠亚洲 | 精品欧美乱码久久久久久 | 羞羞视频网 | 日韩在线免费视频 | 日本不卡一区二区 | 国产 欧美 日韩 一区 | 亚州成人 | 欧美日韩亚洲一区二区 | 91n成人 | 在线观看毛片网站 | 国产成人精品一区二区三区在线观看 | 狠狠艹 | 久久精品国产清自在天天线 | 亚洲成人久久久 | 人人做人人澡人人爽欧美 | 国产精品毛片一区二区在线看 | 大久 | 亚洲成人网在线观看 | 亚洲一区二区三区四区五区午夜 | 99久久婷婷国产综合精品电影 | 国产偷自视频区视频 | 看片wwwwwwwwwww| 久久久日韩精品一区二区三区 | 亚洲一区二区在线 | 亚洲人人 | 资源首页二三区 | 免费一级毛片 | 日本三级网站在线观看 | 中文字幕一区二区三区四区五区 | 精品在线播放 | 欧美日韩国产精品 | 欧美性久久 | 日日操操操 | 久久免费高清视频 | 成人午夜视频在线观看 | 免费福利视频一区二区三区 | 一区久久| 三级成人在线观看 | 久久久精选 | 欧美精品第一页 |