成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!

發布于 2024-10-28 15:08
瀏覽
0收藏

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

文章鏈接:https://arxiv.org/pdf/2410.08207
項目鏈接:https://hexiaoxiao-cs.github.io/DICE/

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

亮點直擊

  • 引入了DICE,一種用于離散擴散模型(包括多項擴散和mask生成模型)的反演算法。通過記錄并注入噪聲序列或mask模式,DICE能夠在無需預定義mask或注意力操作的情況下,實現對離散數據的精確重構和可控編輯。
  • 通過在圖像和文本兩種模態上的全面實驗驗證了DICE的有效性,展示了其在不同類型的離散生成模型中的通用性。
  • 證明了該方法可以將主要用于理解任務(如RoBERTa)的模型轉化為具有競爭力的文本生成和編輯生成模型,展示了擴展離散擴散模型至新應用的潛力。

總結速覽

解決的問題:
離散擴散模型雖然在圖像生成和mask語言建模等任務中取得了成功,但在精確控制內容編輯方面存在局限性。當前方法無法實現對離散數據的靈活編輯和準確重構。

提出的方案:
提出了DICE(可控編輯的離散反演),這是首個針對離散擴散模型(包括多項擴散和mask生成模型)的精確反演方法。DICE通過記錄在反向擴散過程中的噪聲序列和mask模式,實現了無需預定義mask或注意力操作的精確重構和靈活編輯。

應用的技術:
DICE 方法利用了在反向擴散過程中記錄的噪聲序列和mask模式,應用于離散數據的精確反演和可控編輯。其評估對象包括VQ-Diffusion、Paella和RoBERTa等模型,跨越圖像和文本領域。

達到的效果:
DICE 保留了較高的數據保真度,并增強了離散空間中細粒度的內容編輯能力,展示了在圖像和文本領域的有效性,提供了新的內容操控機會。

方法

可控編輯離散反演

基于非ODE的反演:基于ODE的生成模型,例如DDIM和流匹配,定義了一個ODE軌跡。由于ODE的確定性特性,可以通過使用歐拉法在正向方向上求解ODE來實現反演,確保根據ODE的固有性質進行重構。相比之下,另一類研究關注基于SDE的模型,如CycleDiffusion和DDPM Inversion。廣義上講,這些方法通過記錄噪聲或殘差來確保重構,這些噪聲或殘差是重現隨機軌跡所需的。CycleDiffusion 在從后驗進行采樣時記錄高斯噪聲,并通過輸入真實的來注入信號信息。另一方面,DDPM Inversion通過將反演過程擬合到由獨立的采樣得到的人工隨機軌跡中,將信息引入。對于CycleDiffusion和DDPM Inversion,兩者的關鍵思想是利用高斯重參數化技巧,,并跟蹤“噪聲”,這些噪聲可能是從均值生成樣本的來源。對于離散擴散模型,我們使用Gumbel-Max技巧,。下圖2提供了所提方法的直觀解釋。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

多項擴散的反演:類似于Huberman-Spiegelglas et al.,首先通過從進行獨立的采樣,得到一個隨機軌跡序列 (沿著的維度填充以下采樣操作)。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

請注意,在此使用了Gumbel Softmax技巧,這等同于從類別分布中采樣。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

請注意,此處的潛在變量。


在這個反演過程中,潛在空間與固定的離散擴散模型一起唯一地定義了相同的隨機軌跡。詳細算法見算法2。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

反演mask生成模型:在mask生成建模中,隨機軌跡是根據所使用模型的特定推理算法構建的。例如,在Paella中,mask是包含性的,這意味著隨著時間步的增加,被掩蓋的tokens集合會增加。相比之下,Unleashing Transformer在每一步采用隨機mask,其中mask是通過采樣函數獨立生成的。為簡便起見,定義一個去噪函數(由參數化)。該去噪函數根據噪聲token 輸出預測的未掩蓋數據的logits。由于在這種情況下,分類采樣發生在對去噪器預測的采樣中,因此我們定義一個相應的潛在序列。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

通過潛在空間,保證了準確的重構。然而,對于編輯任務而言,如果潛在變量主導了生成過程,這種精確度可能并不理想。詳細算法見下算法1。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

為了提供更多靈活性,引入超參數、和,它們允許對編輯過程進行更精細的控制。具體來說,表示編輯過程開始時(也是最大)時間步,控制從原始輸入中注入的信息量,而則管理隨機噪聲的引入。


分析:描述一個簡單但典型的DDPM示例,并計算編碼潛變量與輸入信號之間的互信息。

備注 3.1:給定一個簡單的高斯DDPM,,潛變量通過DDPM反演獲得 (Huberman-Spiegelglas et al., 2024),則與之間的互信息為:

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

與之間的互信息在圖3中進行了說明。觀察到,從編碼到的信息量隨著的增加而減少,這促使我們探索不同的調度策略(見下圖7)。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

實驗

本節展示了反演方法在圖像和語言擴散模型上的有效性。實驗表明,這些方法能夠在視覺和語言任務中保持身份,同時成功進行預期的更改。

圖像擴散模型

對于圖像擴散模型,主要研究吸收狀態離散模型,包括一個mask生成模型Paella和一個多項式擴散模型VQ-Diffusion。我們展示了DICE在兩個類別中的反演重構能力和圖像編輯性能。


數據集:由Ju等提出的基于提示的圖像編輯基準(PIE-Bench)是一個最近推出的數據集,旨在評估文本到圖像(T2I)編輯方法。該數據集在9種不同場景中評估語言引導的圖像編輯,共有700幅圖像。基準的詳細注釋和各種編輯任務對于全面評估我們方法的能力至關重要,確保與現有方法的公平一致的比較。

反演重構

本節評估不進行編輯時的反演準確性。這是通過首先反轉圖像,然后使用記錄的潛在編碼重構原始圖像來實現的。


評估指標:在此,評估DICE和掩蔽生成下原始圖像與生成圖像的圖像相似性,指標包括PSNR、LPIPS、MSE和SSIM。


定量分析:本文的方法的重構性能,如下表1所示,遠遠超過了基線插補 + Paella模型的所有指標。在掩蔽插補的情況下,所有圖像token都被隨機抽樣的token替換,意味著模型缺乏關于原始圖像的任何先驗信息。因此,重構圖像與被反轉的圖像存在顯著差異,導致相似性評分較低。相比之下,本文的方法展示了近乎完美的重構,正如指標所示,顯著生成了一幅與原圖完全相同的圖像,而不會引入VQ-VAE/GAN量化過程通常帶來的錯誤,如(?)token的結果所示。這突顯了本文的方法在生成高保真重構方面的卓越準確性和一致性。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

編輯性能

本節討論本文提出的方法的編輯性能。由于不存在離散擴散反演,因此將本文的方法與原文中指出的掩蔽生成進行比較。此外,還展示了來自連續模型的指標。


評估指標:為了展示我們提出的反演方法的有效性和效率,采用了涵蓋三個關鍵方面的八個指標:結構距離、背景保留和編輯提示與圖像的一致性,如Ju等(2023)所述。利用Tumanyan等(2023)提出的結構距離指標來測量原始圖像和生成圖像之間的結構相似性。為了評估背景在標注的編輯掩膜之外的保留效果,我們使用峰值信噪比(PSNR)、學習感知圖像塊相似性(LPIPS)、均方誤差(MSE)和結構相似性指數(SSIM)。還使用CLIP相似性得分來評估編輯提示與生成圖像之間的一致性,該得分是在整幅圖像和由編輯掩膜定義的區域內計算的。


結果:下表2展示了使用Paella和VQ-Diffusion的DICE定量結果,并與連續擴散模型以及插補進行了比較。值得注意的是,本文的方法在Paella模型下實現了最低的結構距離11.34,超越了包括連續擴散模型在內的所有其他方法。此外,雖然Stable Diffusion v1.4的DDPM反演在整體和編輯區域的CLIP相似性得分中顯示出最高,但本文的方法與Paella保持了競爭力的CLIP相似性。考慮到結構距離的顯著降低,本文的方法在結構保留和語義對齊的平衡上表現出色。此外,結合VQ-Diffusion后,本文的方法繼續展現出強勁的性能。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

表3中的結果清晰地展示了本文的方法在背景保留能力上優于DDIM+SDv1.4。所有四個指標強調了本文的方法在保留圖像未編輯區域的結構一致性。這些結果展示了本文的方法在編輯過程中保持背景完整性的有效性,并提供了原始圖像信息注入DICE潛在空間的證據。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

圖下4展示了使用DICE的Paella和VQ-Diffusion的編輯結果。兩個模型都成功地根據目標提示修改了真實圖像。在所有情況下,我們的結果都展現出對輸入圖像的高保真度和對目標提示的遵循。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

語言擴散模型

研究者們在RoBERTa上評估DICE,這是一種文本離散擴散模型,用于生成對立情感的句子,同時保留結構相似性。我們從兩個提示開始——一個是積極情感,另一個是消極情感。每個提示包含兩個句子:第一個句子指示情感類型并設置上下文背景,第二個句子是反轉和生成的目標。最初,我們使用整個提示作為上下文,反轉消極情感提示的第二個句子,生成該句子的噪聲標記表示。接下來,我們通過將積極情感提示的第一個句子與反轉的消極句子的噪聲標記拼接在一起,來對模型進行條件設置。這一設置引導模型生成一新第二句,該句反映了原始消極句的結構,但表達積極情感。


評估模型在保持原始句子結構元素的同時,反轉并生成與指定情感一致的文本的能力。

反演過程

實驗中,特別關注于反轉第二個句子(在下表6中以紅色標出),同時保持第一個句子(黑色)不變,因為它通常包含重要的上下文信息。在反演過程中,我們的目標是通過從反轉階段獲得的噪聲標記中恢復第二個句子,以進行重建/編輯。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

數據集生成

為了評估編輯性能,設計并提出了一個新數據集,稱為情感編輯(Sentiment Editing)。該數據集的目標是在保持句子結構的同時編輯句子的情感,并且遵循句子的主題。這里展示了數據集中兩組句子。

反演重建

與圖像生成部分類似,首先展示所提方法的反演和重建能力。該過程包括反演句子,然后使用相同的提示生成第二個句子的重建版本。


評估指標對于重建,使用命中率(Hit Rate),定義為每種方法生成與原句相同的句子的比例。此外,我們計算語義文本相似度(Semantic Textual Similarity,STS)得分,通過測量句子嵌入之間的余弦相似度,使用Reimers等人(2019)提出的模型。


定量分析下表4比較了DICE與使用RoBERTa的mask生成在兩個指標上的表現:準確率和語義文本相似度。我們的方 法在這兩個指標上顯著超過了mask生成,證明我們的zt潛在空間有效捕捉了被反演句子的信息,并促進了其后續的重建。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

句子編輯

在這一部分,我們評估所提反演方法在RoBERTa上的編輯性能。在表6中,負向提示列下以黑色顯示的句子是在反演過程中輸入的。被反演的句子以紅色顯示。對于編輯,提示隨后被替換為右側的黑色句子,并在末尾添加噪聲以進行正向過程。正向過程中噪聲的輸出以藍色呈現。

評估指標

對于句子編輯任務,我們根據兩個標準評估生成的句子:(1) 結構保留,評估句子的結構是否得以保留,(2) 情感正確性,評估編輯后句子的情感是否與原始提示的情感一致。結構保留率和情感正確率均使用ChatGPT-4作為分類器進行計算。關于使用ChatGPT進行評估的詳細信息可以在補充材料中查看。


結果下表5展示了兩種文本編輯方法的比較分析,這兩種方法均采用RoBERTa,重點關注在結構保留和情感正確性方面的有效性。我們的方 法在這兩個指標上顯著優于mask生成。這一差異突顯了我們反演方法在潛在空間中編碼原始文本結構的卓越能力,以及更準確地調整情感的靈活性。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區

前面表6展示了初始提示和編輯結果。本文的方法在保留負向提示的句子結構的同時,將其情感修改為更積極的情感。

結論

DICE(可控編輯的離散反演),一種用于離散擴散模型的反演算法,包括多項式擴散和mask生成模型。通過在逆擴散過程中利用記錄的噪聲序列和mask模式,DICE實現了對離散數據的準確重構和靈活編輯,而無需預定義的mask或交叉注意力操作。在多個模型和模態(如圖像和文本)上的實驗展示了DICE在保持數據保真度的同時增強編輯能力的有效性。此外,還展示了DICE將RoBERTa這一傳統上專注于數據理解的模型轉變為文本生成和編輯的生成模型的潛力。我們相信,DICE增強了離散生成模型的能力,為在離散空間中的精細內容操控提供了新的機會。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/QDWlWAg4RlvFJla0qJyXBw???

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 精品一区二区三区在线观看国产 | 亚洲精品一 | 国产成人精品一区二区 | 亚洲欧美激情精品一区二区 | 免费午夜剧场 | 麻豆一区二区三区精品视频 | 国产高清一区二区三区 | 成人在线免费观看视频 | 精品中文字幕一区二区三区 | 国产国语精品 | 国产高清精品在线 | 91精品国产高清一区二区三区 | 性xxxxx| 国产在线精品一区二区三区 | 国产精品成人国产乱一区 | 日韩av在线一区 | 人人爽人人爽人人片av | 精品国产乱码久久久久久老虎 | 精品一区电影 | 国产高清视频在线观看 | 91精品国产综合久久久久久蜜臀 | 日韩免费毛片视频 | 国产成人高清 | 欧美三级视频 | 91久久精品国产91久久 | 欧美a在线 | 九九九视频在线观看 | 日韩一区二区在线播放 | 性一交一乱一伦视频免费观看 | 日韩一级二级片 | 欧美日韩精品中文字幕 | 精品久久香蕉国产线看观看亚洲 | 羞羞视频在线观看网站 | 国产一区二区中文字幕 | 精品1区 | 国产又色又爽又黄又免费 | 精品欧美 | 成人免费观看男女羞羞视频 | 一级电影免费看 | 99久久精品国产麻豆演员表 | 99爱在线免费观看 |