圖像編輯大一統?多功能圖像編輯框架Dedit:可基于圖像、文本和掩碼進行圖像編輯
本文經AIGC Studio公眾號授權轉載,轉載請聯系出處。
今天給大家介紹一個基于圖像和文本的編輯的框架D-Edit,它是第一個可以通過掩碼編輯實現圖像編輯的項目,近期已經在HuggingFace開放使用,并一度沖到了熱門項目Top5。
使用 D-Edit 的編輯流程。用戶首先上傳一張分割成多個項目的圖像。微調 DPM 后,用戶可以進行各種類型的控制,包括
(a) 使用文本提示替換模型;
(b) 細化分割造成的不完美細節;
(c) 將包移到地面;
(d) 將手提包替換為參考圖另一個手提包;
(e) 重塑手提包;
(f) 調整模型和手提包的大小;
(g) 去除背景。
相關鏈接
論文地址:https://arxiv.org/pdf/2403.04880
代碼鏈接:https://github.com/collovlabs/d-edit
試用地址:https://huggingface.co/spaces/Collov-Labs/d-edit
論文介紹
基于文本到圖像擴散模型 (DPM) 的成功,圖像編輯是實現人類與 AI 生成內容交互的重要應用。在各種編輯方法中,提示空間內的編輯因其容量大和控制語義的簡單性而受到更多關注。然而,由于擴散模型通常是在描述性文本標題上進行預訓練的,直接編輯文本提示中的單詞通常會導致完全不同的生成圖像,違反了圖像編輯的要求。另一方面,現有的編輯方法通常考慮引入空間掩碼來保留未編輯區域的身份,而這些區域通常會被 DPM 忽略,因此導致不和諧的編輯結果。
針對這兩個挑戰,在這項工作中,我們建議將綜合圖像提示交互分解為幾個項目提示交互,每個項目都鏈接到一個特殊的學習提示。由此產生的框架名為 D-Edit,基于預訓練的擴散模型,交叉注意層已解開,并采用兩步優化來構建項目提示關聯。然后,可以通過操作相應的提示將多功能圖像編輯應用于特定項目。我們展示了四種編輯操作的最新結果,包括基于圖像、基于文本、基于掩碼的編輯和項目刪除,涵蓋了大多數類型的編輯應用程序,所有這些都在一個統一的框架內。值得注意的是,D-Edit 是第一個可以 (1) 通過掩碼編輯實現項目編輯和 (2) 結合基于圖像和文本的編輯的框架。我們通過定性和定量評估展示了各種圖像集合的編輯結果的質量和多功能性。
方法
傳統全交叉注意和分組交叉注意的比較。查詢、鍵和值顯示為一維向量。對于分組交叉注意,每個項目(對應于某些像素/塊)僅關注分配給它的 文本提示(兩個標記)。
嵌入層在文本編碼器。新令牌 插入隨機初始化。
不同類型的圖像所需的操作 編輯。每個彩色道具都有一個獨特的提示符p。
實驗
文本引導編輯。D-Edit允許選擇 任何項目分割和編輯使用文本提示。
圖像引導編輯的定性比較。在項目替換和面部交換方面,D-Edit 與 Anydoor、Paint-by-Example 和 TF-ICON 進行了比較。
圖像引導編輯:圖像中的任何項目都可以被來自相同或不同圖像的另一個項目所替換
結論
這項工作提出了基于擴散模型的多功能圖像編輯框架 D-Edit。D-Edit 將給定圖像分割成多個項目,每個項目都分配有一個提示來控制其在提示空間中的表示。圖像提示交叉注意力被解開為一組項目提示交互。通過調整擴散模型來建立項目提示關聯,該模型學習使用給定的一組項目提示來重建原始圖像。定性和定量評估展示了在收集的各種圖像中編輯結果的質量和多功能性。