超越DragDiffusion!哈工程聯合南大提出FastDrag:可以幾秒內完成基于拖動的圖像編輯
今天給大家介紹哈工程聯合南大等提出的圖像編輯方法FastDrag,該方法不需要LoRA訓練,從而顯著減少了圖像編輯的時間消耗(FastDrag僅需3.12秒完成圖像編輯),比DiffEditor快近700%(DiffEditor需要21.68秒完成圖像編輯),比經典的基于n步迭代的圖像編輯方法(如:DragDiffusion)快2800%(DragDiffusion需要1分21.54秒完成圖像編輯)。此外,即使沒有使用LCM加速的情況下,所提出的FastDrag方法仍然比目前SOTA的方法快很多。
相關鏈接
論文鏈接:https://arxiv.org/abs/2405.15769
項目主頁: https://fastdrag-site.github.io/
論文閱讀
摘要
使用生成模型的基于拖動的圖像編輯可以精確控制圖像內容,用戶只需單擊幾下即可操作圖像中的任何內容。然而,現行方法通常采用 n 步迭代進行潛在語義優化以實現基于拖動的圖像編輯,這非常耗時并且限制了實際應用。
在本文中,我們介紹了一種新穎的基于拖動的一步式圖像編輯方法,即 FastDrag,以加速編輯過程。我們方法的核心是潛在扭曲函數 (LWF),它模擬拉伸材料的行為來調整潛在空間內各個像素的位置。這一創新實現了一步式潛在語義優化,因此顯著提高了編輯速度。同時,應用 LWF 后出現的空區域可以通過我們提出的雙邊最近鄰插值 (BNNI) 策略解決。該策略使用來自鄰近區域的相似特征對這些區域進行插值,從而增強了語義完整性。
此外,我們還引入了一致性保持策略,通過采用原始圖像中的語義信息(在擴散反演期間保存為自注意力模塊中的鍵值對)來指導擴散采樣,以保持編輯后圖像與原始圖像之間的一致性。我們的 FastDrag 在 DragBench 數據集上得到了驗證,與現有方法相比,它在處理時間上有了顯著的改進,同時實現了增強的編輯性能。
方法
FastDrag 的總體框架包括四個階段:擴散反演、擴散采樣、一步翹曲優化和 BNNI。擴散反演產生噪聲潛伏 zt,擴散采樣從優化的噪聲潛伏 z′t 重建圖像。一步翹曲優化用于噪聲潛伏優化,其中提出使用 LWF 生成翹曲向量,通過簡單的潛伏重定位操作調整噪聲潛伏上各個像素的位置。BNNI 用于增強噪聲潛伏的語義完整性。引入了一致性保持策略來保持原始圖像和編輯圖像之間的一致性。
實驗
與其他方法比較
與最先進的方法進行定性比較的說明。
與 DragBench 上最先進的方法進行定量比較。這里,較低的 MD 表示更精確的拖拽結果,而較高的 1-LPIPS 則反映生成圖像與原始圖像之間的相似性更高。時間指標表示基于 RTX 3090 的每個點所需的平均時間。準備表示 LoRA 訓練。? 表示沒有配備 LCM 的 U-Net 的 FastDrag。
消融實驗
結論
本文提出了一種基于拖拽的新型圖像編輯方法 FastDrag,該方法比其他現有方法具有更快的圖像編輯速度。通過提出一步式變形優化和 BNNI 策略,該方法可以在很短的時間內根據拖拽指令實現高質量的圖像編輯。此外,通過一致性保持策略,它確保了生成的圖像與原始圖像的一致性。