In-Context Edit:在大規模擴散變換器中通過上下文生成實現指令式圖像編輯 原創
摘要
基于指令的圖像編輯能夠通過自然語言提示實現強大的圖像修改,但當前的方法面臨著精度和效率之間的權衡。微調方法需要大量的計算資源和大規模數據集,而免訓練技術在指令理解和編輯質量方面存在困難。我們利用大規模擴散變換器(DiT)增強的生成能力和固有的上下文感知來解決這一困境。我們的解決方案有三個貢獻:(1)一種基于上下文提示的零樣本指令遵從的上下文編輯框架,避免了結構變化;(2)一種 LoRA-MoE 混合調優策略,通過高效的自適應和動態專家路由提高了靈活性,而無需進行大量的重新訓練;(3)一種早期過濾推理時間縮放方法,利用視覺語言模型(VLMs)在早期選擇更好的初始噪聲,提高了編輯質量。廣泛的評估證明了我們方法的優越性:與傳統基線相比,它在僅使用 0.5% 的訓練數據和 1% 的可訓練參數的情況下,性能優于最先進的方法。這項工作建立了一個新的范式,實現了高精度且高效的指令引導編輯。
圖1. 我們提出了上下文編輯(In-Context Edit)方法,這是一種新穎的方法,僅使用先前最先進方法所需訓練數據的0.5%和參數的1%,就能實現最先進的基于指令的圖像編輯。第一行展示了一系列多輪編輯,執行精度很高;而第二行和第三行則突出顯示了我們的方法在單次編輯中產生的多樣且視覺效果令人印象深刻的結果。
1. 引言
近年來,基于指令的圖像編輯因其能夠使用自然語言提示來轉換和操作圖像而備受關注。基于指令的編輯的主要優點是它能夠用最少的文本指令生成精確的修改,從而為自動化圖像處理和用戶驅動的內容創建開辟了新的可能性。
現有的基于指令的圖像編輯方法通常分為兩類:基于微調的方法和免訓練技術。基于微調的方法 [3, 10, 12, 28, 39, 47, 48] 通常涉及在大規模編輯數據集上重新訓練預訓練的擴散模型,使模型能夠學習遵循指令的能力。相比之下,免訓練技術 [1, 13, 19, 21, 30, 43, 51] 通過圖像反演、提示交換(用生成性提示替換指令)或操作注意力權重等機制避免了重新訓練過程。
盡管當前的圖像編輯方法展示出了令人印象深刻的能力,但它們在精度和效率之間面臨著關鍵的權衡。基于微調的方法通過結構修改(例如,參考圖像處理模塊、通道調整)以及在大規模數據集(45 萬個樣本 [3] 到 1000 萬個樣本 [39])上的廣泛訓練,能夠提供精確的指令跟隨結果,但需要大量的計算資源,這降低了效率。相反,免訓練方法消除了架構修改和數據集訓練,但在解釋復雜指令方面存在困難,導致精度降低,限制了它們的實際應用。
盡管存在上述困境,但擴散變換器(DiT)[7, 8, 35] 的最新進展提供了一條有前景的途徑。DiT 架構具有兩個關鍵特性:(1)可擴展的生成保真度:更大的 DiT 變體(例如,FLUX [22])在沒有輔助模塊的情況下實現了最先進的文本到圖像對齊,能夠直接適應參考引導合成 [41] 和身份保留編輯 [17] 等任務。(2)內在的上下文感知:DiT 通過注意力機制在參考內容和生成內容之間建立雙向交互,能夠在沒有專用對齊網絡的情況下同時處理源圖像和目標圖像 [17, 49]。這引發了一個關鍵問題:DiT 的生成能力和上下文感知能否直接解決基于指令的圖像編輯問題,并通過其內在能力而非外部復雜性來平衡精度和效率?
我們的研究通過探索 DiT 的編輯能力揭示了兩個關鍵見解。首先,我們實現了一種基于 DiT 的免訓練上下文編輯范式,其中模型通過處理源圖像(雙聯圖的左面板)和 “上下文提示” 來生成編輯后的輸出(雙聯圖的右面板)。這種方法展示了兩個關鍵優勢:(1)消除了對參考圖像編碼的架構修改,(2)通過上下文理解實現了免調優的指令遵從。雖然仍然存在持續的失敗案例,但所實現的優勢建立了一個強大的基線,便于進行高效的微調以提高精度。
其次,我們觀察到初始噪聲的選擇對結果質量有顯著影響。某些類型的噪聲會導致更好的結果,這凸顯了選擇更好的初始噪聲以提高性能的重要性。
基于這些觀察結果,我們探索了兩種策略來提高編輯范式的精度和效率:
?LoRA-MoE 混合調優:在 DiT 框架內將參數高效的 LoRA 適配器與專家混合(MoE)路由相結合,這種方法在編輯過程中動態激活特定任務的專家。在最少的公開可用數據上進行訓練,它可以在不同場景下提高編輯成功率,而無需進行架構修改或大規模重新訓練。
?早期過濾推理時間縮放:利用視覺語言模型(VLMs)作為質量評估器,我們在整流流模型的早期去噪步驟中識別更好的初始噪聲分布。這種策略選擇與文本指令對齊的噪聲候選,提高了魯棒性和輸出質量。
我們在 Emu Edit [39] 和 MagicBrush 基準測試上的實驗展示了三個關鍵進展。首先,該方法實現了卓越的數據和參數效率,在僅使用 0.5% 的訓練數據和 1% 的可訓練參數的情況下,性能優于最先進的方法。其次,它優于最近基于 DiT 的模型,證實了我們上下文編輯范式的有效性。第三,VIE 分數評估 [20] 顯示,與商業系統相比,我們的方法具有競爭力(78.2 對比 SeedEdit 的 75.7),證明了其實際可行性。這些結果在精度和效率之間實現了前所未有的平衡(如圖 2 所示)。總之,我們的貢獻包括:
- 圖2:模型性能與訓練數據效率。“數據效率”與訓練數據量成反比,而CLIP分數反映編輯性能。我們的方法用更少的訓練數據實現了高編輯精度。
?我們探索了大規模預訓練擴散變換器(例如 FLUX)的編輯能力,并引入了一種新穎的上下文編輯范式,能夠在不修改模型架構或進行大量微調的情況下實現有效的指令式圖像編輯。
?我們提出了 LoRA-MoE 混合微調方法,用于參數高效的編輯任務適應,并結合了基于 VLM 的噪聲修剪的早期過濾推理時間縮放策略。這種協同設計在保持上下文編輯框架效率的同時,協同提高了編輯精度。
?我們的實驗表明,與以前的方法相比,我們的方法在僅需要 0.5% 的訓練數據和 1% 的可訓練參數的情況下,實現了最先進的編輯性能。這有效地解決了長期以來困擾先前方法的精度 - 效率權衡問題。
2. 相關工作
免訓練編輯技術。自擴散模型出現以來,許多免訓練的圖像編輯方法 [5, 13, 21, 31, 42, 51] 受到了關注。RF-Solver [43] 通過減輕 ODE 求解誤差提高了整流流模型中的反演精度,并利用 MasaCtrl [5] 進行圖像編輯。StableFlow [1] 通過消融研究確定了關鍵的 MM-DiT 塊,僅將特征注入這些塊以增強編輯能力。然而,這些方法面臨兩個關鍵限制:1)手動設計的模塊限制了生成能力,阻礙了對復雜指令的理解,降低了成功率;2)編輯需要精心設計的提示,限制了泛化性和可擴展性。
基于微調的編輯方法。目前大多數編輯模型修改架構并在高質量數據集上進行微調 [3, 44-48]。InstructPix2Pix [3] 使用原始圖像作為輸入對擴散 UNet 進行微調。MGIE [10] 通過集成多模態大語言模型(MLLM)來編碼指令并將其注入擴散模型,增強了指令理解能力。然而,生成性提示和編輯指令的嵌入空間之間存在差距,降低了擴散模型的泛化能力,需要大規模數據集來彌合這一差距。例如,InstructPix2Pix 生成了 45 萬對數據,Emu Edit [39] 收集了近 1000 萬對數據,FluxEdit [34] 基于 FLUX [22] 使用了來自 [44] 的 120 萬對數據,但編輯結果仍然不盡如人意。
3. 方法
在本節中,我們首先探索原始 DiT 生成模型中的上下文編輯能力,并提出用于基于指令的圖像編輯的上下文編輯框架(§3.1)。在進行深入分析之后,我們將 LoRA-MoE 混合微調(§3.2)引入我們的框架,并使用一個小型編輯數據集,這顯著提高了編輯質量和成功率。最后,我們提出一種早期過濾推理時間縮放策略(§3.3),以選擇更好的初始噪聲,在推理過程中提高生成質量。
3.1 DiT 的上下文編輯能力探索
帶有編輯指令的上下文生成。受最近的工作 [16, 17, 41, 49] 啟發,這些工作展示了大規模 DiT 模型強大的上下文能力,我們探索是否可以使用上下文生成進行圖像編輯。為此,我們將編輯指令添加到為上下文編輯設計的生成提示中。具體來說,我們設計的提示形式為:“同一 {主題} 的并排圖像:左邊描繪了原始 {描述},而右邊與左邊鏡像,但應用了 {編輯指令}”。我們將這種表述稱為上下文編輯提示(IC 提示)。利用在 DiT 中廣泛采用的 T5 文本編碼器 [36],因其強大的句子級語義理解能力 [11],這種方法有效地解釋了這些擴展提示,實現了精確且上下文連貫的編輯。
如圖 3 所示,上下文編輯提示(IC 提示)使 DiT 模型能夠以雙聯圖格式生成編輯后的輸出:左邊是與描述對齊的圖像,而右邊是根據編輯指令調整后的同一圖像。為了闡明這種機制,我們檢查了 IC 提示中編輯提示的注意力圖,發現在預定修改的區域中注意力值明顯較高。這一證據表明,DiT 模型能夠巧妙地解釋和執行嵌入在 IC 提示中的編輯指令,使其能夠理解編輯指令并相應地執行,而無需進行大量的微調。
- 圖3:編輯指令的注意力圖可視化(§3.1)。我們通過對不同步驟和層的總和與平均值進行聚合,計算所選文本的注意力值。
基于 T2I DiT 的上下文編輯框架?
基于上述見解,我們提出了一種編輯框架,其中將左邊指定為參考圖像,能夠無縫地將編輯應用到右邊。具體來說,我們分別基于文本到圖像(T2I)DiT 和修復 DiT 引入了兩種免訓練框架,如圖 4 所示。對于 T2I DiT 框架,我們設計了一種隱式參考圖像注入方法。我們首先對參考圖像進行圖像反演 [1, 5, 29, 43],保留各層和各步驟的注意力值。然后將這些值注入到代表雙聯圖左邊的標記中以進行圖像重建,而右邊則在上下文生成過程中根據預定義的 IC 提示中的編輯指令生成。
相比之下,修復 DiT 框架提供了一種更直接的方法。由于它接受參考圖像和掩碼,我們預設一個并排圖像,左邊為參考圖像,右邊為掩碼,使用相同的 IC 提示來指導修復過程。
圖 4 展示了這兩種框架的操作,示例輸出顯示了它們在編輯過程中保留參考圖像身份的能力。然而,表 3 中的實驗表明,這兩種框架都不能在各種編輯任務中始終如一地提供穩定、可靠的結果,限制了它們在現實世界中的適用性。此外,T2I DiT 方法需要額外的反演步驟,與更簡單的修復框架相比,增加了計算需求。因此,我們認為基于修復的框架是進一步改進的更可行候選方案。
- 圖4:兩種免訓練上下文編輯結構的探索(§3.1)。每個框架的示例圖像均為其編輯輸出。盡管存在一些瑕疵,但它們展示了基于指令的編輯任務的潛力。
3.2 LoRA-MoE 混合微調
基于上述分析,我們將我們的方法總結為一個函數 ε,它將源圖像 Is 和編輯指令 Te 映射到目標編輯輸出 It:
其中 D 是修復擴散變換器,IIC 表示上下文圖像輸入,源圖像 Is 放在左邊,右邊被固定的二進制掩碼 M 掩蓋。編輯指令 Te 被轉換為上下文編輯提示 TIC。
LoRA 微調。為了增強這個框架的編輯能力,我們從公開來源收集了一個緊湊的編輯數據集(5 萬個樣本)(見第 4 節),并在多模態 DiT 塊上采用 LoRA 微調 [15, 49],以實現高效的參數適應。盡管數據集規模有限,但這種方法在編輯成功率和質量上都有顯著提高。然而,某些任務(例如風格改變和移除)仍然存在挑戰,降低了整體成功率。
這些發現使我們認為,單一的 LoRA 結構能力有限,不足以應對各種編輯任務。不同的編輯任務需要不同的潛在特征操作,同時掌握這些不同的模式是一個重大挑戰。以前的 LoRA 微調通常專注于特定任務,為不同的目標訓練單獨的權重,這凸顯了統一的 LoRA 模型在全面編輯場景中的局限性。
LoRAs 混合。為了解決這一限制,我們從大語言模型的最新進展中獲得靈感,其中專家混合(MoE)架構 [4, 18, 23, 25] 使用專門的專家網絡巧妙地處理各種輸入模式。MoE 范式為我們的任務提供了兩個關鍵優勢:(1)專門處理,使各個專家能夠專注于不同的特征操作;(2)動態計算,允許通過路由機制 [38] 選擇特定的專家。這在不犧牲計算效率的情況下增強了模型能力。
利用這些優勢,我們在 DiT 塊中提出了一種混合 LoRA-MoE 結構,將并行的 LoRA 專家合并到多模態(MM)注意力塊的輸出投影層中,同時在其他層中使用標準 LoRA 進行高效的參數調整。一個可訓練的路由分類器根據視覺標記內容和文本嵌入語義動態選擇最適合的專家進行特征轉換。
具體來說,我們設置 N 個專家,每個專家對應一個秩為 r 且縮放因子為 α 的 LoRA 模塊。對于每個輸入標記,路由分類器 G 預測每個專家的選擇概率,其中 i∈[1, N]。MoE-LoRA 結構的輸出計算如下:
這里,Bi∈R^d×r 和 Ai∈R^r×k(r << min (d, k))表示第 i 個 LoRA 專家的學習權重,x∈R^k 是輸入標記。路由分類器為每個專家分配一個選擇概率 G (x) i,最終輸出是專家輸出的加權和。在我們的實現中,我們使用稀疏 MoE 設置,只選擇前 k 個專家:
其中 TopK (?, k) 函數僅保留向量的前 k 個條目,并將所有其他條目設置為 -∞。這確保了專家的高效使用,在保持編輯任務靈活性的同時最小化計算開銷。
- 圖5:我們通過LoRA-MoE混合調優增強了修復框架的編輯能力,集成了參數高效的適應和動態專家路由以進行專門的特征處理和動態計算(§3.2)。
3.3 早期過濾推理時間縮放
在推理過程中,我們發現初始噪聲對編輯結果有顯著影響,一些輸入產生的結果更符合人類偏好(見圖 10),最近的研究 [27, 50] 也支持這一模式。這種可變性促使我們研究推理時間縮放,以提高編輯的一致性和質量。在基于指令的編輯中,我們觀察到指令對齊的成功通常在幾個推理步驟中就很明顯(見圖 6),這一特征與整流流 DiT 模型 [24, 26] 兼容。這些模型能夠有效地遍歷潛在空間,只需幾個去噪步驟(有時只需一個 [9])就能提供高質量的輸出。因此,與需要更多步驟來提高細節和質量的生成任務不同,我們可以僅通過幾個步驟來評估編輯的成功與否。
基于這一見解,我們提出了一種早期過濾推理時間縮放策略。我們首先對 M 個初始噪聲候選進行采樣,并為每個候選生成一個初步的 m 步編輯,其中 m << n(完整的去噪步驟)。然后,一個視覺大語言模型(VLM)使用冒泡排序啟發的成對比較來評估這 M 個早期輸出是否符合指令,迭代地確定最佳候選,類似于選擇最大值(見圖 6)。隨后,使用 π 步去噪對這個最佳種子進行細化,以生成最終圖像。我們的方法能夠快速識別早期的良好噪聲,而 VLM 選擇確保輸出符合人類偏好。補充材料(Sup. Mat.)中提供了更多細節。
- 圖6:推理時間縮放策略示意圖(§3.3)。上排展示了編輯成功與否可在最初幾個步驟內評估。這些早期結果用于通過VLM評判篩選出最優初始噪聲。
4. 實驗
實現細節。我們采用 FLUX.1 Fill,這是領先的基于開源 DiT 的修復模型,作為我們的骨干網絡。為了微調我們的混合 LoRA-MoE 模塊,我們從公共來源收集了一個簡潔的編輯數據集。最初,我們使用了 MagicBrush 數據集 [47],其中包含 9000 個編輯樣本,但發現了它的局限性:1)編輯類型混合不均衡,2)缺乏專注于風格的數據,以及有限的領域多樣性。為了解決這些問題,我們用來自開源 OmniEdit 數據集 [44] 的大約 4 萬個樣本對其進行了擴充,形成了我們最終的訓練集。我們的模型配置中 LoRA 秩為 32,在 MoE 模塊中包含四個專家,并使用 TopK 值為 1。在我們的推理時間縮放策略中,我們使用 Qwen-VL-72B [2] 作為評估器來評估圖像輸出。補充材料中提供了關于數據集、模型參數和對比研究的更多細節。
評估設置。我們在 Emu [39] 和 MagicBrush 測試集 [47] 上進行了全面評估。對于包含編輯結果真值(GT)的 MagicBrush,我們緊密遵循 [47, 48] 來計算 CLIP [14, 37]、DINO [6, 33] 和 L1 等指標,測量我們模型的結果與 GT 之間的差異。相反,Emu 測試集缺乏編輯結果真值;我們遵循 [39, 48] 進行基線評估,并按照 [44] 使用 GPT4o 進行補充,以判斷編輯的成功與否(見補充材料)。為了確保公平比較,所有模型都使用單個默認噪聲輸入進行評估,并且不使用我們提出的早期過濾推理時間縮放技術。
正如 [20, 44, 45] 所強調的,傳統指標(如 CLIP [14, 37]和 DINO [6, 33])往往與人類偏好不一致。為了更準確地評估我們模型的編輯性能和視覺質量,我們還計算了 VIE 分數 [20]。這個指標由兩個部分組成:SC 分數,用于評估指令遵守情況和未編輯區域的保留情況;PQ 分數,用于獨立于源圖像和指令衡量視覺質量。總體分數通過Overall =\sqrt{SC ×PQ}計算得出。我們利用這個指標來衡量推理時間縮放策略帶來的提升,并將我們的方法與頂級閉源商業模型 SeedEdit [40] 進行基準測試。
4.1 與最先進方法的比較
MagicBrush 和 Emu 測試集上的結果:我們將模型與基于 UNet 的方法 [3, 39, 47] 和基于 DiT 的方法 [28, 34, 43, 48] 進行評估比較,詳細結果見表 1 和表 2。我們的模型在兩個數據集上都達到了與最先進方法相當的性能,在 MagicBrush 測試集上(表 1),輸出結果與真值非常接近,展示出強大的編輯能力。在 Emu 測試集上(表 2),它在文本對齊方面與最先進方法相當,同時更好地保持了圖像的真實性。值得注意的是,盡管我們的模型所需的訓練數據少得多,但基于 GPT 的評估分數顯著優于開源模型,并且接近閉源的 Emu Edit 模型。與具有相同骨干網絡的基于 DiT 的模型相比,我們的方法使用更少的樣本和參數,卻能提供更優的性能,突出了其效率和有效性。定性結果見圖 7 和補充材料。
- 表1:MagicBrush測試集上的定量結果(§4.1)。遵循[48],所有指標均在編輯后的圖像與MagicBrush [47]提供的GT編輯圖像之間計算。*表示該方法無法直接處理指令性提示,而是依賴數據集提供的輸出字幕。
- 表2:Emu測試集上的定量結果(§4.1)。遵循[39, 48],我們計算源圖像和編輯后圖像之間的CLIP-I和DINO分數,而CLIP-out衡量輸出字幕與編輯后圖像之間的距離。此外,我們使用GPT-4o評估編輯結果。
- 圖7:在Emu Edit測試集上與基線模型的比較(§4.1)。與基線模型相比,我們的方法在編輯指令準確性和非編輯區域保留方面表現更優。放大可查看詳細內容。
VIE 分數評估:如圖 8 所示,在編輯準確性和視覺質量方面,我們的模型顯著優于開源的最先進方法。通過隨機種子測試,我們的性能接近 SeedEdit,并且使用推理縮放策略后,整體分數超過了 SeedEdit。雖然 SeedEdit 可能由于其精美的、具有商業吸引力的輸出而獲得更高的 PQ 分數,但它在未編輯區域的身份保留方面常常失敗。相比之下,如圖 9 所示,我們的方法在這些方面保持了更高的保真度。
- 圖8:我們使用VIE分數評估與人類偏好的一致性,并量化推理時間縮放策略帶來的改進(帶推理縮放,§4.1和§4.2)。
- 圖9:在以人類為中心的圖像編輯中,SeedEdit優先考慮美學而犧牲身份一致性,而我們的方法確保更精確的編輯,符合預期目標。
4.2 消融研究
模型結構:我們通過各種配置的實驗驗證了我們的方法,詳見表 3。上下文編輯提示(IC 提示)被證明至關重要:在無訓練模型中,它的表現明顯優于直接編輯指令,并且使用 IC 提示進行微調進一步增強了其編輯能力。我們的 LoRA-MoE 設計優于標準的 LoRA 微調,以更少的參數實現了更好的編輯質量和成功率(GPT 分數提高 13%),突出了其效率。此外,僅對輸出投影層進行適應(“僅 MoE”)會導致性能下降,這表明對所有模型模塊進行微調的必要性。
- 表3:模型結構的消融研究(§4.2)。我們在Emu測試集上評估不同消融設置的性能。
推理時間縮放:如圖 8 和圖 10 所示,我們的推理時間縮放策略顯著提高了編輯性能,SC 分數提高了 19%,VIE 總分提高了 16%。當使用固定或隨機種子生成編輯時,模型可以產生可行的結果,但并不總是最優的。通過使用視覺語言模型(VLMs)從多個種子的早期輸出中篩選并選擇最佳候選,我們實現了更高的編輯質量。補充材料中提供了進一步的比較細節。
- 圖10:推理時間縮放的消融實驗(§4.2)。我們的策略顯著提高了編輯質量。例如,對于“去掉頭盔”的指令,默認固定種子錯誤地移除了人物的頭部,而VLM過濾避免了這一有缺陷的結果。
數據效率:如圖 2 和表 2 所示,與我們的無訓練框架(參考 FLUX.1 fill)相比,我們的方法僅使用 0.05M 的訓練樣本就取得了顯著的改進,這遠遠少于最先進模型使用的 1000 萬個樣本。這突出了我們框架的有效性和微調方法的效率。
4.3 應用
和諧編輯:如圖 1 和圖 11 所示,我們的方法產生的編輯結果與原始圖像無縫融合。模型在編輯過程中能夠智能地適應周圍的上下文,從而產生更自然、更逼真的結果,這是以前的方法難以實現的能力。
- 圖11:我們的方法通過自動融入陰影效果和風格對齊,實現了更協調的編輯結果,從而顯著提升了效果(§4.3)。
多樣化任務:我們的方法是一個通用的圖像到圖像框架,適用于如手部細化和重新光照等現實世界任務,如圖 12 所示。未來使用特定任務的數據集進行微調,可能會進一步拓寬其在各種場景中的適用性。
- 圖12:應用(§4.3)。無需額外調整,我們的方法在各種任務中展示出強大的泛化能力。
5. 結論
在本文中,我們提出了上下文編輯(In-Context Edit),這是一種基于 DiT 的新穎指令編輯方法,僅需極少的微調數據就能實現最先進的性能,在效率和精度之間達到了無與倫比的平衡。我們首先在無訓練的背景下探索了生成式 DiT 的固有編輯潛力,然后提出了一種 LoRA-MoE 混合微調策略,以提高穩定性和質量。此外,我們引入了一種推理時間縮放方法,利用視覺語言模型從多個種子中選擇最佳的早期輸出,從而提升編輯效果。大量實驗證實了我們方法的有效性,并展示了卓越的結果。我們相信這個高效、精確的框架為基于指令的圖像編輯提供了新的思路,并且計劃在未來的工作中進一步完善它。
本文轉載自公眾號AIRoobt ,作者:Zechuan zhang等
原文鏈接:??https://mp.weixin.qq.com/s/3Cg_f1_Lehe-z3gFkt4fSQ???
