圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了

angel

發布于 2024-12-18 12:30

瀏覽

0收藏

圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了-AI.x社區

文章鏈接：https://arxiv.org/pdf/2412.10316
項目鏈接：https://liyaowei-stu.github.io/project/BrushEdit

圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了-AI.x社區

亮點直擊

提出了BrushEdit，這是先前BrushNet模型的高級迭代版本。BrushEdit通過開創基于修復（inpainting）的圖像編輯方法，擴展了可控圖像生成的能力。該統一模型支持指令引導的圖像編輯和修復，提供了用戶友好的、自由形式的、多輪交互編輯體驗。
通過集成現有的預訓練多模態大語言模型和視覺理解模型，BrushEdit顯著提高了語言理解能力和可控圖像生成能力，而無需額外的訓練過程。
將BrushNet擴展為一個通用的圖像修復框架，能夠適應任意形狀的mask。這消除了為不同類型的mask配置使用單獨模型的需求，并增強了其對現實世界用戶mask的適應性。

總結速覽

解決的問題當前基于擴散模型的圖像編輯方法存在兩大問題：

基于反演（inversion）的方法在進行大幅度修改（如添加或移除物體）時效果較差，原因在于反演噪聲的結構性限制了編輯的靈活性。
基于指令（instruction）的方法通常采用黑箱操作，限制了用戶直接指定編輯區域和強度的能力。

提出的方案提出了一種新的圖像編輯范式BrushEdit，基于圖像修復（inpainting）和指令引導，結合多模態大語言模型（MLLMs）和雙分支圖像修復模型，構建了一個代理協作框架，實現：

編輯類別分類。
主體對象識別。
mask區域獲取。
編輯區域的修復與生成。

應用的技術

多模態大語言模型（MLLMs）用于解析用戶自由形式的編輯指令并指導編輯流程。
雙分支圖像修復模型，用于在mask區域內生成符合用戶指令的編輯內容。
代理協作框架，通過分類、識別、mask生成和修復的多步流程協同完成圖像編輯。

達到的效果通過大量實驗驗證，BrushEdit 框架能夠高效結合 MLLMs 和圖像修復模型，在七個關鍵指標上實現性能優越，包括：

mask區域的精準性保持。
編輯效果的連貫性和自然性。
更高的用戶交互自由度與操作便捷性。

圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了-AI.x社區

demo展示

圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了-AI.x社區

方法

BrushEdit的概述如下圖2所示。框架通過代理協作，將MLLM與雙分支圖像修復模型集成在一起，從而實現自由形式的、多輪交互的指令編輯。具體而言，一個預訓練的MLLM作為編輯指導者（Editing Instructor），解析用戶的指令以識別編輯類型、定位目標對象、獲取編輯區域的檢測結果并生成編輯后的圖像文本描述。在此信息的引導下，修復模型作為編輯指揮者（Editing Conductor），根據目標文本說明填充被遮掩的區域。這個迭代過程允許用戶在任何階段修改或優化中間控制輸入，支持靈活和交互式的基于指令的編輯。

圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了-AI.x社區

編輯指導者

在BrushEdit中，我們使用MLLM作為編輯指導者來解析用戶的自由形式編輯指令，將其分類為預定義類型（添加、刪除、局部編輯、背景編輯），識別目標對象，并利用預訓練的檢測模型找到相關的編輯mask。最后，生成編輯后的圖像說明。在下一階段，這些信息將被打包并發送到編輯系統，以圖像修復方法完成任務。正式過程如下：給定編輯指令和源圖像，我們首先使用預訓練的MLLM識別用戶的編輯類型和相應的目標對象。然后，MLLM調用預訓練的檢測模型，基于搜索目標對象mask。獲得mask后，MLLM將、和結合起來生成最終的編輯圖像說明。源圖像、目標mask和說明被傳遞到下一階段，編輯指揮者，進行基于圖像修復的編輯。

編輯指揮者

編輯指揮者基于之前的BrushNet，采用混合微調策略，使用隨機mask和分割mask相結合。這種方法使修復模型能夠處理多種mask基礎的修復任務，而不受mask類型的限制，達到相當或更優的性能。具體而言，通過額外的控制分支將mask圖像特征注入到預訓練的擴散網絡（例如Stable Diffusion 1.5）中。這些特征包括噪聲隱空間，以增強語義一致性，通過VAE提取的mask圖像隱空間，以引導前景提示和背景之間的語義一致性，以及通過立方插值下采樣的mask，用于明確指示前景填充區域的位置和邊界。

為了保持mask圖像特征，BrushEdit使用了預訓練擴散模型的副本，去除了所有注意力層。預訓練的卷積權重作為提取mask圖像特征的強大先驗，而排除跨注意力層確保該分支專注于純背景信息。BrushEdit的特征逐層集成到凍結的擴散模型中，實現分層、密集的每像素控制。根據ControlNet，使用零卷積層將凍結模型與可訓練的BrushEdit連接，減輕早期訓練階段的噪聲。特征插入操作定義為公式5。

圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了-AI.x社區

先前的研究強調，在隱空間融合過程中，下采樣可能引入不準確性，且VAE編碼解碼過程具有固有的局限性，影響圖像的完整重建。為了確保未遮掩區域的一致重建，先前的方法探索了多種策略。一些方法[29]，[31]依賴于復制粘貼技術，直接轉移未遮掩區域，但這些方法通常導致輸出缺乏語義一致性。受BLD啟發的隱空間融合方法也難以有效保留未遮掩區域中的所需信息。

在這項工作中，提出了一種簡單的像素空間方法，在使用模糊mask進行復制粘貼之前先進行mask模糊處理。雖然這可能會稍微影響mask邊界附近的精確度，但這種誤差幾乎不可察覺，并顯著改善了邊界一致性。

BrushEdit的架構本質上設計為能夠無縫地與各種預訓練的擴散模型進行即插即用集成，從而實現靈活的保留控制。具體而言，BrushEdit的靈活功能包括：

即插即用集成：由于BrushEdit不修改預訓練擴散模型的權重，因此可以輕松地與任何社區微調的模型集成，便于采用和實驗。
保留尺度調整：可以通過將BrushEdit特征與凍結的擴散模型中的權重結合，控制未遮掩區域的保留尺度，從而調整BrushEdit對保留級別的影響。
模糊和融合自定義：可以通過調整模糊尺度并根據需要應用融合操作，進一步細化保留尺度。這些功能為編輯過程提供了細粒度和靈活的控制。

實驗

評估基準和指標

基準

為了全面評估BrushEdit的性能，在圖像編輯和圖像修復基準上進行了實驗：

圖像編輯：使用了PIE-Bench（基于提示的圖像編輯基準）來評估BrushEdit和所有基準方法在圖像編輯任務上的表現。PIE-Bench包含700張圖像，涵蓋10種編輯類型，均勻分布在自然和人工場景（例如畫作）之間，分為四個類別：動物、人類、室內和室外。每張圖像包含五個標注：源圖像提示、目標圖像提示、編輯指令、主要編輯內容和編輯mask。
圖像修復：在之前工作的基礎上，用BrushBench替代了傳統基準[81]–[86]，用于基于分割的mask和EditBench用于隨機刷子mask。這些基準涵蓋了人體、動物以及室內和室外場景的真實和生成圖像。EditBench包含240張圖像，其中自然和生成內容各占一半，每張圖像都帶有mask和說明。BrushBench，如圖3所示，包含600張帶有人工標注mask和說明的圖像，均勻分布在自然和人工場景（例如畫作）之間，并涵蓋人類、動物以及室內/室外環境等多種類別。

圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了-AI.x社區

將任務細化為兩種基于分割mask的修復場景：內部修復和外部修復，從而實現對不同圖像區域的詳細性能評估。

值得注意的是，BrushEdit通過利用統一的高質量修復mask圖像進行訓練，超越了BrushNet，能夠處理所有mask類型。這使得BrushEdit成為一個統一的模型，能夠執行所有修復和編輯基準任務，而BrushNet則需要為每種mask類型進行單獨的微調。

數據集

在之前版本中提出的BrushData的基礎上，整合了兩種子集：分割mask和隨機mask，并進一步擴展了來自Laion-Aesthetic 數據集的數據，形成了BrushData-v2。一個關鍵的區別是，我們選擇背景干凈的圖像，并隨機與分割mask或隨機mask配對，實際上創建了模擬基于刪除的編輯的配對，顯著增強了我們框架在圖像編輯中的刪除能力。數據擴展過程如下：使用Grounded-SAM標注開放世界mask，然后根據置信度分數進行過濾，僅保留高置信度的mask。同時，在過濾過程中考慮了mask的大小和連續性。

指標

評估了五個指標，重點關注未編輯/未修復區域的保留和已編輯/已修復區域的文本對齊。此外，我們還進行了廣泛的用戶研究，以驗證BrushEdit在編輯指令對齊和背景保真度方面的優越性能。

背景保真度：我們采用標準指標，包括峰值信噪比（PSNR）、學習的感知圖像塊相似性（LPIPS）、均方誤差（MSE）和結構相似性指數測量（SSIM），來評估生成圖像與原始圖像之間未mask區域的一致性。
文本對齊：使用CLIP相似度（CLIP Sim）來評估文本與圖像的一致性，通過將兩者投影到CLIP模型的共享嵌入空間中，并測量它們表示之間的相似性。

實現細節

除非另有說明，否則在一致的設置下評估各種修復方法，即使用NVIDIA Tesla V100 GPU及其開源代碼，以Stable Diffusion v1.5作為基礎模型，50步，指導比例為7.5。每種方法在所有圖像上使用其推薦的超參數，以確保公平性。BrushEdit和所有消融模型在8臺NVIDIA Tesla V100 GPU上訓練430k步，約需要3天時間。值得注意的是，對于所有圖像編輯（PnPBench）和圖像修復（BrushBench和EditBench）任務，BrushEdit使用在BrushData-v2上訓練的單一模型，達成了統一的圖像編輯和修復。相比之下，我們之前的BrushNet需要為不同的mask類型進行單獨的訓練和測試。更多細節請參見提供的代碼。

定量比較（圖像編輯）

表II和表III比較了在PnPBench上的定量圖像編輯性能。評估了先前基于反演的方法的編輯結果，包括四種反演技術——DDIM反演、Null-Text反演、Negative-Prompt反演和StyleDiffusion——以及四種編輯方法：Prompt-to-Prompt、MasaCtrl、pix2pix-zero和Plug-and-Play。

圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了-AI.x社區

表II中的結果確認了BrushEdit在保留未編輯區域和確保編輯區域文本對齊方面的優越性。盡管基于反演的方法，如DDIM反演（DDIM）和PnP反演（PnP），能夠實現高質量的背景保留，但它們本質上受到重建誤差的限制，影響了背景的保持。相比之下，BrushEdit通過一個專門的分支單獨建模未編輯的背景信息，而主網絡則基于文本提示生成編輯區域。結合預定義的用戶mask和混合操作，它確保了幾乎無損的背景保留和語義一致的編輯。

更重要的是，方法能夠在不受反演方法中不可恢復的結構噪聲影響的情況下，保持高保真度的背景信息。這使得像添加或移除物體這樣的操作成為可能，這在基于反演的編輯方法中通常是無法實現的。此外，由于不需要反演，BrushEdit只需要單次前向傳遞即可執行編輯操作。如表III所示，BrushEdit的編輯時間顯著較短，極大提高了圖像編輯的效率。

圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了-AI.x社區

定性比較（圖像編輯）

圖4展示了與先前圖像編輯方法的定性比較。呈現了在多種編輯任務上的結果，包括刪除物體（I）、添加物體（II）、修改物體（III）和交換物體（IV），任務涉及人工圖像和自然圖像。BrushEdit在編輯區域和未編輯區域之間始終保持卓越的一致性，在遵循編輯指令、編輯mask邊界的平滑度以及整體內容一致性方面表現出色。特別地，圖4中的I和II任務包括刪除花朵或筆記本電腦，添加領子或耳環等。

圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了-AI.x社區

定量比較（圖像修復）

表IV和表V展示了在BrushBench和EditBench上的定量比較。評估了幾種圖像修復方法，包括采樣策略修改方法Blended Latent Diffusion、專門的修復模型Stable Diffusion Inpainting、HD-Painter、PowerPaint，以及基于Plug-and-Play方法的ControlNet，這些方法都在修復數據上進行過訓練。此外，還包括之前的BrushNet。

圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了-AI.x社區

結果證實了BrushEdit在保持未修復區域的完整性和確保修復區域的文本對齊方面的優越性。Blended Latent Diffusion表現最差，主要原因是由于它忽視了mask邊界，并且在mask區域與未mask區域之間的過渡不一致，導致了混合引發的隱空間損失。HD-Painter和PowerPaint，都基于Stable Diffusion Inpainting，在內部修復任務中與其基礎模型取得了相似的結果。然而，在外部修復任務中，它們的性能急劇下降，因為它們僅設計用于內部修復。ControlNet，明確為修復任務而訓練，具有與我們相似的實驗設置，但其與修復任務的設計不匹配，限制了其保持mask區域完整性和文本對齊的能力，因此需要與Blended Latent Diffusion結合才能取得合理的結果。即使使用了這種組合，它仍然無法超越專門的修復模型和BrushEdit。

在EditBench上的表現與BrushBench上的結果相一致，均顯示出BrushEdit的優越性。這表明我們方法在各種修復任務中，包括分割、隨機、內修復和外修復mask方面都表現穩定優異。

值得注意的是，與BrushNet相比，BrushEdit現在通過一個模型超越了BrushNet，在基于分割mask和隨機mask的基準測試中取得了更強大且通用的修復能力。這一進步主要歸功于統一的mask類型和BrushData-v2中更豐富的數據分布。

定性比較（圖像修復）

圖5展示了與以往圖像修復方法的定性比較。評估了在人工和自然圖像上的修復結果，涵蓋了多種修復任務，包括隨機mask修復和分割mask修復。BrushEdit在生成區域與未mask區域之間的內容和顏色一致性方面表現始終優越（I，II）。特別是在圖5 II（左側）中，任務要求生成一只貓和一條金魚。盡管所有先前的方法未能識別出mask圖像中已有的金魚，并錯誤地生成了另一條魚，但BrushEdit通過其雙分支解耦設計準確地將背景上下文融入修復中。此外，BrushEdit在整體修復性能上超越了我們之前的BrushNet，且無需針對特定mask類型進行微調，在隨機mask和分割mask的修復結果上均能取得相當甚至更優的表現。

圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了-AI.x社區

靈活控制能力

圖6和圖7展示了BrushEdit在兩個關鍵領域提供的靈活控制：基礎擴散模型選擇和尺度調整。這種靈活性不僅限于圖像修復，也擴展到圖像編輯，主要通過改變主干網絡的生成先驗和分支信息注入強度來實現。在圖6中，我們展示了BrushEdit如何與各種社區微調的擴散模型結合使用，使用戶能夠選擇最適合其特定編輯或修復需求的模型。這大大增強了BrushEdit的實用價值。圖7則展示了對BrushEdit的尺度參數的控制，允許用戶在編輯或修復過程中調整未mask區域的保護程度，從而提供精細的控制，確保結果精準且可定制。

圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了-AI.x社區

消融研究

進行了消融研究，以考察不同模型設計對圖像修復任務的影響。由于BrushEdit基于圖像修復模型，編輯任務是通過推理過程完成的，鏈式連接MLLMs、BrushEdit和圖像檢測模型作為代理。修復能力直接反映了我們模型的訓練結果。表VI比較了雙分支和單分支設計，表VII則重點展示了附加分支架構的消融研究。

圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了-AI.x社區

在BrushBench上進行的消融研究對內修復和外修復的性能進行了平均。表VI中的結果表明，雙分支設計顯著優于單分支設計。此外，在雙分支設置中微調基礎擴散模型的結果優于凍結模型。然而，微調可能會限制模型的靈活性和控制能力。考慮到性能與靈活性之間的權衡，我們選擇采用凍結的雙分支設計。表VII解釋了關鍵設計選擇的理由：（1）使用VAE編碼器而非隨機初始化的卷積層處理mask圖像，（2）將完整的UNet特征逐層集成到預訓練UNet中，以及（3）移除BrushEdit中的文本交叉注意力，以防止mask圖像特征受到文本的影響。

討論

結論：本文介紹了一種新穎的基于修復的指令引導圖像編輯范式（IIIE），該范式結合了大型語言模型（LLMs）和即插即用的全能圖像修復模型，實現了自主、用戶友好和交互式的自由形式指令編輯。我們在PnPBench、我們提出的基準、BrushBench和EditBench上的定量和定性結果展示了BrushEdit在圖像編輯和修復任務中，在mask背景保留和圖像-文本對齊方面的優越性能。

局限性與未來工作：然而，BrushEdit仍存在一些局限性：（1）我們模型生成的質量和內容在很大程度上依賴于所選擇的基礎模型；（2）即使使用BrushEdit，當mask形狀不規則或提供的文本與mask圖像不對齊時，仍然可能出現生成質量差的情況。在未來的工作中，我們計劃解決這些挑戰。

消極社會影響：圖像修復模型為內容創作提供了令人興奮的機會，但也帶來了隱的風險，尤其是對個人和社會的影響。它們對互聯網收集的訓練數據的依賴可能會加劇社會偏見，并且存在通過操縱人類圖像生成誤導性內容的風險。為了減輕這些擔憂，負責任的使用和建立倫理指南至關重要，這也將是我們未來發布模型時的重點。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/_rpPmUqGw7_y8q9Eeg8OYQ??

標簽

模型

已于2024-12-18 14:05:56修改

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了

總結速覽

demo展示

方法

編輯指導者

編輯指揮者

實驗

評估基準和指標

基準

數據集

指標

實現細節

定量比較（圖像編輯）

定性比較（圖像編輯）

定量比較（圖像修復）

定性比較（圖像修復）

靈活控制能力

消融研究

討論

目錄