告別粗糙AI生成!BlobCtrl帶你玩轉元素級視覺編輯,效果炸裂!(北大&港中文&騰訊)
文章鏈接: https://arxiv.org/pdf/2503.13434
項目鏈接: https://liyaowei-stu.github.io/project/BlobCtrl/
亮點直擊
- BlobCtrl,一個新穎的統一框架,首次通過元素級生成和編輯實現了對視覺元素的精確和靈活操控,同時有效保留了其內在特性。
- 設計了一種創新的雙分支架構,結合精心設計的訓練范式和策略,在保持外觀保真度和實現視覺操控中的創意多樣性之間達到了最佳平衡。
- 引入了BlobData,這是一個專門為訓練元素級視覺模型而策劃的大規模數據集,同時推出了BlobBench,一個嚴格的評估基準,用于評估元素級生成和編輯能力。
- 通過大量實驗,證明了BlobCtrl在元素級生成和編輯任務中相比現有方法具有更優越的性能,同時保持了計算效率和實際應用性。
總結速覽
解決的問題
- 精細控制不足:當前基于擴散模型的圖像生成方法缺乏對單個元素的精細控制,無法像傳統工具(如Adobe Photoshop)那樣進行精確的元素級操作。
- 布局控制不連續:現有方法在元素生成和編輯時,難以實現連續的布局控制,導致元素的位置、大小和方向調整不夠靈活。
- 外觀和身份保持困難:在元素級編輯過程中,現有方法難以保持元素的外觀和身份信息,導致編輯后的圖像不自然。
- 視覺和諧性不足:現有方法在處理多元素組合時,難以保持視覺和諧性,導致生成的圖像不協調。
- 訓練數據稀缺:缺乏大規模成對的訓練數據,限制了端到端訓練的模型性能。
提出的方案
- BlobCtrl框架:引入了一個基于概率blob表示的框架,用于統一元素級生成和編輯。Blob作為視覺原語,能夠有效解耦和表示空間位置、語義內容和身份信息。
- 雙分支擴散架構:提出了一個雙分支擴散模型,分別處理前景和背景元素,并通過層次特征融合實現無縫的前景-背景整合。
- 自監督訓練范式:采用自監督訓練范式,結合定制化的數據增強和評分函數,提高模型的泛化能力和效率。
- 可控丟棄策略:在推理過程中,通過隨機丟棄策略靈活平衡外觀保真度和創意多樣性。
應用的技術
- 概率blob表示:使用二維高斯分布作為blob的幾何表示,確保布局控制的連續性和視覺和諧性。
- 可微分blob splatting:結合變分自編碼器(VAE)特征,通過可微分blob splatting技術保持元素的外觀和身份信息。
- 雙分支擴散模型:設計了一個雙分支擴散模型,分別處理前景和背景元素,并通過層次特征融合實現無縫整合。
- 自監督訓練:采用自監督訓練范式,結合隨機數據增強和ID保留評分函數,提高模型的魯棒性和泛化能力。
- 隨機丟棄策略:在推理過程中,通過隨機丟棄策略靈活控制生成圖像的外觀保真度和多樣性。
達到的效果
- 精確的元素級操作:BlobCtrl在元素級生成和編輯任務中表現出色,能夠實現精確的元素位置、大小和方向調整。
- 連續的布局控制:通過blob的平滑性,實現了連續的布局控制,使得元素調整更加靈活。
- 外觀和身份保持:結合可微分blob splatting和VAE特征,有效保持了元素的外觀和身份信息。
- 視覺和諧性:BlobCtrl在處理多元素組合時,能夠保持視覺和諧性,生成協調的圖像。
- 計算效率高:BlobCtrl在保持高效計算的同時,提供了精確和靈活的視覺內容創建解決方案。
基于Blob的元素級表示
為什么blob是一種有效的元素級表示?作為基礎標記,blob精確地表示對象的位置、大小和方向。作為高斯分布,它比具有強烈形狀約束的分割掩碼提供了更靈活和和諧的元素級表達。定義了blob并解釋了其作為元素級視覺表示的作用。
Blob公式
Blob不透明度
表示為高斯分布的blob能夠計算空間維度上的不透明度,從而引出了blob splatting和blob合成的概念。這些概念對于實現平滑渲染和視覺元素的無縫集成至關重要。
首先計算到blob中心的平方馬氏距離:
Blob合成與Splatting
Blob合成指的是通過深度感知的alpha合成將多個blob整合在一起的過程,這有效地解決了遮擋問題并建模了對象間的關系。數學上,blob合成的公式如下:
BlobCtrl的自監督范式
基于blob的表示提供了連續的空間控制以實現靈活操作、無縫合成以實現和諧整合,以及空間感知的splatting以實現視覺語義。利用這些優勢,本文引入了一種自監督訓練范式,以開發一個魯棒且多功能的模型,用于元素級視覺生成和編輯。
模型架構
基于blob表示,本文提出了一種雙分支擴散模型,分別處理前景和背景元素。如下圖3所示,本文的模型主要由兩個關鍵組件組成:
其中??[; axis = 0]?
??和??[; axis = 2]?
?分別表示沿通道和列的連接。
為了處理元素級前景輸入,我們使用了一個修改過的預訓練擴散主干網絡,并移除了交叉注意力層。這種方法有兩個目的:預訓練權重為有效的前景特征處理提供了強大的生成先驗,而移除交叉注意力層確保模型僅關注視覺內容,而不受更廣泛上下文的影響。
其中背景分支缺少空間感知語義特征,因為它傾向于完全保留信息。
在元素級編輯中,背景是被掩碼的圖像,其中前景元素的原始區域和目標區域都被掩碼。例如,當移動一只鳥時,背景在鳥的初始位置和目標位置都有掩碼。
背景分支使用完整的擴散主干網絡,包括交叉注意力層。為了無縫集成前景和背景元素,我們采用分層特征融合,逐步在背景分支的多個分辨率級別注入前景特征。還使用零初始化Z以確保訓練穩定。第個塊的特征融合公式如下:
自監督訓練
雖然不同位置對象的配對數據是理想的訓練數據,但這種數據稀缺。先前的方法依賴于視頻數據,但這引入了不必要的復雜性,降低了模型性能。
相反,本文提出了一種自監督訓練策略,利用任何圖像都可以被視為元素操作過程的目標結果的思路。對于每個訓練圖像,識別目標元素的位置,并在不同位置隨機生成一個blob以模擬源位置。這模擬了操作過程,如前面圖3所示,其中一個玩具似乎從隨機的左側位置移動到其實際的右側位置。我們在訓練期間使用噪聲預測評分函數優化模型。
身份保留與場景協調
隨機數據增強:為了防止模型默認采用簡單的復制粘貼解決方案,在訓練期間對前景元素進行廣泛的數據增強。這包括隨機變換,如顏色抖動、縮放、旋轉、擦除和透視變化。這些增強有兩個主要目的:它們迫使模型根據指定的布局和外觀和諧地放置前景元素,而隨機擦除則培養了處理不完整元素的強大修復能力。這種方法確保模型學會靈活且上下文相關地生成和操作元素,保持與背景的視覺一致性。
身份保留評分函數:為了有效解耦前景和背景分支——確保前景分支注入元素級信息,而背景分支整合這些元素——本文提出了一個身份保留評分函數。在訓練期間,保留前景分支中的擴散模型輸出層(在推理期間丟棄),并應用一個僅在前景元素區域內操作的評分函數。
可控的保真度-多樣性權衡
為了實現外觀保真度和創意多樣性之間的靈活控制,在訓練期間實施了隨機丟棄策略。首先隨機丟棄前景分支的權重,使模型能夠在基于全局文本信息自由生成前景元素和嚴格保留給定前景身份之間進行調整。其次隨機丟棄要splat的語義特征和前景元素的VAE特征,從而靈活控制語義和外觀之間的平衡。應用:
實驗
數據集、基準和指標
BlobData構建:為了訓練BlobCtrl,構建了BlobData(1.86M樣本),數據來源于BrushData,包含圖像、分割掩碼、擬合的橢圓參數(以及導出的二維高斯分布)和描述性文本。數據集構建過程包括:(1) 過濾源圖像,保留短邊超過480像素且具有有效實例分割掩碼的圖像。(2) 應用掩碼過濾標準,保留面積占圖像總面積比例在0.01到0.9之間的掩碼,并排除位于圖像邊界的掩碼。(3) 對過濾后的掩碼擬合橢圓參數并導出二維高斯分布。(4) 移除無效樣本,特別是協方差值低于1e-5的樣本。(5) 使用InternVL-2.5生成詳細的圖像描述。
BlobBench構建:現有的評估基準如DreamBooth、COCOE、COCO Val和CreatiLayout僅評估接地能力或身份保留,但無法同時評估兩者。它們還缺乏對完整元素級操作(如組合、移動、調整大小、刪除和替換)的覆蓋。本文引入了BlobBench,這是一個包含100張精選圖像的綜合基準,均勻分布在不同的元素級操作中。每張圖像都經過專家標注,包括橢圓參數、前景掩碼和詳細的文本描述。BlobBench涵蓋了真實世界和AI生成的圖像,涵蓋室內外場景、動物和風景等多種場景,確保評估的公平性和有效性。
評估指標:本文使用客觀指標和人工評估來評估BlobCtrl,包括客觀評估(身份保留、接地準確性、生成質量和協調性)和主觀評估。
實現細節
評估細節:在BlobBench基準上評估BlobCtrl,并與三種最先進的方法進行比較:GliGen,一種基于邊界框的文本到圖像模型;Anydoor,一種基于分割掩碼的圖像到圖像模型;以及Magic Fixup,專門用于協調變換區域。為了系統評估五種基本元素級操作(組合、移動、調整大小、替換和刪除),我們為基線方法設計了特定的工作流程。對于Anydoor,我們通過將背景傳送到前景區域來創建干凈的背景,然后通過將前景對象傳送到目標位置進行編輯。對于GliGen,使用BlobCtrl移除元素以生成干凈的背景,然后應用邊界框約束以及文本和圖像條件。對于Magic Fixup,我們使用編輯操作的剛性變換對前景元素進行變形,然后進行場景協調。
定量評估
與最先進方法的比較:如下表1和表2所示,BlobCtrl在所有評估指標上均表現出顯著改進:
- 身份保留:對于需要身份保留的任務(組合、移動、調整大小、替換),BlobCtrl的平均CLIP-I(87.48 vs. 84.28)和DINO(87.45 vs. 81.70)得分顯著高于最佳基線。對于刪除任務,本文的方法顯示出較低的身份得分(CLIP-I和DINO得分的平均值)(21.95 vs. 26.55),表明更徹底的元素消除。
- 布局控制:BlobCtrl表現出優越的空間控制精度,相對于之前的最佳方法,布局MSE降低了8.11%。這驗證了基于概率blob表示在精確元素操作中的有效性。
- 生成質量:本文的方法在標準質量指標上創造了新的最先進性能基準:FID 102.8094,LPIPS 0.2196,PSNR 32.1571,SSIM 0.7507。這些結果證明了BlobCtrl在生成高保真輸出的同時保持全局視覺一致性的能力。
將這些顯著改進歸功于兩項關鍵創新:(1) 基于概率blob的表示,能夠精確控制元素屬性;(2) 自監督訓練范式,有效解耦并重新組合視覺元素的身份、語義和布局信息,同時消除了由不必要的相機運動和其他視頻特定偽影引起的性能下降,這些問題困擾了之前的方法。
人工評估:下表3中報告的主觀評估結果顯示了BlobCtrl在所有評估標準上的卓越表現。從數量上看,本文的方法以顯著優勢超越了之前的最佳方法,建立了新的最先進性能:在外觀保真度上,本文的方法獲得了87.2%的偏好率,而之前的最佳方法為82.5%;在布局準確性上,偏好率為86.5%,而之前的最佳方法為81.7%;在視覺協調性上,偏好率為82.1%,而之前的最佳方法為80.3%。這些在人工評估指標上的顯著改進表明,BlobCtrl生成的結果對人類觀察者來說更具視覺吸引力和自然性,使其更適合實際應用。
定性評估
下圖4展示了BlobCtrl與最先進方法在各種元素級操作場景中的定性比較。結果展示了本文方法的幾個關鍵優勢:
- Anydoor:在元素操作過程中難以準確保留身份,并且在元素級刪除方面表現出局限性,通常會留下偽影或不完整的修改。
- GliGen:雖然提供了布局控制能力,但無法有效保留操作元素的視覺外觀和身份,導致輸出不一致。
- Magic Mixup:協調能力不足,導致修改元素與其周圍環境之間的視覺不一致。
相比之下,BlobCtrl在所有方面都表現出卓越的性能——更好地泛化到多樣化場景、更準確的身份保留、精確的布局控制,同時保持視覺一致性。
消融實驗
身份保留評分函數的消融實驗:本文進行了一項消融實驗,以分析身份保留評分函數的有效性。如下圖6所示,在相同的訓練步驟下,使用身份保留評分函數的模型的噪聲預測損失(0.0235)顯著低于未使用該函數的模型(0.0399),表明其收斂速度更快。為了更好地理解該評分函數如何影響生成過程,我們使用前景分支預測的噪聲對去噪結果進行了可視化。可視化結果表明,在身份保留評分函數的指導下,前景分支有效地專注于生成前景內容,驗證了我們通過該機制解耦前景和背景元素生成的設計選擇。
討論
結論:本文介紹了BlobCtrl,一個基于概率blob表示的統一框架,集成了元素級生成和編輯功能。Blob作為視覺原語,用于編碼空間布局、語義和身份信息,從而實現精確的元素操作。通過自監督訓練的雙分支架構,BlobCtrl能夠保留前景身份并保持背景協調性。隨機數據增強和丟棄策略提供了在外觀保真度和創意多樣性之間的靈活控制。在BlobBench上的大量實驗表明,BlobCtrl在元素級操作任務中達到了最先進的性能。
局限性與未來工作:盡管BlobCtrl在元素級操作中表現出強大的能力,但目前它僅支持在單次模型前向傳遞中迭代操作單個元素。幸運的是,基于blob的表示天然支持深度感知的合成,為未來的工作開辟了有前景的方向。
本文轉自AI生成未來 ,作者:AI生成未來
