人人都是藝術家!斯坦福提出擴散自蒸餾:定制圖像生成,任意上下文下擴展到任意實例! 精華
文章鏈接:https://arxiv.org/pdf/2411.18616
項目鏈接:https://primecai.github.io/dsd
亮點直擊
- 提出了Diffusion Self-Distillation,一種zero-shot身份保持定制圖像生成模型,能夠在任何上下文下擴展到任意實例,其性能與推理階段調優方法相當;
- 提供了一條自蒸餾pipeline,利用預訓練的文本到圖像擴散模型、LLMs和VLMs,完全不依賴人工參與,獲取身份保持的數據配對,用于整個數據創建過程;
- 設計了一個統一的架構,用于處理涉及身份和結構保持編輯的圖像到圖像翻譯任務,包括個性化、重光照、深度控制和指令跟隨。
總結速覽
解決的問題
- Text-to-image擴散模型生成效果令人印象深刻,但難以滿足藝術家對精細化控制的需求。
- 在“保持身份一致性”的生成任務(如將特定概念放置于新背景)以及其他任務(如重光照)中,缺乏高質量的圖像+文本配對數據來直接訓練模型。
提出的方案
- Diffusion Self-Distillation:利用預訓練的文本到圖像擴散模型自生成數據集,用于文本條件下的圖像到圖像任務。
- 1.利用擴散模型的上下文生成能力生成圖像網格。
- 2.使用視覺-語言模型輔助篩選,構建大規模高質量的配對數據集。
- 3.使用篩選后的配對數據集對擴散模型進行微調,將其轉化為支持文本+圖像條件的圖像生成模型。
應用的技術
- 預訓練的文本到圖像擴散模型的上下文生成能力。
- 視覺-語言模型對生成數據進行篩選和過濾。
- 基于篩選數據的擴散模型微調技術。
達到的效果
- 在保持身份一致性生成任務中優于現有的零樣本方法。
- 在不需要測試時優化的情況下,性能可與逐實例調優技術相媲美。
- 方法適用于多種文本條件圖像生成任務,具有廣泛適應性和有效性。
Diffusion Self-Distillation
最近的文本到圖像生成模型提供了令人驚訝的能力,能夠生成上下文一致的圖像網格(見圖2,左側)。受到這一洞察的啟發,本文開發了一種zero-shot適應網絡,能夠快速、豐富、高質量且保持身份一致性,即在參考圖像的條件下生成一致的圖像。首先利用預訓練的文本到圖像擴散模型、大語言模型(LLMs)和視覺語言模型(VLMs)生成并篩選出展示所需一致性的圖像集。然后,使用這些一致性的圖像集對同一預訓練擴散模型進行微調,采用本文新提出的并行處理架構創建一個條件模型。通過這種方式,Diffusion Self-Distillation以監督方式將預訓練的文本到圖像擴散模型微調為zero-shot定制圖像生成器。
生成配對數據集
為了創建用于監督Diffusion Self-Distillation訓練的配對數據集,利用預訓練的文本到圖像擴散模型的新興多圖像生成能力,生成可能一致的基礎圖像,這些圖像由LLM生成的提示創建。然后,使用VLMs篩選這些基礎樣本,獲得共享所需身份一致性的干凈圖像集。數據生成和篩選pipeline如下圖2左側所示。
通過教師模型生成基礎數據
為了生成符合所需身份保持的圖像集,我們提示預訓練的教師文本到圖像擴散模型創建包含多個面板的圖像,每個面板展示相同的主題,并在表情、姿勢、光照條件等方面有所變化,用于訓練目的。這種提示可以簡單地指定輸出中的身份保持要求,如“一個包含4張圖像的網格,展示相同的<物體/角色/場景等>”,“4個均勻分隔的面板,描繪相同的<物體/角色/場景等>”等。還會指定每個子圖像/面板中的預期內容。完整的提示集在我們的補充材料第A節中提供。分析表明,目前最先進的文本到圖像擴散模型(如SD3、DALL·E 3、FLUX)展示了這一身份保持能力,這可能源于它們的訓練數據,包括漫畫、漫畫書、照片集和視頻幀。這種上下文生成能力對于我們的數據生成流程至關重要。
通過LLMs生成提示
依賴LLM來“頭腦風暴”生成一個多樣化的提示大數據集,從中提取我們的圖像網格數據集。通過定義提示結構,提示LLM生成描述圖像網格的文本提示。遇到的一個挑戰是,當提示生成大量提示時,LLM往往生成低多樣性的提示。例如,如果沒有額外的引導,GPT-4o傾向于生成包含汽車和機器人內容的提示,導致輸出內容高度重復。為了解決這個問題,利用LAION數據集中的可用圖像標題,將它們作為內容參考輸入到LLM中。這些來自真實圖像標題的參考大大提高了生成提示的多樣性。還可以選擇使用LLM過濾這些參考標題,確保它們包含明確的身份保持目標。我們發現,這顯著提高了生成一致的多圖像輸出的命中率。
使用VLMs進行數據篩選和標題生成
盡管上述數據生成方案提供了具有良好質量和數量的身份保持的多圖像樣本,但這些初步的“未經篩選”圖像通常噪聲較多,不適合直接使用。因此,利用VLMs的強大能力來篩選出清潔的數據集。從生成的樣本中提取出意圖保持身份的一對圖像,并詢問VLM這兩張圖像是否描繪了相同的物體、角色、場景等。我們發現,在這種情況下,使用思維鏈(Chain-of-Thought)提示特別有幫助。具體而言,首先提示VLM識別兩張圖像中共同存在的物體、角色或場景,然后讓其詳細描述每一張圖像,最后分析它們是否相同,給出結論性回答。這個過程產生了共享相同身份的圖像對。
并行處理架構
需要一個適用于通用圖像到圖像任務的條件架構,包括結構保持變換和保持概念/身份但不保持圖像結構的變換。這是一個具有挑戰性的問題,因為它可能需要轉移精細細節,而不保證空間對應關系。盡管ControlNet架構在結構保持編輯(如深度到圖像或分割圖到圖像)方面表現出色,但在更復雜的身份保持編輯下,它難以保持細節,其中源圖像和目標圖像沒有像素對齊。另一方面,IP-Adapter可以從輸入圖像中提取某些概念,如風格,但它強烈依賴于任務特定的圖像編碼器,并且常常無法保持更復雜的概念和身份。受到多視角和視頻擴散模型成功的啟發 ,本文提出了一種簡單而有效的方法,將基礎擴散變換器模型擴展為圖像條件擴散模型。具體而言,我們將輸入圖像視為視頻的第一幀,并生成一個兩幀的視頻作為輸出。最終的損失是在兩幀視頻上計算的,建立了第一幀的身份映射和第二幀的條件編輯目標。我們的架構設計使其對于通用的圖像到圖像翻譯任務具有普遍性,因為它能夠有效地在兩幀之間交換信息,使模型能夠捕捉復雜的語義并執行復雜的編輯,如圖2右側所示。
實驗
實現細節 使用FLUX1.0 DEV作為教師模型和學生模型,實現自蒸餾。為了生成提示,使用GPT-4o;用于數據集篩選和標題生成,使用Gemini-1.5。在8個NVIDIA H100 80GB GPU上訓練所有模型,采用160的有效批量大小進行100k次迭代,使用AdamW優化器,學習率為10^-4。并行處理架構使用LoRA,基模型的秩為512。
數據集 最終訓練數據集包含約40萬個主題一致的圖像對,這些圖像是從我們的教師模型FLUX1.0 DEV生成的。數據集的生成和篩選是完全自動化的,不需要人工干預,因此其規模可以進一步擴展。使用公開的DreamBench++數據集并遵循其評估協議。
DreamBench++是一個綜合性且多樣化的數據集,用于評估個性化圖像生成,包含150張高質量圖像和1,350個提示,比以前的基準(如DreamBench)要多得多。該數據集涵蓋了各種類別,如動物、人物、物體等,包括照片寫實和非照片寫實圖像,且提示設計涵蓋不同難度級別(簡單/富有創意)。相比之下,提示是使用GPT-4o生成的,并通過人工標注員進行精煉,以確保多樣性和倫理合規性。
基準 遵循DreamBench++的設置,將我們的模型與兩類基準進行比較:推理階段調整模型和zero-shot模型。對于推理階段的模型,將其與Textual Inversion、DreamBooth及其LoRA版本進行比較。對于zero-shot模型,與BLIP-Diffusion、Emu2、IP-Adapter、IP-Adapter+進行比較。
評估指標 先前工作的評估協議通常包括比較CLIP和DINO特征相似度。然而,上述指標僅捕捉到全局語義相似度,且噪聲非常大,容易偏向于“復制粘貼”輸入圖像。這在輸入圖像或提示較為復雜時尤其成問題。參考DreamBench++中的詳細分析,指出了這些指標的局限性。因此,遵循DreamBench++設計的指標,并報告GPT-4o在更為多樣化的DreamBench++基準上針對不同類別主題的概念保持(CP)和真實(Real.)與富有創意(Imag.)提示下的提示遵循(PF)的得分,最后用其乘積作為最終評估得分。該評估協議模擬了使用VLMs的人類用戶研究。此外,對GPT評估提示進行了輕微修改,以便在生成的內容未顯示出內部理解和創意輸出,而是天真地復制了參考圖像中的組件時,可以應用懲罰。這些修改后的指標被命名為“去偏概念保持(Debiased CP)”和“去偏提示遵循(Debiased PF)”。完整的GPT評估提示集將在我們的補充材料Sec. B中提供。
定性結果下圖4展示了定性比較結果,表明本文的模型在主題適應性和概念一致性方面顯著優于所有基準,同時在輸出中表現出出色的提示對齊性和多樣性。作為早期概念提取方法的Textual Inversion僅捕捉到輸入圖像中的模糊語義,因此不適用于需要精確主題適應的zero-shot定制任務。DreamBooth和DreamBooth-LoRA在保持一致性方面面臨挑戰,主要因為它們在多張輸入圖像下表現更好。這一依賴性限制了它們在僅有單張參考圖像時的有效性。相反,本文的方法即使只使用一張輸入圖像,也能取得穩健的結果,突顯了其效率和實用性。
BLIP-Diffusion 作為一個自監督表示學習框架,可以以zero-shot方式從輸入中提取概念,但僅限于捕捉整體語義概念,無法定制特定主題。同樣,Emu2作為一個多模態基礎模型,擅長提取語義概念,但缺乏針對特定主題定制的機制,限制了它在個性化圖像生成中的應用。IP-Adapter和IP-Adapter+ 采用自監督學習方案,旨在通過編碼信號重建輸入。雖然在提取全局概念方面有效,但它們遭遇了明顯的“復制粘貼”效應,生成的圖像與輸入非常相似,缺乏有意義的轉化。值得注意的是,IP-Adapter+ 利用更強的輸入圖像編碼器,導致這一問題加劇,輸出的多樣性和適應性降低。
與之相比,本文的方法有效地保留了主題的核心身份,同時允許多樣且符合上下文的轉化。如下圖5所示,擴散自蒸餾方法展示了出色的多功能性,能夠熟練處理各種定制目標(角色、物體等)和風格(照片寫實、動畫等)。此外,擴散自蒸餾能夠很好地推廣到各種提示,包括與InstructPix2Pix類似的指令,進一步證明了它在各種定制任務中的魯棒性和適應性。
定量結果與基準模型的定量比較見下表1,報告了按照DreamBench++的GPT評估結果。該評估協議類似于人工評分,但使用自動化的多模態大語言模型(LLMs)。我們的模型在概念保持和提示跟隨方面均表現最佳,僅在概念保持方面略遜于IP-Adapter+(主要由于“復制粘貼”效應),在提示跟隨方面則略遜于每實例調整的DreamBooth-LoRA。
DreamBench++的概念保持評估仍然偏向于支持“復制粘貼”效應,尤其是在更具挑戰性和多樣性的提示上。例如,IP-Adapter系列在概念保持方面的優異表現,主要得益于其強大的“復制粘貼”效應,該效應直接復制輸入圖像,而未考慮提示中的相關變化。這也部分體現在其較差的提示跟隨得分上,表明它們偏向于參考輸入,未能有效適應輸入提示。因此,我們還展示了“去偏”版本的GPT得分,簡單地要求GPT對生成的圖像與參考圖像過于相似的情況進行懲罰。IP-Adapter+ 的優勢不再顯現。總體而言,Diffusion Self-Distillation是表現最好的模型。
消融研究
- 數據整理:在數據集生成過程中,首先使用凍結的預訓練FLUX模型合成網格,然后通過VLM整理篩選圖像。為什么不對FLUX模型進行微調以提高命中率?為了解決這個問題,使用超過7000個一致性網格擬合了LoRA(下圖6左)。盡管更多的樣本是一致性網格,但發現教師模型失去了輸出的多樣性。因此,選擇完全依賴VLMs幫助我們從大量多樣但潛在噪聲的網格中進行整理。
- 并行處理架構:將并行處理架構與三種替代的圖像到圖像架構進行比較:1)將源圖像與噪聲圖像進行拼接(“拼接”);2)基于ControlNet的設計;3)基于IP-Adapter 的設計。使用與并行處理模型相同的數據訓練每個架構(圖6中)。對于ControlNet,得出與先前工作 [14]相同的結論,它在結構對齊編輯時表現最好,但當源圖像和目標圖像的相機姿勢不同時,通常難以保持細節。IP-Adapter由于其圖像編碼器的容量限制,在有效傳遞源圖像的細節和風格方面存在困難。
- 其他圖像到圖像任務:盡管不是“自蒸餾”,因為它需要外部來源的配對數據集(通過Depth Anything生成),我們還在深度到圖像任務上訓練了我們的架構,以展示其在更一般的圖像到圖像任務中的應用(圖6右)。
用戶研究為了評估本文生成圖像的保真度和提示一致性,在DreamBench++測試集的一個隨機子集上進行了用戶研究,選取了20個樣本。共有25名女性和29名男性標注員,年齡從22歲到78歲(平均34歲),獨立地根據以下三個標準對每個圖像進行1到5分的評分:(1)概念保持—與參考圖像的一致性;(2)提示一致性—與給定提示的一致性;(3)創造力—內部理解和轉化的水平。
下表2中展示了平均分數。人工標注與GPT評估結果高度一致,表明Diffusion Self-Distillation在概念保持方面略遜于IP-Adapter+,在提示一致性方面略遜于推理階段調優方法DreamBooth-LoRA。值得注意的是,本文的模型在創造力評分上取得了最高分,而IP-Adapter+由于其“復制粘貼”效應,在這一指標上得分較低。這些結果進一步確認了Diffusion Self-Distillation提供了最平衡且優越的整體表現。
討論
本文提出了Diffusion Self-Distillation,這是一種zero-shot方法,旨在使用文本到圖像的擴散模型,在無需人工干預的情況下實現廣泛上下文中的身份適應。本文的方法有效地將zero-shot定制圖像生成轉化為監督任務,顯著降低了其難度。實證評估表明,Diffusion Self-Distillation在保持zero-shot方法效率的同時,與推理階段調優技術相當。
局限性與未來工作
本文的工作專注于角色、物體和場景重光的身份保持編輯。未來的方向可以探索更多任務和應用場景。例如,與ControlNet的集成可以提供身份和結構的細粒度獨立控制。此外,將我們的方法從圖像擴展到視頻生成是未來工作的一個有前景的方向。
結論
Diffusion Self-Distillation使內容創作普適化,能夠進行身份保持、高質量且快速的定制圖像生成,并能夠無縫適應不斷發展的基礎模型,極大地拓展了藝術、設計和數字故事講述的創造性邊界。
本文轉自AI生成未來 ,作者:AI生成未來
