驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!
文章鏈接:https://huggingface.co/papers/2504.02160
arXiv鏈接:https://arxiv.org/pdf/2504.02160
代碼鏈接:https://github.com/bytedance/UNO
項目網頁:https://bytedance.github.io/UNO/
亮點直擊
- 提出了模型-數據協同進化范式,突破了傳統定制化圖像生成中數據瓶頸的限制。
- 開發了漸進式數據生成框架和通用定制化模型UNO,實現了從單主體到多主體的高質量圖像生成。
- 在多個任務中取得了卓越的性能,包括單主體和多主體驅動的圖像生成,并且能泛化到id、tryon、style等場景
總結速覽
解決的問題
- 數據瓶頸:高質量、多視角主體一致的配對數據難以獲取,限制了模型的可擴展性。
- 主體擴展性:現有方法主要針對單主體生成,難以處理復雜且種類豐富的多主體場景。
提出的方案
- 提出了模型-數據協同進化范式,通過Text-to-Image(T2I) 模型生成更好的單主體定制化數據,進而訓練更強大的Subject-to-Image(S2I)模型用于生成質量高、種類豐富的多主體數據。
- 開發了漸進式數據生成框架和通用定制化模型UNO,實現從單主體到多主體的高質量圖像生成。
應用的技術
- 基于當前最先進的T2I模型FLUX,改進其成支持多條件生成的S2I模型。
- 漸進式跨模態對齊:通過逐步訓練實現多圖像條件的處理。
- 通用旋轉位置嵌入(UnoPE):解決多圖像條件下的屬性混淆問題。
達到的效果
- 在DreamBench和多主體生成基準測試中,UNO在一致性和文本可控性方面均取得了最佳性能。
- 顯著減少了“復制-粘貼”現象,提高了生成圖像的質量和可控性。
- 極佳的泛化能力,能覆蓋換裝、人物保持、風格化等個性化生成
方法
上下文數據生成框架
- 單主體配對數據生成:通過預定義的文本模板和LLM構建分類樹,生成多樣化主題和場景描述,利用DiT上下文生成能力直接生成主題一致的圖像對,構建VLM打分器進行過濾
- 多主體配對數據生成:基于單主體數據訓練的Subject-to-Image(S2I)模型,用開集檢測得到另一新主體反向生成定制化數據,從而構建多主體一致的圖像對,避免“復制-粘貼”問題。
同時,作者在論文中也做了充足實驗說明了層級數據過濾的重要性和有效性。
漸進式訓練策略
DiT模型最初是為純T2I設計的,其輸入是文本提示和噪聲圖像的嵌入。然而,當嘗試引入多圖像條件(如參考圖像)時,直接輸入多圖像可能導致模型訓練不穩定或性能下降。這是因為多圖像條件的引入會改變模型的收斂分布,導致模型難以適應復雜的輸入。為了克服這一問題,論文提出了漸進式跨模態對齊的訓練方法,分為兩個階段:
- 單主題訓練階段(Stage I)
- 目標:讓模型學會處理單圖像條件的輸入,生成與參考圖像一致的結果。
- 方法:使用單主體數據對對預訓練的T2I模型進行微調。輸入包括文本提示、噪聲圖像嵌入和單一參考圖像嵌入。
- 效果:通過這一階段,模型能夠理解如何將參考圖像的信息融入生成過程中,生成與參考圖像一致的單主體圖像。
- 多主題訓練階段(Stage II)
- 目標:讓模型學會處理多圖像條件的輸入,生成與多個參考圖像一致的結果。
- 方法:在單主題訓練的基礎上,進一步使用多主體數據對進行訓練。輸入包括文本提示、噪聲圖像嵌入和多個參考圖像嵌入。
- 效果:通過這一階段,模型能夠處理多個參考圖像的輸入,并生成與所有參考圖像一致的多主題圖像。
論文通過從簡單到復雜的訓練范式,讓模型能夠逐步適應多圖像條件的輸入,避免直接引入多圖像條件導致的訓練不穩定。
通用旋轉位置嵌入(UnoPE)
在多圖像條件下,DiT需要處理多個參考圖像的嵌入。然而,直接使用原始的位置索引可能導致以下問題:一是空間結構依賴:模型可能過度依賴參考圖像的空間結構(如位置和布局),而忽略文本提示中提供的語義信息;一是屬性混淆:不同參考圖像之間可能存在語義差距,導致模型難以準確生成目標圖像。
論文提出了通用旋轉位置嵌入(UnoPE),通過調整位置索引的方式,使模型能夠更好地關注文本特征,而不是簡單地復制參考圖像的空間結構。
實驗結果
實驗設置
- 數據生成:通過漸進式數據生成框架生成了230k單主體數據對和15k多主體數據對。
- 訓練細節:基于FLUX.1預訓練模型,使用LoRA秩為512進行訓練,總批次為16,學習率為1e-5。
- 評估指標:使用DINO和CLIP-I分數評估主體一致性,CLIP-T分數評估文本遵循度。
結果
- 定性指標:UNO在Dreambench單主體和多主體生成中均能保持主體細節和文本指令的一致性,顯著優于其他方法,幾乎做到了對參考圖細節的完美保留。
- 定量指標:在DreamBench數據集上,UNO在單主題生成中取得了最高的DINO(0.760)和CLIP-I(0.835)分數;在多主題生成中,DINO和CLIP-I分數分別為0.542和0.733,成為目前一致性生成的SOTA。
- 消融實驗:論文充分驗證了漸進式跨模態對齊和UnoPE與其它變體相比的有效性。移除這些模塊后,性能顯著下降,證明了它們對模型性能的關鍵作用。
應用案例
UNO還展示了很強的泛化能力,除了應對更為復雜的多圖主體保持場景外,還能涵蓋以往身份保持、換裝、風格化等任務,從而為未來工作提供啟發。
結論
論文提出的UNO模型通過模型-數據協同進化范式,突破了數據瓶頸,實現了高質量的單主體和多主體定制化圖像生成。實驗結果表明,UNO在主題相似性和文本可控性方面均達到了最佳性能,具有廣泛的應用潛力,例如虛擬試穿、身份保持和風格化生成等。未來工作將進一步擴展合成數據類型,以解鎖UNO的更多潛力。
本文轉自AI生成未來 ,作者:AI生成未來
