驚艷！單模型統一多圖個性化生成！字節重磅開源UNO, FLUX版訓練、推理、權重全開源！

發布于 2025-4-11 10:10

瀏覽

0收藏

驚艷！單模型統一多圖個性化生成！字節重磅開源UNO, FLUX版訓練、推理、權重全開源！-AI.x社區

文章鏈接：https://huggingface.co/papers/2504.02160
arXiv鏈接：https://arxiv.org/pdf/2504.02160
代碼鏈接：https://github.com/bytedance/UNO
項目網頁：https://bytedance.github.io/UNO/

驚艷！單模型統一多圖個性化生成！字節重磅開源UNO, FLUX版訓練、推理、權重全開源！-AI.x社區

亮點直擊

提出了模型-數據協同進化范式，突破了傳統定制化圖像生成中數據瓶頸的限制。
開發了漸進式數據生成框架和通用定制化模型UNO，實現了從單主體到多主體的高質量圖像生成。
在多個任務中取得了卓越的性能，包括單主體和多主體驅動的圖像生成，并且能泛化到id、tryon、style等場景

驚艷！單模型統一多圖個性化生成！字節重磅開源UNO, FLUX版訓練、推理、權重全開源！-AI.x社區

總結速覽

解決的問題

數據瓶頸：高質量、多視角主體一致的配對數據難以獲取，限制了模型的可擴展性。
主體擴展性：現有方法主要針對單主體生成，難以處理復雜且種類豐富的多主體場景。

提出的方案

提出了模型-數據協同進化范式，通過Text-to-Image(T2I) 模型生成更好的單主體定制化數據，進而訓練更強大的Subject-to-Image（S2I）模型用于生成質量高、種類豐富的多主體數據。
開發了漸進式數據生成框架和通用定制化模型UNO，實現從單主體到多主體的高質量圖像生成。

應用的技術

基于當前最先進的T2I模型FLUX，改進其成支持多條件生成的S2I模型。
漸進式跨模態對齊：通過逐步訓練實現多圖像條件的處理。
通用旋轉位置嵌入（UnoPE）：解決多圖像條件下的屬性混淆問題。

達到的效果

在DreamBench和多主體生成基準測試中，UNO在一致性和文本可控性方面均取得了最佳性能。
顯著減少了“復制-粘貼”現象，提高了生成圖像的質量和可控性。
極佳的泛化能力，能覆蓋換裝、人物保持、風格化等個性化生成

驚艷！單模型統一多圖個性化生成！字節重磅開源UNO, FLUX版訓練、推理、權重全開源！-AI.x社區

方法

上下文數據生成框架

驚艷！單模型統一多圖個性化生成！字節重磅開源UNO, FLUX版訓練、推理、權重全開源！-AI.x社區

單主體配對數據生成：通過預定義的文本模板和LLM構建分類樹，生成多樣化主題和場景描述，利用DiT上下文生成能力直接生成主題一致的圖像對，構建VLM打分器進行過濾
多主體配對數據生成：基于單主體數據訓練的Subject-to-Image(S2I)模型，用開集檢測得到另一新主體反向生成定制化數據，從而構建多主體一致的圖像對，避免“復制-粘貼”問題。

驚艷！單模型統一多圖個性化生成！字節重磅開源UNO, FLUX版訓練、推理、權重全開源！-AI.x社區

同時，作者在論文中也做了充足實驗說明了層級數據過濾的重要性和有效性。

漸進式訓練策略

驚艷！單模型統一多圖個性化生成！字節重磅開源UNO, FLUX版訓練、推理、權重全開源！-AI.x社區

DiT模型最初是為純T2I設計的，其輸入是文本提示和噪聲圖像的嵌入。然而，當嘗試引入多圖像條件（如參考圖像）時，直接輸入多圖像可能導致模型訓練不穩定或性能下降。這是因為多圖像條件的引入會改變模型的收斂分布，導致模型難以適應復雜的輸入。為了克服這一問題，論文提出了漸進式跨模態對齊的訓練方法，分為兩個階段：