字節提出從單一主題發展到多主題定制的通用框架UNO,通過情境生成釋放更多可控性
字節跳動的智能創作團隊提出了一個從單一主題發展到多主題定制的通用框架UNO,從少到多的泛化:通過情境生成釋放更多可控性。能夠將不同的任務統一在一個模型下。在單主題和多主題驅動的生成中都能實現高度一致性,同時確保可控性。
舉一個例子:上傳一張人物,一身衣服,一個包,UNO就可以生成這個人穿著衣服拿著包的效果圖,效果看起來很真實!
相關鏈接
- 論文:https://arxiv.org/abs/2504.02160
- 主頁:https://bytedance.github.io/UNO/
- 代碼:https://github.com/bytedance/UNO
- ComfyUI:https://github.com/jax-explorer/ComfyUI-UNO
- 試用:https://huggingface.co/spaces/bytedance-research/UNO-FLUX
論文介紹
UNO從少到多的泛化:通過上下文生成釋放更多可控性
盡管由于其廣泛的應用,主題驅動生成已在圖像生成中得到廣泛探索,但它在數據可擴展性和主題擴展性方面仍然存在挑戰。對于第一個挑戰,從策劃單主題數據集轉向多主題數據集并對其進行擴展尤其困難。對于第二個挑戰,大多數最新方法都集中在單主題生成上,這在處理多主題場景時很難應用。在本研究中,我們提出了一種高度一致的數據合成流程來應對這一挑戰。該流程利用擴散變壓器固有的上下文生成功能,生成高一致性的多主題配對數據。此外,我們引入了UNO,它由漸進式跨模態對齊和通用旋轉位置嵌入組成。它是一個由文本到圖像模型迭代訓練而成的多圖像條件主題到圖像模型。大量實驗表明,我們的方法可以在確保單主題和多主題驅動生成的可控性的同時實現高度的一致性。
它是如何工作的?
它為模型引入了兩項關鍵增強功能:漸進式跨模態對齊和通用旋轉位置嵌入(UnoPE)。漸進式跨模態對齊分為兩個階段。在第一階段,我們使用單主體上下文生成的數據將預訓練的T2I模型微調為S2I模型。在第二階段,我們繼續使用生成的多主體數據對進行訓練。UnoPE可以有效地使UNO具備在縮放視覺主體控件時緩解屬性混淆問題的能力。
泛化能力
與最先進的方法的比較
應用場景
結論
本文提出了一種通用定制架構 UNO,它能夠解鎖擴散變換器 (Diffusion Transformer) 的多條件上下文能力。這是通過漸進式跨模態對齊和通用旋轉位置嵌入實現的。UNO 的訓練分為兩個步驟。第一步使用單幅圖像輸入來激發擴散變換器中的主體到圖像能力。下一步是對多主體數據對進行進一步訓練。我們提出的通用旋轉位置嵌入也能顯著提高主體相似度。此外還提出了一種漸進式合成流程,該流程從單主體生成演進到多主體上下文生成。該流程能夠生成高質量的合成數據,有效減少復制粘貼現象。大量實驗表明,UNO 在單主體和多主體定制中均實現了高質量的相似度和可控性。
本文轉載自??AIGC Studio??,作者:AIGC Studio
