成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!

發布于 2025-4-11 10:10
瀏覽
0收藏

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!-AI.x社區

文章鏈接:https://huggingface.co/papers/2504.02160 
arXiv鏈接:https://arxiv.org/pdf/2504.02160 
代碼鏈接:https://github.com/bytedance/UNO 
項目網頁:https://bytedance.github.io/UNO/ 

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!-AI.x社區

亮點直擊

  • 提出了模型-數據協同進化范式,突破了傳統定制化圖像生成中數據瓶頸的限制。
  • 開發了漸進式數據生成框架和通用定制化模型UNO,實現了從單主體到多主體的高質量圖像生成。
  • 在多個任務中取得了卓越的性能,包括單主體和多主體驅動的圖像生成,并且能泛化到id、tryon、style等場景

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!-AI.x社區

總結速覽

解決的問題

  • 數據瓶頸:高質量、多視角主體一致的配對數據難以獲取,限制了模型的可擴展性。
  • 主體擴展性:現有方法主要針對單主體生成,難以處理復雜且種類豐富的多主體場景。

提出的方案

  • 提出了模型-數據協同進化范式,通過Text-to-Image(T2I) 模型生成更好的單主體定制化數據,進而訓練更強大的Subject-to-Image(S2I)模型用于生成質量高、種類豐富的多主體數據。
  • 開發了漸進式數據生成框架和通用定制化模型UNO,實現從單主體到多主體的高質量圖像生成。

應用的技術

  • 基于當前最先進的T2I模型FLUX,改進其成支持多條件生成的S2I模型。
  • 漸進式跨模態對齊:通過逐步訓練實現多圖像條件的處理。
  • 通用旋轉位置嵌入(UnoPE):解決多圖像條件下的屬性混淆問題。

達到的效果

  • 在DreamBench和多主體生成基準測試中,UNO在一致性和文本可控性方面均取得了最佳性能。
  • 顯著減少了“復制-粘貼”現象,提高了生成圖像的質量和可控性。
  • 極佳的泛化能力,能覆蓋換裝、人物保持、風格化等個性化生成

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!-AI.x社區

方法

上下文數據生成框架

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!-AI.x社區

  • 單主體配對數據生成:通過預定義的文本模板和LLM構建分類樹,生成多樣化主題和場景描述,利用DiT上下文生成能力直接生成主題一致的圖像對,構建VLM打分器進行過濾
  • 多主體配對數據生成:基于單主體數據訓練的Subject-to-Image(S2I)模型,用開集檢測得到另一新主體反向生成定制化數據,從而構建多主體一致的圖像對,避免“復制-粘貼”問題。

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!-AI.x社區

同時,作者在論文中也做了充足實驗說明了層級數據過濾的重要性和有效性。

漸進式訓練策略

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!-AI.x社區

DiT模型最初是為純T2I設計的,其輸入是文本提示和噪聲圖像的嵌入。然而,當嘗試引入多圖像條件(如參考圖像)時,直接輸入多圖像可能導致模型訓練不穩定或性能下降。這是因為多圖像條件的引入會改變模型的收斂分布,導致模型難以適應復雜的輸入。為了克服這一問題,論文提出了漸進式跨模態對齊的訓練方法,分為兩個階段:

  • 單主題訓練階段(Stage I)
  • 目標:讓模型學會處理單圖像條件的輸入,生成與參考圖像一致的結果。
  • 方法:使用單主體數據對對預訓練的T2I模型進行微調。輸入包括文本提示、噪聲圖像嵌入和單一參考圖像嵌入。
  • 效果:通過這一階段,模型能夠理解如何將參考圖像的信息融入生成過程中,生成與參考圖像一致的單主體圖像。

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!-AI.x社區

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!-AI.x社區

  • 多主題訓練階段(Stage II)
  • 目標:讓模型學會處理多圖像條件的輸入,生成與多個參考圖像一致的結果。
  • 方法:在單主題訓練的基礎上,進一步使用多主體數據對進行訓練。輸入包括文本提示、噪聲圖像嵌入和多個參考圖像嵌入。
  • 效果:通過這一階段,模型能夠處理多個參考圖像的輸入,并生成與所有參考圖像一致的多主題圖像。

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!-AI.x社區

論文通過從簡單到復雜的訓練范式,讓模型能夠逐步適應多圖像條件的輸入,避免直接引入多圖像條件導致的訓練不穩定。

通用旋轉位置嵌入(UnoPE)

在多圖像條件下,DiT需要處理多個參考圖像的嵌入。然而,直接使用原始的位置索引可能導致以下問題:一是空間結構依賴:模型可能過度依賴參考圖像的空間結構(如位置和布局),而忽略文本提示中提供的語義信息;一是屬性混淆:不同參考圖像之間可能存在語義差距,導致模型難以準確生成目標圖像。

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!-AI.x社區

論文提出了通用旋轉位置嵌入(UnoPE),通過調整位置索引的方式,使模型能夠更好地關注文本特征,而不是簡單地復制參考圖像的空間結構。

實驗結果

實驗設置

  • 數據生成:通過漸進式數據生成框架生成了230k單主體數據對和15k多主體數據對。
  • 訓練細節:基于FLUX.1預訓練模型,使用LoRA秩為512進行訓練,總批次為16,學習率為1e-5。
  • 評估指標:使用DINO和CLIP-I分數評估主體一致性,CLIP-T分數評估文本遵循度。

結果

  • 定性指標:UNO在Dreambench單主體和多主體生成中均能保持主體細節和文本指令的一致性,顯著優于其他方法,幾乎做到了對參考圖細節的完美保留。

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!-AI.x社區

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!-AI.x社區

  • 定量指標:在DreamBench數據集上,UNO在單主題生成中取得了最高的DINO(0.760)和CLIP-I(0.835)分數;在多主題生成中,DINO和CLIP-I分數分別為0.542和0.733,成為目前一致性生成的SOTA。

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!-AI.x社區

  • 消融實驗:論文充分驗證了漸進式跨模態對齊和UnoPE與其它變體相比的有效性。移除這些模塊后,性能顯著下降,證明了它們對模型性能的關鍵作用。

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!-AI.x社區

應用案例

UNO還展示了很強的泛化能力,除了應對更為復雜的多圖主體保持場景外,還能涵蓋以往身份保持、換裝、風格化等任務,從而為未來工作提供啟發。

驚艷!單模型統一多圖個性化生成!字節重磅開源UNO, FLUX版訓練、推理、權重全開源!-AI.x社區

結論

論文提出的UNO模型通過模型-數據協同進化范式,突破了數據瓶頸,實現了高質量的單主體和多主體定制化圖像生成。實驗結果表明,UNO在主題相似性和文本可控性方面均達到了最佳性能,具有廣泛的應用潛力,例如虛擬試穿、身份保持和風格化生成等。未來工作將進一步擴展合成數據類型,以解鎖UNO的更多潛力。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/kz04Sbo35iP7wCRpZ6-RnA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲国产精品久久久久婷婷老年 | 黄篇网址 | 欧美日韩国产高清视频 | 国产精品一区二区视频 | 午夜影视网 | 青青草国产在线观看 | 国产精品高潮呻吟久久 | 亚洲成人高清 | 国产免费一区二区 | 337p日本欧洲亚洲大胆精蜜臀 | 免费观看羞羞视频网站 | 国产欧美日韩综合精品一区二区 | 一级毛片在线播放 | 日韩国产在线观看 | 国产激情视频 | 中文字幕在线三区 | 日韩欧美电影在线 | 在线一区 | 密室大逃脱第六季大神版在线观看 | 黑人巨大精品 | 久久精品国产精品青草 | 免费在线观看黄网站 | 麻豆av网站| av天天操| 中文字幕免费视频 | 久在线视频 | 国产电影一区 | 欧美日韩在线一区二区 | 免费毛片在线 | 国产精品久久久久久久久污网站 | 日日操视频| 国产乱码一二三区精品 | 热久久性 | 欧美精品一区在线观看 | 国产精品观看 | 国产一二区视频 | 欧洲av在线| 日韩国产在线 | 日韩二三区 | 精品一二区 | 久久久亚洲成人 |