字節開源新生圖模型:一個模型統一所有生圖任務,多主體融合效果SOTA?
利用字節團隊魔改的FLUX模型,可以直接把多個參考主體放進一張圖了。
字節團隊以FLUX為基礎模型,提出了新的生圖模型UNO,統一了圖像生成任務中不同輸入條件的處理。
無論是單主體進行風格變換,還是不同物體的融合,UNO都能直接搞定。
字節團隊認為,UNO主要解決的是參考驅動的圖像生成中的兩個主要挑戰——數據可擴展性和主體可擴展性。
傳統方法在從單主體數據集擴展到多主體數據集時面臨困難,且大多數方法僅關注單主體生成,難以應用于多主體場景。
為了解決這一問題,團隊提出了“模型-數據共同進化”的新范式,能夠在增強模型能力的同時,不斷豐富可用的訓練數據。
多主體參考生圖測試中,UNO的DINO和CLIP得分均達到了SOTA水平。
網友評價說,UNO看上去是一個巨大的飛躍,如果真的能搞定多主體參考,將會大幅激發定制化AI智能體的潛力。
另外,團隊還在HuggingFace上提供了在線試玩,但前提是擁有HF的GPU額度。
一個模型搞定單/多主體參考
如開頭所述,UNO將單純的文生圖,以及單/多主體參考這些不同的任務都整合到了一個模型當中。
具體來說,除了直接的文生圖之外,它可以把多張參考圖當中的物體進行組合。
當然三個物體也照樣能很好地組合,官方提供的在線Demo當中最多可以上傳四張參考圖。
也可以對參考主體中的人物特征進行保持,生成不同場景的人物圖像。
同時對于人物而言,也可以在保留基本特征的條件下進行風格轉換,包括被GPT-4o帶火的吉卜力風也能拿捏。
應用場景方面,官方給出了虛擬試穿和產品設計這兩組示例。
對于UNO的單主體生成能力,團隊使用了DreamBench進行了測試,使用了三個主要指標——
DINO分數、CLIP-I分數(這兩個用于評估主體相似度)和CLIP-T分數(用于評估文本忠實度)。
多主體生成測試則采用了一個特別設計的測試集——從DreamBench中選取了30種不同的雙主體組合,包括非生物體和生物體的組合。
最終,UNO的測試成績無論在單主體還是多主體任務中都處于領先水平。
研究團隊還進行了用戶研究,邀請了30位評估者(包括領域專家和非專家)對300個圖像組合進行評估。
結果,UNO在所有評估維度上都獲得了較高評分,特別是在主體相似度和文本忠實度方面的表現最為突出。
此外,團隊還展示了UNO和一些SOTA級模型的效果對比,可以直觀感受一下區別。
模型-數據共同進化
UNO采用了這一種“模型-數據共同進化”的新范式,核心思想是用較弱的模型生成訓練數據,訓練更強的模型。
在模型架構方面,UNO以開源模型FLUX.1 dev為基礎,繼承了其文生圖基礎能力和多模態注意力機制,采用了通用定制化模型框架。
具體來說,該框架采用漸進式跨模態對齊策略,將訓練過程分為兩個連續階段——
- 首先使用單主體數據對預訓練的文生圖(T2I)模型進行微調,使其獲得基本的主體到圖像轉換(S2I)能力;
- 隨后引入多主體數據繼續訓練,增強模型處理復雜場景的能力。
此外研究團隊提出了通用旋轉位置嵌入(UnoPE)技術,通過為文本和圖像標記分配特定的位置索引,來調控多模態標記之間的交互。
UnoPE采用從噪聲圖像標記最大維度開始的對角線位置編碼方式,并通過調整位置索引范圍來防止生成圖像過度依賴參考圖像的空間結構,有效緩解了在擴展視覺主體控制時容易出現的屬性混淆問題。
數據方面,團隊利用Diffusion Transformer固有的上下文生成能力構建了數據合成框架。
團隊首先構建了一個包含365個頂層類別的分類樹,這些類別來自Object365數據集。
在每個類別下,還包含了更細粒度的分類,涵蓋年齡、職業和著裝風格等維度。
然后利用大模型在每個類別中生成豐富多樣的主體和場景描述,這些輸出與預定義的文本模板結合,可以為文生圖模型生成數百萬個文本提示。
最終,研究團隊設計了一個漸進式的合成管道,從單主體生成開始,逐步過渡到多主體上下文生成。
來自字節智能創作團隊
論文顯示,UNO的作者字節智能創作團隊。
據介紹,該團隊是字節的AI&多媒體技術中臺,研究方向包括計算機視覺、音視頻編輯、特效處理等技術。
之前字節提出的用于提升圖像生成模型“美感”的VMix,也是來自智能創作團隊,并且作者與這次的UNO基本相同。
本次UNO的項目負責人是Fei Ding,是Vmix的通訊作者,之前還參與過Realcustom++、Dreamtuner等項目的工作。
UNO的第一作者Shaojin Wu、通訊作者黃夢琪,之前也都參與過Vmix。
黃夢琪目前是中科大博士在讀,2023年起至今一直在字節實習,預計今年畢業,導師是毛震東教授。
另外,字節招聘網站顯示,智能創作團隊目前正在招聘AIGC技術專家、多模態算法專家等崗位。
論文地址:
https://arxiv.org/abs/2504.02160
項目主頁:
https://bytedance.github.io/UNO/