成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字節開源新生圖模型:一個模型統一所有生圖任務,多主體融合效果SOTA?

人工智能 新聞
字節團隊以FLUX為基礎模型,提出了新的生圖模型UNO,統一了圖像生成任務中不同輸入條件的處理。

利用字節團隊魔改的FLUX模型,可以直接把多個參考主體放進一張圖了。

圖片

字節團隊以FLUX為基礎模型,提出了新的生圖模型UNO,統一了圖像生成任務中不同輸入條件的處理。

無論是單主體進行風格變換,還是不同物體的融合,UNO都能直接搞定。

圖片

字節團隊認為,UNO主要解決的是參考驅動的圖像生成中的兩個主要挑戰——數據可擴展性和主體可擴展性。

傳統方法在從單主體數據集擴展到多主體數據集時面臨困難,且大多數方法僅關注單主體生成,難以應用于多主體場景。

為了解決這一問題,團隊提出了“模型-數據共同進化”的新范式,能夠在增強模型能力的同時,不斷豐富可用的訓練數據。

多主體參考生圖測試中,UNO的DINO和CLIP得分均達到了SOTA水平。

圖片

網友評價說,UNO看上去是一個巨大的飛躍,如果真的能搞定多主體參考,將會大幅激發定制化AI智能體的潛力。

圖片

另外,團隊還在HuggingFace上提供了在線試玩,但前提是擁有HF的GPU額度。

一個模型搞定單/多主體參考

如開頭所述,UNO將單純的文生圖,以及單/多主體參考這些不同的任務都整合到了一個模型當中。

具體來說,除了直接的文生圖之外,它可以把多張參考圖當中的物體進行組合。

圖片

當然三個物體也照樣能很好地組合,官方提供的在線Demo當中最多可以上傳四張參考圖。

圖片

也可以對參考主體中的人物特征進行保持,生成不同場景的人物圖像。

圖片

同時對于人物而言,也可以在保留基本特征的條件下進行風格轉換,包括被GPT-4o帶火的吉卜力風也能拿捏。

圖片

應用場景方面,官方給出了虛擬試穿和產品設計這兩組示例。

圖片

對于UNO的單主體生成能力,團隊使用了DreamBench進行了測試,使用了三個主要指標——

DINO分數、CLIP-I分數(這兩個用于評估主體相似度)和CLIP-T分數(用于評估文本忠實度)。

多主體生成測試則采用了一個特別設計的測試集——從DreamBench中選取了30種不同的雙主體組合,包括非生物體和生物體的組合。

最終,UNO的測試成績無論在單主體還是多主體任務中都處于領先水平。

圖片

研究團隊還進行了用戶研究,邀請了30位評估者(包括領域專家和非專家)對300個圖像組合進行評估。

結果,UNO在所有評估維度上都獲得了較高評分,特別是在主體相似度和文本忠實度方面的表現最為突出。

圖片

此外,團隊還展示了UNO和一些SOTA級模型的效果對比,可以直觀感受一下區別。

圖片圖片

模型-數據共同進化

UNO采用了這一種“模型-數據共同進化”的新范式,核心思想是用較弱的模型生成訓練數據,訓練更強的模型。

在模型架構方面,UNO以開源模型FLUX.1 dev為基礎,繼承了其文生圖基礎能力和多模態注意力機制,采用了通用定制化模型框架。

具體來說,該框架采用漸進式跨模態對齊策略,將訓練過程分為兩個連續階段——

  • 首先使用單主體數據對預訓練的文生圖(T2I)模型進行微調,使其獲得基本的主體到圖像轉換(S2I)能力;
  • 隨后引入多主體數據繼續訓練,增強模型處理復雜場景的能力。

圖片

此外研究團隊提出了通用旋轉位置嵌入(UnoPE)技術,通過為文本和圖像標記分配特定的位置索引,來調控多模態標記之間的交互。

UnoPE采用從噪聲圖像標記最大維度開始的對角線位置編碼方式,并通過調整位置索引范圍來防止生成圖像過度依賴參考圖像的空間結構,有效緩解了在擴展視覺主體控制時容易出現的屬性混淆問題。

圖片

數據方面,團隊利用Diffusion Transformer固有的上下文生成能力構建了數據合成框架。

團隊首先構建了一個包含365個頂層類別的分類樹,這些類別來自Object365數據集。

在每個類別下,還包含了更細粒度的分類,涵蓋年齡、職業和著裝風格等維度。

然后利用大模型在每個類別中生成豐富多樣的主體和場景描述,這些輸出與預定義的文本模板結合,可以為文生圖模型生成數百萬個文本提示。

最終,研究團隊設計了一個漸進式的合成管道,從單主體生成開始,逐步過渡到多主體上下文生成。

圖片

來自字節智能創作團隊

論文顯示,UNO的作者字節智能創作團隊。

據介紹,該團隊是字節的AI&多媒體技術中臺,研究方向包括計算機視覺、音視頻編輯、特效處理等技術。

圖片

之前字節提出的用于提升圖像生成模型“美感”的VMix,也是來自智能創作團隊,并且作者與這次的UNO基本相同。

圖片

本次UNO的項目負責人是Fei Ding,是Vmix的通訊作者,之前還參與過Realcustom++、Dreamtuner等項目的工作。

圖片

UNO的第一作者Shaojin Wu、通訊作者黃夢琪,之前也都參與過Vmix。

黃夢琪目前是中科大博士在讀,2023年起至今一直在字節實習,預計今年畢業,導師是毛震東教授。

另外,字節招聘網站顯示,智能創作團隊目前正在招聘AIGC技術專家、多模態算法專家等崗位。

圖片

論文地址:
https://arxiv.org/abs/2504.02160
項目主頁:
https://bytedance.github.io/UNO/

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-05-18 14:08:31

AI開源

2022-05-06 12:13:55

模型AI

2023-06-06 14:09:32

模型開源

2023-10-07 09:29:09

2025-05-14 08:51:00

2025-04-27 08:30:00

2023-09-07 20:33:08

2022-05-19 19:11:07

微軟Windows 11

2024-11-01 10:16:09

API開源項目

2022-12-05 10:08:59

2025-02-12 10:20:00

2024-04-08 12:19:19

AI數據

2021-09-06 16:26:44

數字化

2025-05-15 14:37:17

AI生成模型

2012-07-04 17:11:28

微軟操作系統

2021-12-23 10:00:38

谷歌訓練技術

2024-12-23 14:10:00

AI模型數據

2025-01-06 10:00:00

模型視覺生成

2024-04-11 08:00:00

人工智能機器學習

2025-05-27 15:59:41

AI工具模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产小视频在线 | 日韩中文字幕在线观看 | 国产精品1区2区3区 男女啪啪高潮无遮挡免费动态 | 国产亚洲精品精品国产亚洲综合 | 第四色影音先锋 | 中文字幕福利 | 欧美日韩福利视频 | 久久久久久国产精品免费免费 | 欧美视频一区 | 色婷婷久久综合 | 日韩在线视频精品 | 亚洲精品一区在线 | 国产一区| 国产精品成人品 | 午夜精品一区二区三区在线视频 | 天天操天天射天天舔 | 色婷婷一区二区三区四区 | 久久av在线播放 | 91视频网址 | 色视频网站在线观看 | 亚洲一区久久 | 色婷婷av99xx | 日韩欧美一区在线 | 妞干网av | 四虎影院在线观看免费视频 | 精品中文字幕久久 | 久久精彩视频 | 一区二区在线免费观看 | 欧美一区二区三区在线观看 | 亚洲国产精品久久久久久 | 不卡一二三区 | 国产精品亚洲成在人线 | 中文字幕一区二区三区四区五区 | 国产精品美女久久久久久久久久久 | 中文在线一区二区 | 日韩精品一区二区三区 | 一级一片在线观看 | 秋霞精品 | 亚洲日本免费 | 网站黄色在线免费观看 | 日韩精品无码一区二区三区 |