成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

UniReal登場:用視頻架構統一圖像生成與編輯,還學到真實世界動態變化規律

人工智能 新聞
本文中,香港大學與 Adobe 聯合提出名為 UniReal 的全新圖像編輯與生成范式。

論文一作陳汐,現為香港大學三年級博士生,在此之前本科碩士畢業于浙江大學,同時獲得法國馬賽中央理工雙碩士學位。主要研究方向為圖像視頻生成與理解,在領域內頂級期刊會議上發表論文十余篇,并且 GitHub 開源項目獲得超過 5K star.

本文中,香港大學與 Adobe 聯合提出名為 UniReal 的全新圖像編輯與生成范式。該方法將多種圖像任務統一到視頻生成框架中,通過將不同類別和數量的輸入/輸出圖像建模為視頻幀,從大規模真實視頻數據中學習屬性、姿態、光照等多種變化規律,從而實現高保真的生成效果。

  • 論文標題:UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
  • 項目主頁:https://xavierchen34.github.io/UniReal-Page/
  • 論文鏈接:https://arxiv.org/abs/2412.07774

圖片

效果展示 

我們重點展示了圖像生成與編輯中最具挑戰性的三個任務的效果:圖像定制化生成、指令編輯和物體插入

此外,UniReal 還支持多種圖像生成、編輯及感知任務,例如文本生成圖像、可控圖像生成、圖像修復、深度估計和目標分割等。

圖片

在單目標定制化生成任務中,UniReal 能夠在準確保留目標細節(如 logo)的同時,生成具有較大姿態和場景變化的圖像,并自然地模擬物體在不同環境下的狀態,從而實現高質量的生成效果。

圖片

與此同時,UniReal 展現了強大的多目標組合能力,能夠精確建模不同物體之間的交互關系,生成高度協調且逼真的圖像效果。

圖片

值得注意的是,我們并未專門收集人像數據進行訓練,UniReal 仍能夠生成自然且真實的全身像定制化效果,展現了其出色的泛化能力。

圖片

在指令編輯方面,UniReal 支持用戶通過自由輸入文本對圖像進行靈活編輯,例如添加或刪除物體、修改屬性等。實驗結果表明,UniReal 展現出了卓越的場景理解能力,能夠真實地模擬物體的陰影、反射以及前后遮擋關系,生成高度逼真的編輯效果。

圖片

UniReal 支持從圖像中提取特定目標作為前景,插入到背景圖像中,天然適用于虛擬試衣、Logo 遷移、物體傳送等任務。實驗表明,UniReal 插入的目標能夠非常自然地融入背景圖像,呈現出與背景一致的和諧角度、倒影效果及環境匹配度,顯著提升了任務的生成質量。

圖片

除了上述任務外,UniReal 還支持文本生成圖像、可控圖像生成、參考式圖像補全、目標分割、深度估計等多種任務,并能夠同時生成多張圖像。此外,UniReal 支持各類任務的相互組合,從而展現出許多未經過專門訓練的強大能力,進一步證明其通用性和擴展性。

方法介紹

UniReal 的目標是為圖像生成與編輯任務構建一個統一框架。我們觀察到,不同任務通常存在多樣化的輸入輸出圖像種類與數量,以及各自獨特的具體要求。然而,這些任務之間共享一個核心需求:在保持輸入輸出圖像一致性的同時,根據控制信號建模圖像的變化。

這一需求與視頻生成任務有天然的契合性。視頻生成需要同時滿足幀間內容的一致性與運動變化,并能夠支持不同的幀數輸出。受到近期類似 Sora 的視頻生成模型所取得優異效果的啟發,我們提出將不同的圖像生成與編輯任務統一到視頻生成架構中。

此外,考慮到視頻中自然包含真實世界中多樣化的動態變化,我們直接從原始視頻出發,構建大規模訓練數據,使模型能夠學習和模擬真實世界的變化規律,從而實現高保真的生成與編輯效果。

圖片

模型結構:我們借鑒了與 Sora 類似的視頻生成架構,將不同的輸入輸出圖像統一視作視頻幀處理。具體來說,圖像通過 VAE 編碼后被轉換為視覺 token,接著輸入 Transformer 進行處理。與此同時,我們引入了 T5 text encoder 對輸入指令進行編碼,將生成的文本 token 與視覺 token 一同輸入 Transformer。通過使用 full attention 機制,模型能夠充分建模視覺和文本之間的關系,實現跨模態信息的高效融合和綜合理解。這種設計確保了模型在處理多樣化任務時的靈活性和生成效果的一致性。

層級化提示:為了解決不同任務和數據之間的沖突問題,同時支持多樣化的任務與數據,我們提出了一種 Hierarchical Prompt(層級化提示)設計。在傳統提示詞(Prompt)的基礎上,引入了 Context Prompt 和 Image Prompt 兩個新組件。

  • Context Prompt:用于補充描述不同任務和數據集的特性,包括任務目標、數據分特點等背景信息,從而為模型提供更豐富的上下文理解。
  • Image Prompt:對輸入圖像進行層次化劃分,將其分為三類:
  • Asset(前景):需要重點操作或變更的目標區域;
  • Canvas(畫布):作為生成或編輯的背景場景;
  • Control(控制):提供約束或引導的輸入信號,如參考圖像或控制參數。

為每種類別的輸入圖像單獨訓練不同的 embedding,從而幫助模型在聯合訓練中區分輸入圖像的作用和語義,避免不同任務和數據引發的沖突與歧義。

通過這種層級化提示設計,模型能夠更高效地整合多樣化的任務和數據,顯著提升聯合訓練的效果,進一步增強其生成和編輯能力。

圖片

數據構造:我們基于原始視頻數據構建了大規模訓練數據集,以支持多樣化的任務需求。具體步驟如下:

1. 編輯數據生成

從視頻中隨機抽取前后兩幀,分別作為編輯前和編輯后的圖像結果,并借助視覺語言模型(VLM)生成對應的編輯指令,以模擬多樣化的圖像編輯任務。

2. 多目標定制化生成

我們結合 VLM 與 SAM2,在視頻首幀中分割出不同的目標區域,并利用這些目標區域重建后續幀,構造多目標定制化生成的數據。這種方式能夠模擬目標在復雜場景中的動態變化,并為多目標生成任務提供高質量的數據支持。

3. 可控生成與圖像理解標注

利用一系列圖像理解模型(如深度估計模型)對視頻和圖像進行自動打標。這些標簽不僅為可控生成任務(如深度控制生成)提供了豐富的條件信息,還為圖像理解任務(如深度估計、目標分割)提供了標準參考。

通過這種基于原始視頻的多層次數據構造策略,我們的模型能夠學習真實世界中的動態變化規律,同時支持多種復雜的圖像生成與理解任務,顯著提升了數據集的多樣性和模型的泛化能力。

效果對比

指令編輯任務中,UniReal 能夠更好地保持背景像素的一致性,同時完成更具挑戰性的編輯任務。例如,它可以根據用戶指令生成 “螞蟻抬起轎車” 的畫面,并在轎車被抬起后動態調整冰面上的反射,使其與場景的物理變化相一致。這種能力充分展現了 UniReal 在場景理解和細節生成上的強大性能。

圖片

定制化生成任務中,無論是細節的精確保留還是對指令的準確執行,UniReal 都展現出了顯著的優勢。其生成結果不僅能夠忠實還原目標細節,還能靈活響應多樣化的指令需求,體現出卓越的生成能力和任務適應性。

圖片

物體插入任務中,我們與此前的代表性方法 AnyDoor 進行了對比,UniReal 展現出了更強的環境理解能力。例如,它能夠正確模擬狗在水中的姿態,自動調整易拉罐在桌子上的視角,以及精確建模衣服在模特身上的狀態,同時保留模特的頭發細節。這種對場景和物體關系的高度理解,使 UniReal 在生成真實感和一致性上遠超現有方法。

圖片

未來展望 

UniReal 在多個任務中展現了強大的潛力。然而,隨著輸入和輸出圖像數量的進一步擴大,訓練與推理效率問題成為需要解決的關鍵挑戰。為此,我們計劃探索設計更高效的注意力結構,以降低計算成本并提高處理速度。同時,我們還將這一方案進一步擴展到視頻生成與編輯任務中,利用高效的結構應對更復雜的數據規模和動態場景需求,推動模型性能與實用性的全面提升。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-03 10:30:00

2025-03-31 08:46:00

圖像AI生成

2020-10-14 14:18:33

機器學習機器學習架構人工智能

2024-12-20 14:10:00

AI模型訓練

2018-02-25 17:09:30

視頻AI圖像

2025-03-04 09:50:00

2025-04-10 09:10:00

模型AI評測

2024-01-29 07:50:00

AI視頻

2025-06-16 08:51:00

2022-08-29 08:58:49

項目開源組件

2023-05-11 13:55:00

LinuxKdenlive編輯視頻

2024-10-30 14:10:00

圖像生成模型

2009-10-09 23:03:45

2024-05-30 00:00:01

GPT-3.5SOTASDXL

2023-06-19 09:36:16

AI矩陣

2013-07-05 15:04:40

華為統一通信華為

2022-06-10 07:42:37

搜索推薦架構

2025-05-12 14:24:56

生成AI圖像

2019-10-31 14:10:35

大數據人工智能工具

2025-01-17 10:30:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久国产精品无码网站 | 亚洲欧美综合精品另类天天更新 | 成人国产精品久久 | 波多野结衣一区二区 | 国产美女在线观看 | 日本久久久久久 | 九九综合 | 黄色精品| 亚洲国产高清在线观看 | 99久久婷婷国产综合精品电影 | 亚洲伦理自拍 | 在线成人精品视频 | 中文字幕高清视频 | 午夜久久久 | 欧美黄色片在线观看 | 日日天天| 99reav| 2019中文字幕视频 | 国产精品日韩欧美一区二区三区 | 国产精品久久久久久吹潮日韩动画 | 亚洲日本中文 | 97色在线视频 | 日韩欧美精品在线 | 国产激情一区二区三区 | 精品美女久久久 | 国产成人99久久亚洲综合精品 | 激情三区| 国产在线一区二区 | 欧美一区二 | 国产精品海角社区在线观看 | 久色视频在线观看 | 国产成人精品免高潮在线观看 | 欧美激情一区二区 | 青青久久久 | 欧美成人a | 亚洲www.| 成人小视频在线 | 女同久久另类99精品国产 | 国产一区免费视频 | 天天操天天射天天舔 | japan21xxxxhd美女 日本欧美国产在线 |