成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字節視頻生成新突破!Phantom搞定多人物/主體一致性

人工智能 新聞
Phantom在主體一致性保持方面取得了突破性進展,不僅支持多主體,還能同時保持主體的完整性。

視頻生成模型當中已經不缺強者了,但保持多主體一致性依然是一項重大挑戰。

字節智能創作團隊專門針對這個問題,推出了主體一致性視頻生成模型Phantom(“幻影”)。

Phantom在主體一致性保持方面取得了突破性進展,不僅支持多主體,還能同時保持主體的完整性。

圖片

無論是人物、物品、服裝、動物,還是充滿奇幻色彩的虛擬角色,它都能精準抓取其關鍵特征,并自然地融入生成的視頻中。

比如下面這段視頻當中,“幻影”就結合了場景、服裝、配飾等要素,原創出了“歌劇魅影”的片段:

精準抓取關鍵特征,視頻融合更自然

身份保持視頻生成

借助面部參考圖像,Phantom生成的視頻不僅能嚴格鎖定主體的身份特征,還能依據豐富多樣的提示詞,演繹出各種精彩內容。

例如,上傳一張人物照片,模型會以此為藍本,生成該人物在不同場景下說話、行動的視頻。

人物的面部輪廓、五官細節以及獨特的表情神態,都能被高度還原,仿佛照片中的人物“活”了過來,在屏幕上真實地演繹著各種故事。

單參考主體視頻生成

只需一張參考圖像,無論是可愛小動物的萌態瞬間,還是時尚服裝的獨特魅力,亦或是神秘虛擬角色的奇幻冒險,Phantom都能精準捕捉主體的細節,將其生動地呈現在視頻中。

還有下面的小狗照片,Phantom可以呈現它在溫馨的房間里歡快奔跑的可愛模樣,柔軟的毛發、靈動的眼神和俏皮的神態,都被細膩地刻畫出來,讓人仿佛能感受到活潑與快樂。

多參考主體視頻生成

Phantom支持同時上傳多張參考圖像,這一強大功能使得復雜交互場景的視頻生成成為可能。

在群體場景創作中,只需上傳多個人物的照片,就能讓他們在視頻中自然地聊天。

在一些產品展示的場景,結合產品圖片和相關場景圖片,Phantom能生成非常具有吸引力的產品展示視頻,將產品的特點和優勢完美呈現,為產品推廣注入強大動力。

虛擬試穿場景,只需上傳服裝和人物照片,就能看到人物身著該服裝的動態效果,這有望為電商行業帶來全新的營銷模式,讓消費者的購物體驗更加直觀和有趣。

總之,Phantom在和一眾領先的商業化工具對比中,從視頻質量,文本響應,主體一致性等多個維度處于優勢,尤其在人臉ID一致性方面的評估領先。

圖片

圖片

基于主體的DiT視頻生成方案

目前,基礎視頻生成模型主要集中在兩個主要任務——文本生成視頻(Text-to-Video,T2V)和圖像生成視頻(Image-to-Video,I2V)。

視頻生成T2V利用語言模型來理解輸入文本指令,并生成描述預期角色、動作和背景的視覺內容。

盡管它允許創造性和富有想象力的內容組合,但由于固有的隨機性,往往難以生成一直符合預期的結果。

另一方面,I2V通常是提供圖像的首幀以及可選的文本描述,以將靜態圖像轉化為動態視頻。

雖然更具可控性,但內容的豐富度往往受到首幀“復制粘貼”性質的限制。通過從圖像中捕捉主體并根據文本提示靈活生成視頻。

Phantom是一個基于DiT的視頻生成框架,它的主要意圖是實現主體到視頻的生成(Subject-to-video,S2V)。

其本質在于平衡文本和圖像這兩種模式的提示,要求模型同時對齊文本指令和參考圖像內容。

從而既滿足T2V所發揮創造性的優勢,又不像I2V生成的視頻限制為輸入圖的延展。

圖片

具體來說,數據層面Phantom通過構建文本-圖片-視頻三元組數據,讓模型學習不同模態之間的對齊。

為了緩解類似I2V生成視頻“復制粘貼”輸入圖的問題,通過匹配不同視頻中的主體元素,并過濾掉具有高度視覺相似性的對象來構建交叉配對數據。

交叉配對數據可以來自同一長視頻的不同片段,也可以來自數據庫中檢索參考對象。這些主體元素主要包括人、動物、物體、背景等等。

此外,多個元素之間的交互可以進一步對場景進行分類,例如多人交互、人與寵物交互、人與物體交互。

模型層面,Phantom繼承自MMDiT的架構。

在輸入頭部分,視頻編碼器和文本編碼器分別繼承自基模權重,將輸入視頻和文本prompt分別編碼得到相應的latent feature。

為了不影響MMDiT本身的結構,參考圖被特定視覺編碼器編碼,然后分別與視頻特征和文本特征拼接,并分別輸入到MMDiT的vision branch和text branch進行計算。

團隊簡介

智能創作團隊是字節跳動AI&多媒體技術中臺,通過建設領先的計算機視覺、音視頻編輯、特效處理等技術,支持抖音、剪映、即夢等公司內眾多產品線;

同時通過火山引擎為外部ToB合作伙伴提供業界最前沿的智能創作能力與行業解決方案。

文中示例僅為展示模型效果。如有侵權或冒犯,請聯系論文作者,將及時刪除。
E-mail:libingchuan@bytedance.com

論文鏈接:
https://arxiv.org/abs/2502.11079項目網站:
https://phantom-video.github.io/Phantom/
代碼網址:
https://github.com/Phantom-video/Phantom

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-05-06 09:41:06

2024-01-22 08:59:00

AI

2024-11-26 17:56:38

2017-07-25 14:38:56

數據庫一致性非鎖定讀一致性鎖定讀

2022-12-14 08:23:30

2021-02-05 08:00:48

哈希算法?機器

2021-02-02 12:40:50

哈希算法數據

2024-09-24 15:51:02

2025-05-09 12:39:08

2024-12-05 14:20:00

模型AI

2020-11-24 09:03:41

一致性MySQLMVCC

2020-05-12 10:43:22

Redis緩存數據庫

2021-06-30 21:13:49

CPUCache數據

2022-10-19 12:22:53

并發扣款一致性

2022-03-22 09:54:22

Hash算法

2025-03-20 09:20:00

2021-02-04 06:30:26

Python編程語言

2020-03-16 11:55:28

PaxosRaft協議

2017-05-19 15:00:05

session架構web-server
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品国产一区一区二区三亚瑟 | 麻豆精品久久 | 亚洲欧美视频在线观看 | 黄色小视频大全 | 在线欧美一区二区 | 亚洲福利视频网 | 成人久久久 | 性色av香蕉一区二区 | 91精品国产乱码久久久久久久久 | 国产成人一区二区三区精 | 人干人人 | 日韩成人高清 | 午夜爱爱网 | 五月激情婷婷在线 | 国产精品 欧美精品 | 国产午夜影院 | 日本a在线 | 午夜性色a√在线视频观看9 | 91精品国产综合久久香蕉922 | 国产精品国产成人国产三级 | 国产一区高清 | 日韩一级一区 | 久久99深爱久久99精品 | 日本成人中文字幕 | 中文字幕一区二区视频 | 一级黄a视频 | 日韩在线观看网站 | 欧洲免费毛片 | 有码在线| 亚洲啊v在线 | 一级黄色片免费在线观看 | 国产精品免费一区二区三区 | 亚洲精品视频在线看 | 精品在线一区 | 国产精品免费一区二区三区 | 亚洲精品在线国产 | 在线视频h | 久艹av| 国产精品不卡视频 | 亚洲国产精品99久久久久久久久 | 黑人一级黄色大片 |