碾壓開源與商業模型!騰訊開源一致性視頻生成框架HunyuanCustom:可同時實現音頻同步與視頻編輯!
騰訊提出了一個多模態定制視頻生成框架HunyuanCustom,該框架強調主題一致性,同時支持圖像、音頻、視頻和文本條件。基于HunyuanVideo,該模型首先通過引入基于LLaVA的文本圖像融合模塊來增強多模態理解,以及利用時間連接來增強跨幀身份特征的圖像ID增強模塊,從而解決了圖像文本條件生成任務。
單主題視頻定制
一致性故事生成
與最先進的方法的比較
多主題視頻定制
多主題定制
音頻驅動的視頻定制
HunyuanCustom 首次實現了音頻驅動的人物自定義功能,角色會在帶有文字描述的場景中朗讀相應的音頻,從而實現更加靈活可控的音頻驅動人物動畫。
視頻驅動的視頻定制
基于主題定制,HunyuanCustom 還支持使用視頻作為輸入,替換或添加指定的對象。具體來說,給定一段包含指定動作和環境的視頻,再給定一張包含指定 ID 信息的圖片,HunyuanCustom 可以將視頻中的指定對象替換為圖片中指定的 ID。
相關鏈接
- ? 論文: https://arxiv.org/pdf/2505.04512
- ? 項目: https://hunyuancustom.github.io/
- ? 代碼: https://github.com/Tencent/HunyuanCustom
- ? 體驗: https://hunyuan.tencent.com/modelSquare/home/play?modelId=192
論文介紹
定制視頻生成旨在在用戶靈活定義的條件下生成以特定主題為特色的視頻,但現有方法往往難以應對身份一致性和有限的輸入模態。論文提出了 HunyuanCustom,這是一個多模態定制視頻生成框架,它強調主題一致性,同時支持圖像、音頻、視頻和文本條件。
基于 HunyuanVideo,模型首先解決了圖文條件生成任務,引入了一個基于 LLaVA 的文本-圖像融合模塊,以增強多模態理解;以及一個圖像 ID 增強模塊,利用時間串聯來增強跨幀的身份特征。為了實現音頻和視頻條件生成,我們進一步提出了特定于模態的條件注入機制:一個 AudioNet 模塊,通過空間交叉注意力機制實現分層對齊;以及一個視頻驅動注入模塊,通過基于 patchify 的特征對齊網絡集成潛在壓縮的條件視頻。在單主題和多主題場景下進行的大量實驗表明,HunyuanCustom 在身份一致性、真實感和文本-視頻對齊方面顯著優于最先進的開源和閉源方法。此外,論文還驗證了其在下游任務(包括音頻和視頻驅動的定制視頻生成)中的穩健性。結果凸顯了多模態條件反射和身份保持策略在推進可控視頻生成方面的有效性。
基于渾元視頻生成框架,提出了一個以主體一致性為中心的多模態、條件可控的生成模型——渾元定制 (HunyuanCustom)。該模型能夠生成以文本、圖像、音頻和視頻為條件、主體一致性的視頻。具體而言,渾元定制引入了基于 LLaVA 的圖文融合模塊,以促進圖像與文本的交互,從而將圖像中的身份信息有效地融入文本描述中。此外,我們還提出了一個圖像身份增強模塊,該模塊沿時間軸串聯圖像信息,并利用視頻模型高效的時間建模能力,增強整個視頻中的主體身份。為了支持音頻和視頻的條件注入,渾元定制為每個模態設計了不同的注入機制,并與身份條件模塊有效分離。渾元定制最終實現了對圖像、音頻和視頻條件的解耦控制,在以主體為中心的多模態視頻生成中展現出巨大的潛力。
數據構建流程
實驗結果
結論
論文提出了一種新穎的多模態定制視頻生成模型 HunyuanCustom,該模型解決了主題一致性視頻生成的關鍵挑戰,并實現了以身份為中心的多模態視頻定制。通過將圖像、音頻和視頻模態與文本驅動的調節機制相結合,HunyuanCustom 提供了一個強大的框架,用于生成具有精確身份一致性的高質量視頻。模型集成了文本-圖像融合模塊、圖像 ID 增強模塊以及高效的音頻和視頻特征注入流程,確保生成的視頻符合用戶的特定需求,兼具高保真度和靈活性。通過大量實驗證明了 HunyuanCustom 在單主題和多主題生成、音頻驅動和視頻驅動的視頻定制等各種任務中均優于現有方法。結果顯示,HunyuanCustom 在 ID 一致性、真實性和視頻文本對齊方面表現出色,使其成為可控視頻定制的領先解決方案。
本文轉載自??AIGC Studio??,作者:AIGC Studio
