優于所有開源和商業模型!首個圖文聲影四模態定制視頻生成器HunyuanCustom震撼發布!
文章鏈接:https://arxiv.org/pdf/2505.04512
項目鏈接:https://hunyuancustom.github.io/
亮點直擊
- 多模態條件融合: 首次實現圖像、音頻、視頻、文本四模態聯合驅動的定制視頻生成,突破傳統單模態(如圖像)限制。
- 身份一致性強化: 通過時序拼接和跨幀特征增強,顯著提升生成視頻中主題的ID一致性,優于開源和商業模型。
- 模塊化條件注入: 提出AudioNet和視頻Patchify對齊等獨立模塊,實現多模態條件的高效解耦與融合,兼顧靈活性與性能。
效果速覽
總結速覽
解決的問題
- 身份一致性不足:現有視頻生成方法在生成特定主題視頻時難以保持身份(ID)一致性。
- 輸入模態單一:多數方法僅支持圖像驅動,缺乏對多模態(如音頻、視頻、文本)條件的靈活支持。
- 可控性受限:現有模型在細粒度定制(如多主題生成、多模態對齊)上表現不佳,限制了實際應用。
提出的方案
基于HunyuanVideo的多模態定制視頻生成框架,支持圖像、音頻、視頻和文本條件輸入。
- 文本-圖像融合模塊:基于LLaVA實現多模態理解,增強文本與圖像的交互。
- 圖像ID增強模塊:通過時序拼接強化跨幀身份特征。
- 多模態條件注入機制:
- AudioNet:通過空間交叉注意力實現分層音頻-視頻對齊。
- 視頻驅動模塊:通過隱空間壓縮和特征對齊網絡整合條件視頻。
應用的技術
- 多模態理解:LLaVA-based文本-圖像融合模塊。
- 時序建模:圖像ID增強模塊利用視頻模型的時間序列信息傳輸能力。
- 跨模態對齊:
- 音頻-視頻:AudioNet的層級特征對齊。
- 視頻-隱空間:基于VAE的壓縮和Patchify特征對齊網絡。
達到的效果
- 身份一致性:在單主題和多主題場景中均顯著優于現有方法(如ConsisID、VACE等)。
- 多模態支持:支持圖像、音頻、視頻、文本的靈活組合輸入,生成高質量視頻。
- 下游任務魯棒性:在音頻驅動、視頻驅動等任務中表現優異,適用于廣告、虛擬試穿等實際場景。
方法
概述
HunyuanCustom是一個以主體一致性為核心的多模態定制生成模型,基于Hunyuan視頻生成框架構建。如下圖2所示,它能夠根據文本、圖像、音頻和視頻輸入生成主體一致的視頻。具體而言,HunyuanCustom引入了基于LLaVA的圖像-文本融合模塊,促進圖像與文本的交互,使圖像中的身份信息能有效融入文本描述。此外,還提出了身份增強模塊,該模塊沿時間軸拼接圖像信息,并利用視頻模型的高效時序建模能力來增強視頻中的主體身份。為支持音頻和視頻的條件注入,HunyuanCustom為每種模態設計了獨立的注入機制,這些機制與圖像級身份條件模塊有效解耦。最終,HunyuanCustom實現了對圖像、音頻和視頻條件的解耦控制,在面向主體的多模態視頻定制中展現出巨大潛力。
多模態任務
HunyuanCustom支持來自文本、圖像、音頻和視頻的條件輸入。所有任務均建立在生成ID一致性視頻的能力基礎上。任務可分為以下4類:
- 文本驅動視頻生成:文本到視頻的生成能力源自基礎模型HunyuanVideo,支持生成與給定文本提示對齊的視頻;
- 圖像驅動視頻定制:HunyuanCustom的核心能力是接收輸入圖像、提取身份信息,并在文本描述引導下生成與該身份對應的視頻,從而實現定制化視頻生成。HunyuanCustom同時支持人類和非人類身份,并進一步允許多身份輸入,實現多主體交互生成;
- 音頻驅動視頻定制:在主體定制基礎上,HunyuanCustom將音頻作為附加模態。給定人類身份、文本提示和對應音頻,系統可使主體在文本描述的上下文中執行與音頻同步的動作(如說話、演奏、唱歌)。這通過允許指定身份在任意場景和動作中自由表現,顯著增強了可控性,擴展了傳統音頻驅動的人體動畫;
- 視頻驅動視頻定制:HunyuanCustom還支持視頻到視頻生成,通過基于身份定制的對象替換或插入實現。給定源視頻和指定目標身份的圖像,系統可將視頻中的對象替換為指定身份。此外,它還能根據文本引導將身份插入背景視頻,實現靈活的對象添加。
多模態數據構建
本文的數據經過嚴格的處理流程,以確保高質量的輸入從而提升模型性能。實驗結果表明,高質量數據在主體一致性、視頻編輯和音頻驅動視頻生成等任務中起著關鍵作用。雖然不同任務可能遵循各自特定的數據處理步驟,但初始處理階段是共通的,關鍵差異在于后續步驟。鑒于此,本節將深入探討視頻數據準備的詳細方法,重點關注共享的預處理技術以及為不同任務設計的特定后處理方案。
本文的數據來源多樣,為確保嚴格遵守《通用數據保護條例》(GDPR)框架的原則,我們采用數據合成和隱私保護計算技術來規范數據收集過程。原始數據涵蓋廣泛領域,主要包括八大類別:人類、動物、植物、景觀、車輛、物體、建筑和動漫。除自行收集的數據外,我們還嚴格篩選并處理了開源數據集(如OpenHumanvid),顯著擴展了數據分布的多樣性并提升了模型性能。實驗結果證實,引入高標準數據對實現模型性能的顯著提升至關重要。
數據過濾與預處理。由于我們的數據集分布廣泛且包含開源數據,視頻的時長、分辨率和質量存在顯著差異。為解決這些問題,本文實施了一系列預處理技術。首先,為避免訓練數據中的轉場,使用PySceneDetect將原始視頻分割為單鏡頭片段。針對視頻中的文本區域,采用textbpn-plus-plus過濾掉文本過多的片段,并裁剪包含字幕、水印和標識的視頻。由于視頻尺寸和時長分布不均,進行了裁剪和對齊,將短邊標準化為512或720像素,并將視頻長度限制為5秒(129幀)。最后,考慮到PySceneDetect無法檢測漸變轉場且textbpn-plus-plus對小文本檢測能力有限,同時為確保美學質量、運動幅度和場景亮度,使用koala-36M模型進一步優化。然而,由于koala-36M的訓練數據與我們的數據集存在差異,且其缺乏對美學質量和運動幅度的細粒度評估,我們建立了自己的評估標準,針對數據集設定0.06的koala閾值以進行精細過濾。實驗結果證實了我們的數據選擇和處理方法對提升模型性能的重要性。
主體提取
單主體提取:為從視頻中提取主要主體,首先使用Qwen7B模型標注每幀中的所有主體并提取其ID。隨后,采用聚類算法(如并查集)計算每個ID在幀中的出現頻率,選擇出現次數最多的ID作為目標主體。必要時可選擇多個ID;但如果所有ID的出現次數均低于預設閾值(如50幀),則丟棄該視頻。接著,我們使用YOLO11X進行人體分割以獲取邊界框,并利用InsightFace檢測人臉位置并生成人臉邊界框。若人臉邊界框在人體邊界框中的占比小于0.5,則認為YOLO11X的檢測結果有誤,并丟棄相應邊界框。
非人類主體提取:對于非人類主體,使用QwenVL從視頻中提取主體關鍵詞,并采用GroundingSAM2基于這些關鍵詞生成掩碼和邊界框。若邊界框尺寸小于源視頻尺寸的0.3倍,則將其丟棄。為確保訓練數據的類別分布均衡,我們使用QwenVL將主體分類為八大預定義類別之一:動物、植物、景觀、車輛、物體、建筑和動漫,隨后對這些類別進行平衡采樣以實現公平分布。
多主體提取:針對多主體場景,使用QwenVL從單人數據集中篩選涉及人與物體交互的視頻。由于需要將視頻描述中的主體關鍵詞與圖像中的關鍵詞對齊,直接使用QwenVL重新提取主體關鍵詞可能導致與視頻提示中的關鍵詞錯位。因此,采用Florence2提取視頻描述中所有提及主體的邊界框,隨后使用GroundingSAM2對這些邊界框區域進行主體提取。接著應用聚類算法移除不包含所有主體的幀。為解決硬拷貝問題,使用視頻前5秒進行模型訓練,后續15秒用于主體分割。
視頻分辨率標準化。首先基于所有主體邊界框計算聯合邊界框,并確保裁剪區域至少包含聯合邊界框面積的70%。為使模型支持多分辨率輸出,本文定義了多種寬高比,包括1:1、3:4和9:16。
視頻標注。本文采用HunYuan團隊開發的結構化視頻標注模型對視頻進行標注。該模型提供詳細的描述信息,包括視頻的長描述、短描述、背景風格和鏡頭運動描述。在訓練過程中,這些結構化標注用于增強視頻描述,從而提升模型的魯棒性和性能。
掩碼數據增強。在視頻編輯中,直接使用提取的主體掩碼進行訓練可能導致對不同類型或形狀的物體替換過擬合。例如,將無耳朵的玩偶替換為有耳朵的玩偶時,生成的視頻可能仍顯示無耳朵的玩偶,這與預期結果不符。因此,在訓練過程中,我們采用掩碼膨脹或將掩碼轉換為邊界框等技術以軟化掩碼邊界。這些方法有助于在最終視頻中實現更真實且符合預期的編輯效果。通過此類增強策略,我們旨在緩解過擬合問題,并確保編輯后的視頻更貼近預期。這一方法提升了模型在不同物體類型和形狀上的靈活性與適用性。
音頻數據處理。首先,利用LatentSync評估片段中音頻與視頻的同步性。丟棄同步置信度分數低于3的視頻,并將音視頻偏移調整為零。同時,計算hyperIQA質量分數,并移除分數低于40的視頻以確保數據高質量。最后,使用Whisper提取音頻特征,這些特征將作為后續模型訓練的輸入。
圖像驅動的視頻定制
HunyuanCustom的核心任務是基于輸入圖像I(代表特定身份)和文本描述T生成視頻。關鍵挑戰在于使模型有效理解圖像中嵌入的身份信息,并將其與文本上下文結合以實現交互式理解。為此,HunyuanCustom引入了基于LLaVA的文本-圖像交互模塊,促進視覺與文本輸入的聯合建模,從而增強模型對身份及伴隨描述的理解。此外,還引入了身份增強模塊,將圖像衍生的特征沿視頻序列傳播,利用視頻模型的時序建模能力強化生成視頻中的身份一致性。
基于LLaVA的文本-圖像交互。在視頻定制任務中,有效整合圖像-文本信息是此前定制方法的關鍵難點。這些方法要么缺乏對圖像與文本交互理解的設計,要么依賴額外訓練的分支網絡實現交互。HunyuanCustom利用Hunyuan Video在LLaVA文本空間中訓練的文本理解能力,結合LLaVA固有的多模態交互理解能力,通過將HunyuanVideo的原始文本輸入擴展為圖像與文本雙輸入,基于LLaVA出色的多模態理解能力實現有效的圖文交互理解。
身份增強。LLaVA模型作為多模態理解框架,旨在捕捉文本與圖像的相關性,主要提取類別、顏色、形狀等高層次語義信息,但常忽略文本、紋理等細節。然而在視頻定制中,身份高度依賴這些圖像細節,僅靠LLaVA分支難以保持身份一致性。為此,我們提出身份增強模塊:通過在時間軸上拼接視頻隱變量與目標圖像,并利用視頻模型在時間維度的高效信息傳遞能力,有效增強視頻身份一致性。
模型能力擴展
為使模型具備更廣泛的表征能力并學習更復雜的模式,我們對預訓練視頻生成模型和LLaVA模型的權重進行全參數微調,充分釋放其潛力以提供更優的視頻定制效果。
多模態主體中心視頻生成
現有視頻定制方法主要聚焦主體身份保持,缺乏對主體驅動生成的深入探索。我們進一步研究以多模態音視頻信息為條件、圍繞主體身份實現圖像-音頻-視頻聯合驅動的特定主體生成。
音頻驅動視頻定制
音頻是視頻生成不可或缺的組成部分。現有音頻驅動人體動畫模型通常以人物圖像和音頻為輸入,使圖像人物說出對應語音。但這種圖像-視頻范式導致生成視頻中人物的姿勢、服飾和場景與輸入圖像完全一致。借助HunyuanCustom對角色身份信息的有效捕獲與保持,我們整合音頻輸入實現文本描述場景中角色說話的視頻生成,稱為音頻驅動視頻定制。
視頻驅動視頻定制
實際視頻創作中,編輯常涉及修改視頻主體的外觀與運動,這與HunyuanCustom的主體生成能力天然契合。視頻蘊含豐富的時空信息,對內容提取與生成模型集成提出雙重挑戰。現有方法如VACE通過適配器模塊注入視頻條件,導致計算成本翻倍;而[Bai et al., 2025a]將條件視頻與生成片段隱變量沿時間軸拼接,引發序列長度倍增與注意力計算平方增長。HunyuanCustom采用更高效的視頻條件注入策略:先通過預訓練因果3D-VAE壓縮條件視頻,經特征對齊后直接加至噪聲視頻隱變量,實現高效視頻條件融合。
視頻隱變量特征對齊
條件視頻作為無噪聲輸入,其特征通過預訓練因果3D-VAE編碼器提取,經HunyuanVideo視頻分詞器壓縮序列化后,由四層全連接網絡映射至隱空間,與噪聲視頻隱變量對齊。
身份解耦視頻條件注入
我們探索兩種注入策略:(1) 沿token維度拼接條件視頻特征與視頻隱變量后降維;(2) 沿時間軸逐幀直接相加。實驗表明加法策略能更有效保留內容信息。得益于特征對齊預處理,條件視頻特征與視頻隱變量高度匹配,支持輕量化高效注入。
實驗
實現細節
評估指標
- 身份一致性:使用Arcface計算參考人臉與生成視頻各幀嵌入的平均余弦相似度
- 主體相似度:通過YOLOv11檢測人體區域,計算DINO-v2特征相似度
- 文本-視頻對齊:采用CLIP-B評估文本提示與生成視頻的匹配度
- 時序一致性:基于VBench,用CLIP-B計算幀間相似度
- 動態程度:參照VBench計算物體運動量
單主體視頻定制對比實驗
基線方法
與當前最優視頻定制方法對比,包括商業產品(Vidu 2.0、Keling 1.6、Pika、Hailuo)和開源方法(Skyreels-A2、VACE)。每組生成100個人類身份視頻和100個非人類身份視頻以全面評估方法通用性。
定性對比
下圖4-5顯示:Vidu、Skyreels A2與我們的方法在提示對齊和主體一致性上表現較好,但得益于基礎模型Hunyuanvideo-13B的優異生成能力,我們的視頻質量更優。商業產品中,Keling存在首幀復制粘貼(圖4第2行)和主體移動模糊問題(圖5第2行);Pika一致性差且易出現字幕異常;Hailuo僅能保持面部ID一致性。開源方法VACE無法保持ID一致性(圖4第7行)。HunyuanCustom在保持身份一致性的同時兼具高質量與多樣性。
定量對比
多主體視頻定制實驗與應用
定性對比
下圖6顯示:Pika存在主體消失(男子)或動作失敗(女子開門)問題;Vidu 與VACE丟失非人類物體細節;SkyReels A2幀不穩定且出現芯片變形。HunyuanCustom能同時保持人類與非人類主體身份,生成符合提示的高質量穩定視頻。
虛擬人廣告應用
虛擬人體廣告。利用我們的多主題定制能力,混元定制技術實現了以前方法無法實現的應用。一個重要的應用是虛擬人體廣告,混元定制技術將人體圖像和產品圖像作為輸入,生成相應的廣告視頻。結果如下圖 7 所示,表明混元定制技術有效地保持了人體的身份,同時保留了目標產品的細節,包括其上的文字。此外,人與產品之間的互動看起來很自然,視頻緊密地遵循給定的提示,突出了混元定制技術在生成廣告視頻方面的巨大潛力。
音頻驅動視頻定制化實驗
音頻驅動的單主體定制。現有音頻驅動人體動畫方法需輸入人物圖像和音頻,生成視頻中人物的姿態、服飾及環境均與輸入圖像保持一致,無法生成其他姿態和場景的視頻,限制了應用范圍。相比之下,我們的HunyuanCustom支持音頻驅動的人物定制,能夠根據文本描述的場景和姿態生成人物口型與輸入音頻同步的視頻,實現更靈活可控的音頻驅動人體動畫。如下圖8所示,HunyuanCustom生成的視頻既嚴格遵循文本提示,又完美保持人物身份特征。該系統可有效實現與其他物體(第3-4行)或人類(第5-6行)的交互,這一特性將顯著提升其在直播和廣告領域的應用價值。此外,模型能生成多樣化場景和姿態的視頻:例如明朝背景場景(第7行)中人物自動穿著符合時代特征的服飾而無需顯式提示,第8行則展示了與輸入圖像神態迥異但生動逼真的女性表情。這證明了HunyuanCustom強大的世界建模和泛化能力。綜上,音頻驅動HunyuanCustom可在保持身份特征的前提下,根據文本提示生成涵蓋多樣場景和姿態的高差異化視頻。
音頻驅動虛擬試穿。基于其多主體定制能力,HunyuanCustom還支持音頻驅動的多主體視頻定制,具有廣泛的應用前景。本文進一步探索其在文本和音頻雙驅動下的虛擬試穿生成能力。下圖9結果顯示,該系統成功將虛擬試穿與音頻驅動視頻生成相結合,在自然呈現指定服飾的同時完美保持目標人物身份特征,并與給定音頻實現生動口型同步,彰顯了其多模態視頻定制能力的優越性。
視頻驅動視頻定制化實驗
視頻主體替換。依托強大的主體一致性保持能力,HunyuanCustom還支持視頻驅動的視頻編輯,可應用于多種場景。我們在視頻主體替換任務上對比了HunyuanCustom與VACE和Keling的性能,該任務需要輸入源視頻、指定替換區域的物體掩碼以及目標主體圖像。如下圖10所示,VACE因嚴格遵循輸入掩碼導致邊界偽影,使得主體形狀不自然且運動連續性斷裂;Keling則呈現"復制-粘貼"效應,主體直接疊加在視頻上導致背景融合生硬。相較之下,HunyuanCustom有效避免了邊界偽影,實現與視頻背景的無縫融合,并保持優異的主體身份特征——這證明了其在視頻編輯任務中的卓越性能。
消融實驗
本文在主體定制任務上進行了消融研究,對比三個變體模型:(1)去除LLaVA的模型;(2)去除身份增強模塊的模型;(3)采用通道級拼接而非時序拼接進行身份增強的模型。下圖11結果顯示,去除LLaVA的模型身份保持能力顯著下降,表明LLaVA不僅傳遞提示信息,更能提取關鍵身份特征——該變體完全未能捕獲目標圖像的重要細節。保留LLaVA但去除身份增強的模型雖能捕捉全局身份信息,卻丟失細節特征,印證了身份增強模塊對細節優化的有效性。最后,采用通道拼接替代時序拼接的模型生成質量較差:雖能保持身份特征,但初始幀存在嚴重模糊效應(與Vidu的結果類似),這說明時序拼接能通過強時序建模先驗有效捕獲目標信息,同時最小化對生成質量的影響。綜上,我們的模型在確保高生成質量的同時,成功捕獲全局和局部身份細節,充分驗證了設計有效性。
結論
本研究提出HunyuanCustom——一種新型多模態定制視頻生成模型,攻克了主體一致性視頻生成的關鍵技術難題,實現了以身份特征為核心的多模態視頻定制。通過將圖像、音頻和視頻模態與文本驅動條件機制相結合,HunyuanCustom構建了一個可生成高保真身份特征視頻的魯棒框架。該模型整合了文本-圖像融合模塊、圖像身份增強模塊以及高效的音視頻特征注入流程,確保生成視頻既嚴格遵循用戶需求,又兼具高度真實性與靈活性。
大量實驗表明,HunyuanCustom在單主體/多主體生成、音頻驅動/視頻驅動視頻定制等任務中均超越現有方法。其在身份一致性、真實度及視頻-文本對齊等方面的卓越表現,確立了其作為可控視頻定制領域領先解決方案的地位。本工作為可控視頻生成的后續研究開辟了新路徑,進一步拓展了人工智能生成內容(AIGC)在創意產業等領域的應用潛力。
本文轉自AI生成未來 ,作者:AI生成未來
