騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓(xùn)練的系統(tǒng)框架原創(chuàng)

發(fā)布于 2024-12-23 10:33

瀏覽

0收藏

01、概述

隨著人工智能技術(shù)的飛速發(fā)展，視頻生成作為AI領(lǐng)域的重要突破，已經(jīng)開(kāi)始展現(xiàn)出令人驚艷的潛力。從圖像到視頻的生成，不僅要求算法具有強(qiáng)大的視覺(jué)理解能力，還要能準(zhǔn)確捕捉動(dòng)作和語(yǔ)義之間的微妙關(guān)系。而在這個(gè)領(lǐng)域，HunyuanVideo作為一款全新的開(kāi)源視頻生成大模型，以其卓越的表現(xiàn)和創(chuàng)新的技術(shù)架構(gòu)，正逐步打破傳統(tǒng)視頻生成模型的局限，成為AI視頻生成的領(lǐng)先者之一。

本文將深入探討HunyuanVideo的核心技術(shù)、架構(gòu)設(shè)計(jì)以及其如何在行業(yè)中掀起波瀾。無(wú)論你是對(duì)AI技術(shù)感興趣的開(kāi)發(fā)者，還是熱衷于視頻創(chuàng)作的內(nèi)容創(chuàng)作者，HunyuanVideo的創(chuàng)新性都值得你一探究竟。

02、什么是HunyuanVideo？

HunyuanVideo是一款由騰訊開(kāi)發(fā)的、具有130億參數(shù)的視頻生成大模型。它的目標(biāo)是通過(guò)強(qiáng)大的技術(shù)架構(gòu)，提供與領(lǐng)先的閉源模型相媲美甚至超越的生成表現(xiàn)。

與大多數(shù)現(xiàn)有的視頻生成模型不同，HunyuanVideo并不局限于單一的數(shù)據(jù)結(jié)構(gòu)或技術(shù)。它采用了一個(gè)全面的框架，集成了數(shù)據(jù)整理、圖像-視頻聯(lián)合訓(xùn)練和高效的基礎(chǔ)設(shè)施，能夠支持大規(guī)模模型訓(xùn)練和推理。這一創(chuàng)新設(shè)計(jì)使得HunyuanVideo在視頻生成領(lǐng)域取得了顯著突破，成為最大的開(kāi)源視頻生成模型之一。

03、HunyuanVideo的核心優(yōu)勢(shì)

1）高質(zhì)量的視覺(jué)效果與運(yùn)動(dòng)表現(xiàn)

為了確保生成的視頻擁有高質(zhì)量的視覺(jué)效果、豐富的運(yùn)動(dòng)表現(xiàn)、精準(zhǔn)的文本-視頻對(duì)齊和生成穩(wěn)定性，HunyuanVideo在架構(gòu)設(shè)計(jì)上進(jìn)行了大量的實(shí)驗(yàn)和優(yōu)化。根據(jù)業(yè)內(nèi)專(zhuān)業(yè)評(píng)估人員的反饋，HunyuanVideo在綜合指標(biāo)上超越了以往最先進(jìn)的閉源視頻生成模型，包括Runway Gen-3、Luma 1.6，以及三款中文社區(qū)表現(xiàn)最強(qiáng)的模型。

這種突破性的成果，正是HunyuanVideo通過(guò)深度優(yōu)化架構(gòu)和技術(shù)細(xì)節(jié)，努力消除生成視頻過(guò)程中的噪聲和不確定性所取得的。

2）打破數(shù)據(jù)壁壘，彌合開(kāi)源與閉源模型的差距

傳統(tǒng)的視頻生成模型往往面臨著閉源和開(kāi)源之間的技術(shù)鴻溝。而HunyuanVideo的出現(xiàn)，正是希望通過(guò)開(kāi)源的方式，將最前沿的視頻生成技術(shù)帶給更多開(kāi)發(fā)者和研究人員。通過(guò)開(kāi)源基礎(chǔ)模型和應(yīng)用模型的代碼與權(quán)重，HunyuanVideo旨在彌合開(kāi)源和閉源視頻基礎(chǔ)模型之間的差距，幫助社區(qū)中的每一位開(kāi)發(fā)者都能自由探索并嘗試自己的創(chuàng)意，推動(dòng)視頻生成生態(tài)的更加動(dòng)態(tài)與活躍。

3）強(qiáng)大的多模態(tài)信息融合能力

HunyuanVideo采用了一種獨(dú)特的雙流到單流混合模型設(shè)計(jì)。這種設(shè)計(jì)在視頻生成過(guò)程中首先獨(dú)立處理文本和視頻的token（符號(hào)），避免了不同模態(tài)之間的干擾，讓每個(gè)模態(tài)可以各自學(xué)習(xí)到最合適的調(diào)制機(jī)制；隨后，它會(huì)將視頻和文本的token連接在一起，通過(guò)后續(xù)的Transformer模塊進(jìn)行有效的信息融合，從而提升生成視頻的質(zhì)量。

這種架構(gòu)能夠有效捕捉視覺(jué)和語(yǔ)義信息之間的復(fù)雜交互，顯著增強(qiáng)模型的整體性能，最終生成更符合用戶需求的視頻內(nèi)容。

04、HunyuanVideo的架構(gòu)設(shè)計(jì)

HunyuanVideo采用了一種基于隱空間模型的設(shè)計(jì)，其訓(xùn)練過(guò)程涉及到壓縮視頻的時(shí)間維度和空間維度。通過(guò)使用3D VAE（變分自編碼器），HunyuanVideo能夠有效地將時(shí)間和空間維度的特征壓縮為更緊湊的表示。具體來(lái)說(shuō)，時(shí)間維度壓縮4倍，空間維度壓縮8倍，最終將其轉(zhuǎn)化為16個(gè)通道，從而顯著減少了后續(xù)Transformer模型處理的token數(shù)量。

騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓(xùn)練的系統(tǒng)框架-AI.x社區(qū)

這種方法不僅提高了生成效率，還能夠在不犧牲視頻質(zhì)量的情況下，保持較高的分辨率和幀率，使得視頻生成變得更加靈活與高效。

MLLM文本編碼器：更加精準(zhǔn)的文本理解

在視頻生成過(guò)程中，文本提示是至關(guān)重要的。為了確保HunyuanVideo能夠準(zhǔn)確理解文本指令并生成高質(zhì)量的視頻，HunyuanVideo采用了一個(gè)預(yù)訓(xùn)練的Multimodal Large Language Model（MLLM）作為文本編碼器。

與傳統(tǒng)的CLIP和T5-XXL相比，MLLM在圖文對(duì)齊和復(fù)雜推理方面具有更強(qiáng)的優(yōu)勢(shì)。通過(guò)對(duì)大規(guī)模圖文數(shù)據(jù)進(jìn)行微調(diào)，MLLM能夠在特征空間中實(shí)現(xiàn)更精準(zhǔn)的圖文對(duì)齊，從而使得生成的文本與視頻內(nèi)容更加契合。此外，MLLM還具備零樣本生成能力，能夠根據(jù)系統(tǒng)指令進(jìn)行更為精準(zhǔn)的文本特征提取，進(jìn)而優(yōu)化視頻生成過(guò)程。

騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓(xùn)練的系統(tǒng)框架-AI.x社區(qū)

3D VAE：壓縮空間，提升效率

HunyuanVideo采用的3D VAE不僅具備時(shí)間和空間壓縮的優(yōu)勢(shì)，還在編碼器和解碼器中使用了CausalConv3D（因果卷積3D）技術(shù)，這一創(chuàng)新設(shè)計(jì)讓視頻的生成更加高效。通過(guò)4倍壓縮時(shí)間維度和8倍壓縮空間維度，HunyuanVideo在保持視頻質(zhì)量的同時(shí)，大大減少了計(jì)算量，為大規(guī)模視頻生成提供了強(qiáng)有力的技術(shù)支持。

騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓(xùn)練的系統(tǒng)框架-AI.x社區(qū)

05、視頻生成的創(chuàng)新：Prompt改寫(xiě)模型

為了幫助用戶更好地與模型互動(dòng)，HunyuanVideo還提供了一個(gè)獨(dú)特的Prompt改寫(xiě)模型。該模型通過(guò)將用戶輸入的文本提示進(jìn)行優(yōu)化，確保模型能夠更準(zhǔn)確地理解用戶的意圖，生成更加符合要求的視頻。

HunyuanVideo提供了正常模式和導(dǎo)演模式兩種改寫(xiě)模式。正常模式旨在增強(qiáng)視頻生成模型對(duì)用戶指令的理解，而導(dǎo)演模式則專(zhuān)注于提升視頻的視覺(jué)質(zhì)量，包括構(gòu)圖、光照和攝像機(jī)的運(yùn)動(dòng)等方面。雖然導(dǎo)演模式能夠生成更具視覺(jué)沖擊力的視頻，但有時(shí)也可能會(huì)犧牲一些語(yǔ)義細(xì)節(jié)，因此用戶可以根據(jù)自己的需求進(jìn)行選擇。

06、HunyuanVideo的能力評(píng)估

為了驗(yàn)證HunyuanVideo的生成能力，我們與四個(gè)閉源視頻生成模型進(jìn)行了對(duì)比。在與其他模型的比較中，我們使用了1,533個(gè)文本提示，并通過(guò)單次推理生成了相同數(shù)量的視頻樣本。評(píng)估標(biāo)準(zhǔn)包括文本對(duì)齊、運(yùn)動(dòng)質(zhì)量和視覺(jué)質(zhì)量。結(jié)果表明，HunyuanVideo在綜合指標(biāo)上表現(xiàn)最為優(yōu)秀，尤其在運(yùn)動(dòng)質(zhì)量方面，表現(xiàn)優(yōu)于其他所有對(duì)比模型。

騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓(xùn)練的系統(tǒng)框架-AI.x社區(qū)

07、結(jié)語(yǔ)

隨著HunyuanVideo的開(kāi)源發(fā)布，AI視頻生成技術(shù)迎來(lái)了一個(gè)新的時(shí)代。它不僅為開(kāi)發(fā)者提供了一個(gè)強(qiáng)大、靈活的創(chuàng)作平臺(tái)，也為AI視頻生成的未來(lái)奠定了基礎(chǔ)。通過(guò)HunyuanVideo，我們有理由相信，在不久的將來(lái)，更多的創(chuàng)作者將能夠借助AI技術(shù)，輕松生成高質(zhì)量的視頻內(nèi)容，創(chuàng)造出更豐富、更生動(dòng)的視覺(jué)世界。

參考：