開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型精華

發(fā)布于 2025-2-19 09:50

瀏覽

0收藏

開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型-AI.x社區(qū)

論文鏈接：https://arxiv.org/abs/2502.10841 項(xiàng)目鏈接：https://skyworkai.github.io/skyreels-a1.github.io/ Demo鏈接：https://www.skyreels.ai/ 開源地址：https://github.com/SkyworkAI/SkyReels-A1 、 https://github.com/SkyworkAI/SkyReels-V1

昆侖萬維開源中國(guó)首個(gè)面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1、中國(guó)首個(gè)SOTA級(jí)別基于視頻基座模型的表情動(dòng)作可控算法SkyReels-A1。

亮點(diǎn)直擊

提出了SkyReels-A1，一種用于肖像動(dòng)畫的全新框架，采用DiT（擴(kuò)散Transformer）架構(gòu)，以提升運(yùn)動(dòng)傳遞精度、身份保留和時(shí)間一致性的保真度。該框架結(jié)合了基于表情標(biāo)志點(diǎn)的動(dòng)態(tài)條件模塊，以及連接視覺-文本語義空間的跨模態(tài)對(duì)齊機(jī)制。
分階段的訓(xùn)練方法被設(shè)計(jì)用于逐步優(yōu)化運(yùn)動(dòng)-表情相關(guān)性以及主體特定特征的不變性。
通過一系列全面的實(shí)驗(yàn)評(píng)估了SkyReels-A1的性能，結(jié)果表明其能夠生成高效的結(jié)果，并展現(xiàn)出對(duì)各種組合變化的無縫適應(yīng)性。最后，為了支持進(jìn)一步的研究和行業(yè)應(yīng)用，代碼和演示材料均已公開提供。

開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型-AI.x社區(qū)

總結(jié)速覽

解決的問題

身份失真：現(xiàn)有方法在動(dòng)畫生成過程中難以保持人物身份的穩(wěn)定性，導(dǎo)致身份信息泄露或扭曲。
背景不穩(wěn)定：動(dòng)畫生成時(shí)背景容易出現(xiàn)抖動(dòng)或不一致的現(xiàn)象。
面部表情不真實(shí)：特別是在僅頭部動(dòng)畫的場(chǎng)景中，面部表情缺乏真實(shí)感。
全身動(dòng)畫的挑戰(zhàn)：當(dāng)動(dòng)畫擴(kuò)展到全身時(shí)，現(xiàn)有方法容易產(chǎn)生視覺偽影或不自然的動(dòng)作。
身份與運(yùn)動(dòng)融合的困難：現(xiàn)有方法難以在保持身份一致性的同時(shí)，實(shí)現(xiàn)細(xì)膩的表情和動(dòng)作生成。

提出的方案

基于視頻擴(kuò)散Transformer（DiT）的框架：利用DiT的強(qiáng)大生成能力，提升面部運(yùn)動(dòng)傳遞的精度、身份保留和時(shí)間一致性。
表情感知條件模塊：通過表情引導(dǎo)的標(biāo)志點(diǎn)輸入驅(qū)動(dòng)連續(xù)視頻生成，增強(qiáng)表情與動(dòng)作的關(guān)聯(lián)性。
面部圖像-文本對(duì)齊模塊：深度融合面部特征與運(yùn)動(dòng)軌跡，強(qiáng)化身份一致性。
多階段訓(xùn)練策略：逐步優(yōu)化表情與運(yùn)動(dòng)的相關(guān)性，同時(shí)確保身份穩(wěn)定再現(xiàn)。
統(tǒng)一潛在空間建模：在單一潛在空間中聯(lián)合建模面部細(xì)節(jié)和全身動(dòng)態(tài)，解決身份漂移和背景不一致問題。

應(yīng)用的技術(shù)

視頻擴(kuò)散Transformer（DiT）：利用其強(qiáng)大的生成能力和時(shí)間一致性建模能力。
表情感知標(biāo)志點(diǎn)序列：作為條件輸入，驅(qū)動(dòng)細(xì)膩的表情生成。
圖像-文本對(duì)齊技術(shù)：增強(qiáng)面部特征與運(yùn)動(dòng)軌跡的融合。
多階段訓(xùn)練范式：分階段優(yōu)化姿勢(shì)準(zhǔn)確性、身份穩(wěn)定性和運(yùn)動(dòng)真實(shí)性。
模塊化設(shè)計(jì)：便于集成到實(shí)時(shí)視頻編輯系統(tǒng)和個(gè)性化虛擬化身平臺(tái)。

達(dá)到的效果

高質(zhì)量動(dòng)畫生成：生成高保真、富有表現(xiàn)力的肖像動(dòng)畫，適應(yīng)多樣化的身體比例。
身份一致性：在動(dòng)畫過程中保持人物身份的完整性，避免身份失真。
自然的表情與動(dòng)作：實(shí)現(xiàn)細(xì)膩的面部表情和自然的全身動(dòng)作，提升動(dòng)畫的真實(shí)感。
廣泛的適用性：適用于虛擬化身、遠(yuǎn)程通信、數(shù)字媒體生成等多種應(yīng)用場(chǎng)景。
優(yōu)于現(xiàn)有方法：在定量評(píng)估和用戶研究中表現(xiàn)優(yōu)異，特別是在處理復(fù)雜解剖結(jié)構(gòu)和微表情方面。
模塊化與易集成性：便于集成到下游應(yīng)用中，如實(shí)時(shí)視頻編輯和個(gè)性化虛擬化身平臺(tái)。

方法

SkyReels-A1框架概述

給定輸入視頻序列和參考肖像圖像，從視頻中提取表情感知的面部標(biāo)志點(diǎn)，這些標(biāo)志點(diǎn)作為運(yùn)動(dòng)描述符，用于將表情傳遞到肖像上。本文的方法基于DiT（擴(kuò)散Transformer）的條件視頻生成框架，將這些表情感知的面部標(biāo)志點(diǎn)直接集成到輸入潛在空間中。與先前的研究一致，采用了在VAE（變分自編碼器）架構(gòu)中構(gòu)建的姿態(tài)引導(dǎo)機(jī)制。該組件將表情感知的面部標(biāo)志點(diǎn)編碼為DiT框架的條件輸入，從而使模型能夠捕捉關(guān)鍵的低維視覺屬性，同時(shí)保持面部特征的語義完整性。

開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型-AI.x社區(qū)

表情感知關(guān)鍵點(diǎn)

本文為肖像動(dòng)畫引入了一種類似的基于面部關(guān)鍵點(diǎn)的運(yùn)動(dòng)條件輸入。精準(zhǔn)的面部表情運(yùn)動(dòng)表征是實(shí)現(xiàn)富有表現(xiàn)力的肖像動(dòng)畫的基礎(chǔ)，它能夠捕捉人類情感和微表情的細(xì)微變化，從而顯著提升動(dòng)畫頭像的真實(shí)感和情感共鳴。目前的擴(kuò)散模型方法主要在訓(xùn)練過程中使用 2D 面部關(guān)鍵點(diǎn) 作為運(yùn)動(dòng)表征，但這類方法存在關(guān)鍵限制：

2D 關(guān)鍵點(diǎn)的推理依賴性—— 由于推理階段仍然依賴 2D 關(guān)鍵點(diǎn)，目標(biāo)表情與參考肖像之間容易出現(xiàn)錯(cuò)位，導(dǎo)致表情不匹配和身份泄漏偽影。
3D 關(guān)鍵點(diǎn)提取的精度不足—— 現(xiàn)有方法使用MediaPipe等第三方工具從視頻序列中提取 3D 關(guān)鍵點(diǎn)，但這些方法往往缺乏捕捉細(xì)粒度表情細(xì)節(jié)和復(fù)雜面部動(dòng)態(tài)的精度，尤其是在非正面視角和極端表情情況下。

為了解決上述問題，本文提出了 3D Facial Expressions，一個(gè)集成神經(jīng)渲染模塊的框架，以提升重建面部表情的精度與真實(shí)感。不同于依賴可微分渲染（differentiable rendering）的傳統(tǒng)方法，我們用 神經(jīng)渲染機(jī)制 取代這一組件，使得模型能夠更高效地學(xué)習(xí)，并具備更強(qiáng)的泛化能力，適應(yīng)多樣的面部表情。該架構(gòu)能夠提取 高精度 3D 關(guān)鍵點(diǎn)，以更高的保真度捕捉復(fù)雜的運(yùn)動(dòng)細(xì)節(jié)和面部動(dòng)態(tài)。借助這一優(yōu)化的運(yùn)動(dòng)表征，本文的方法顯著增強(qiáng)了肖像動(dòng)畫的真實(shí)感，同時(shí)確保 更精準(zhǔn)的表情匹配、身份一致性和多場(chǎng)景適應(yīng)性。

3D 關(guān)鍵點(diǎn)引導(dǎo)模塊

為了確保驅(qū)動(dòng)信號(hào)與輸入視頻潛在表示（latent representations） 之間的時(shí)空一致性，我們提出 時(shí)空對(duì)齊關(guān)鍵點(diǎn)引導(dǎo)模塊（Spatio-temporal Alignment Landmark Guide Module）。該模塊的核心組件是 3D 因果編碼器（3D causal encoder），通過精細(xì)調(diào)優(yōu)，該編碼器能夠更有效地捕捉驅(qū)動(dòng)信號(hào)的運(yùn)動(dòng)表征，確保運(yùn)動(dòng)信號(hào)與輸入視頻潛在特征之間的精準(zhǔn)對(duì)齊。

該模塊通過 3D 因果編碼器 直接投影 驅(qū)動(dòng)信號(hào)，使其與視頻潛在特征共享同一個(gè)潛在空間。這種共享表征 彌合了運(yùn)動(dòng)信號(hào)與生成視頻幀之間的鴻溝，確保時(shí)空動(dòng)態(tài)的同步性。此外，進(jìn)一步的 精細(xì)調(diào)優(yōu) 強(qiáng)化了編碼器對(duì)復(fù)雜運(yùn)動(dòng)模式的捕捉能力，從而提升運(yùn)動(dòng)遷移的真實(shí)性和細(xì)節(jié)還原度。

這一方法不僅確保 精準(zhǔn)的運(yùn)動(dòng)對(duì)齊，還能在生成的視頻中保持 身份一致性和運(yùn)動(dòng)穩(wěn)定性，從而實(shí)現(xiàn)高質(zhì)量、時(shí)序穩(wěn)定的肖像動(dòng)畫。

面部圖像-文本對(duì)齊

在現(xiàn)有的肖像動(dòng)畫方法中，在改變面部表情的同時(shí)保持身份一致性仍然是一個(gè)亟待深入研究的挑戰(zhàn)。早期的方法主要通過 跨注意力機(jī)制（cross-attention） 和 身份保持適配器（identity-preserving adapters） 來增強(qiáng)身份一致性。然而，我們發(fā)現(xiàn)此類方法不僅 訓(xùn)練難度較大，還 引入了大量額外參數(shù)，增加了計(jì)算開銷。

受CogVideoX架構(gòu)的啟發(fā)，我們?cè)诒砬樯蛇^程中，通過在輸入階段拼接面部圖像和視頻的嵌入（embeddings）來提升身份一致性。這種方法不僅能夠增強(qiáng)身份保持能力，還可以無縫繼承預(yù)訓(xùn)練基礎(chǔ)模型的能力。

為此，本文引入了一個(gè) 輕量級(jí)的可學(xué)習(xí)映射模塊，該模塊采用 多層感知機(jī)（MLP）P，用于將面部特征映射到文本特征空間。

開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型-AI.x社區(qū)

實(shí)驗(yàn)

本節(jié)首先概述了實(shí)驗(yàn)的實(shí)施細(xì)節(jié)，包括數(shù)據(jù)來源、數(shù)據(jù)過濾過程、基線模型以及實(shí)驗(yàn)中使用的基準(zhǔn)。然后展示了與選定基線模型的對(duì)比實(shí)驗(yàn)結(jié)果，以驗(yàn)證所提出模塊的有效性。

實(shí)驗(yàn)設(shè)置

實(shí)施細(xì)節(jié)：基于先進(jìn)的視頻擴(kuò)散Transformer模型CogVideoX-5B進(jìn)行訓(xùn)練，使用收集的數(shù)據(jù)集與公開數(shù)據(jù)集的組合。在多階段訓(xùn)練過程中，第一階段訓(xùn)練2K步，第二階段訓(xùn)練2K步，最后階段訓(xùn)練1K步，批量大小為512。前兩個(gè)階段的學(xué)習(xí)率設(shè)置為1e-5，最后階段降至1e-6，使用AdamW優(yōu)化器。實(shí)驗(yàn)在32臺(tái)NVIDIA A800 GPU上進(jìn)行。在推理過程中，使用DDIM采樣器，并將無分類器引導(dǎo)的尺度設(shè)置為3。實(shí)驗(yàn)中使用的靜態(tài)參考圖像由Flux生成，并來源于Pexels。

數(shù)據(jù)集來源：訓(xùn)練視頻片段來源于NeRSemble數(shù)據(jù)集、HDTF、DFEW、RAVDESS、Panda70M以及從互聯(lián)網(wǎng)上收集的約1W個(gè)角色視頻片段。

數(shù)據(jù)過濾：在數(shù)據(jù)預(yù)處理階段，實(shí)施了一系列細(xì)致的過濾步驟，以確保視頻-文本數(shù)據(jù)集的質(zhì)量和適用性。工作流程包括三個(gè)階段：?jiǎn)谓巧崛　⑦\(yùn)動(dòng)過濾和后處理。首先，選擇單角色視頻，并使用現(xiàn)有工具清理視頻內(nèi)容，解決相機(jī)捕捉偽影和背景噪聲等問題。然后使用MediaPipe檢測(cè)的面部關(guān)鍵點(diǎn)提取頭部姿態(tài)信息和嘴部標(biāo)志點(diǎn)。通過計(jì)算頭部角度和嘴部變化，篩選出具有顯著面部表情和頭部運(yùn)動(dòng)的樣本。最后，基于前幾步檢測(cè)到的面部位置，我們將視頻裁剪或填充至固定分辨率480×720，以滿足模型的輸入要求。從每個(gè)視頻中隨機(jī)選擇一幀，并使用clip編碼器將面部編碼為嵌入向量，為模型提供必要的面部特征信息。

基線模型：為了全面評(píng)估SkyReels-A1在不同場(chǎng)景下的性能，將其與多個(gè)肖像動(dòng)畫基線模型進(jìn)行比較，包括開源解決方案LivePortrait、Follow-Your-Emoji以及閉源商業(yè)產(chǎn)品Runway Act One。

評(píng)估指標(biāo)

為了衡量肖像動(dòng)畫結(jié)果的泛化質(zhì)量和運(yùn)動(dòng)準(zhǔn)確性，本文采用了三個(gè)指標(biāo)分別評(píng)估身份相似性、圖像質(zhì)量以及表情和頭部姿態(tài)的準(zhǔn)確性。具體來說：

身份保留：使用FaceSim-Arc和FaceSim-Cur分?jǐn)?shù)，計(jì)算源圖像與生成圖像之間的余弦相似度。
圖像質(zhì)量：使用預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)合FID（Fréchet Inception Distance）進(jìn)行評(píng)估。
運(yùn)動(dòng)準(zhǔn)確性：通過比較驅(qū)動(dòng)幀和生成幀之間提取的面部混合形狀（blendshapes）和頭部姿態(tài)的L1差異，使用FaceAnalysis3和OpenPose4工具進(jìn)行評(píng)估。

與基線模型的比較

定量結(jié)果：本文進(jìn)行了跨身份運(yùn)動(dòng)傳遞的實(shí)驗(yàn)，其中參考肖像從100張野外圖像中隨機(jī)選擇，驅(qū)動(dòng)序列則來自我們的測(cè)試數(shù)據(jù)集。下表1展示了定量評(píng)估結(jié)果。本文提出的模型在生成保真度和運(yùn)動(dòng)精度方面均優(yōu)于基于擴(kuò)散和非擴(kuò)散的方法。通過引入視頻擴(kuò)散Transformer作為先驗(yàn)，SkyReels-A1在圖像質(zhì)量上取得了顯著提升，超越了現(xiàn)有方法（閉源商業(yè)模型Act-One除外）。

開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型-AI.x社區(qū)

定性結(jié)果：下圖4展示了肖像動(dòng)畫的定性比較，補(bǔ)充了自動(dòng)化評(píng)估指標(biāo)的結(jié)果。前兩個(gè)示例突出了模型在驅(qū)動(dòng)或源肖像存在顯著姿態(tài)變化時(shí)仍能準(zhǔn)確傳遞運(yùn)動(dòng)的魯棒性。第三和第四個(gè)案例中，模型有效地捕捉并傳遞了細(xì)膩的面部表情（如嘴唇運(yùn)動(dòng)和眼神），同時(shí)保持了原始肖像的視覺一致性。此外，最后一個(gè)案例表明，通過集成拼接技術(shù)，模型在動(dòng)畫全身圖像時(shí)表現(xiàn)出更高的穩(wěn)定性，即使參考肖像的面部區(qū)域較小。

開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型-AI.x社區(qū)

用戶研究

為了進(jìn)一步驗(yàn)證SkyReels-A1模型在運(yùn)動(dòng)準(zhǔn)確性和表現(xiàn)力方面的優(yōu)越性，進(jìn)行了用戶研究，招募了來自不同地理區(qū)域的20名參與者對(duì)合成視頻進(jìn)行評(píng)估。每位參與者回答了一系列比較問題，評(píng)估兩個(gè)關(guān)鍵方面：運(yùn)動(dòng)準(zhǔn)確性和人類相似性。評(píng)估過程中明確告知模型名稱，參與者被要求選擇最能準(zhǔn)確復(fù)制驅(qū)動(dòng)序列表情和運(yùn)動(dòng)的視頻。在收集的100份反饋中，63%的參與者更傾向于選擇SkyReels-A1，證實(shí)了其在保留面部表情和姿態(tài)保真度方面的增強(qiáng)能力優(yōu)于現(xiàn)有基線模型。

使用

clone代碼&準(zhǔn)備環(huán)境：

git clone https://github.com/SkyworkAI/SkyReels-A1.git
cd SkyReels-A1

# create env using conda
conda create -n skyreels-a1 pythnotallow=3.10
conda activate skyreels-a1

下載依賴：

pip install -r requirements.txt

下載預(yù)訓(xùn)練weights

# !pip install -U "huggingface_hub[cli]"
huggingface-cli download SkyReels-A1 --local-dir local_path --exclude "*.git*" "README.md" "docs"

推理

執(zhí)行腳本

python inference.py

如果腳本運(yùn)行成功，可以得到一個(gè)輸出 mp4 文件。該文件包含以下結(jié)果：視頻、輸入圖像或視頻以及生成的結(jié)果。

結(jié)論

本研究提出了 SkyReels-A1，一種基于視頻擴(kuò)散Transformer的創(chuàng)新肖像動(dòng)畫框架。通過融合運(yùn)動(dòng)與身份表征，本文的方法在細(xì)微和夸張的面部表情生成方面均實(shí)現(xiàn)了高保真度。通過廣泛的自動(dòng)評(píng)估和用戶評(píng)測(cè)，我們驗(yàn)證了模型在不同定制場(chǎng)景下的魯棒性和適應(yīng)性。我們期待這些具有前景的結(jié)果能夠推動(dòng)肖像動(dòng)畫應(yīng)用的發(fā)展。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/8_1wsjplWWEZM7pvByqpZg??

標(biāo)簽

視頻生成

模型

已于2025-2-19 18:13:04修改

贊

回復(fù)