開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型 精華
論文鏈接:https://arxiv.org/abs/2502.10841 項(xiàng)目鏈接:https://skyworkai.github.io/skyreels-a1.github.io/ Demo鏈接:https://www.skyreels.ai/ 開源地址:https://github.com/SkyworkAI/SkyReels-A1 、 https://github.com/SkyworkAI/SkyReels-V1
昆侖萬維開源中國(guó)首個(gè)面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1、中國(guó)首個(gè)SOTA級(jí)別基于視頻基座模型的表情動(dòng)作可控算法SkyReels-A1。
亮點(diǎn)直擊
- 提出了SkyReels-A1,一種用于肖像動(dòng)畫的全新框架,采用DiT(擴(kuò)散Transformer)架構(gòu),以提升運(yùn)動(dòng)傳遞精度、身份保留和時(shí)間一致性的保真度。該框架結(jié)合了基于表情標(biāo)志點(diǎn)的動(dòng)態(tài)條件模塊,以及連接視覺-文本語義空間的跨模態(tài)對(duì)齊機(jī)制。
- 分階段的訓(xùn)練方法被設(shè)計(jì)用于逐步優(yōu)化運(yùn)動(dòng)-表情相關(guān)性以及主體特定特征的不變性。
- 通過一系列全面的實(shí)驗(yàn)評(píng)估了SkyReels-A1的性能,結(jié)果表明其能夠生成高效的結(jié)果,并展現(xiàn)出對(duì)各種組合變化的無縫適應(yīng)性。最后,為了支持進(jìn)一步的研究和行業(yè)應(yīng)用,代碼和演示材料均已公開提供。
總結(jié)速覽
解決的問題
- 身份失真:現(xiàn)有方法在動(dòng)畫生成過程中難以保持人物身份的穩(wěn)定性,導(dǎo)致身份信息泄露或扭曲。
- 背景不穩(wěn)定:動(dòng)畫生成時(shí)背景容易出現(xiàn)抖動(dòng)或不一致的現(xiàn)象。
- 面部表情不真實(shí):特別是在僅頭部動(dòng)畫的場(chǎng)景中,面部表情缺乏真實(shí)感。
- 全身動(dòng)畫的挑戰(zhàn):當(dāng)動(dòng)畫擴(kuò)展到全身時(shí),現(xiàn)有方法容易產(chǎn)生視覺偽影或不自然的動(dòng)作。
- 身份與運(yùn)動(dòng)融合的困難:現(xiàn)有方法難以在保持身份一致性的同時(shí),實(shí)現(xiàn)細(xì)膩的表情和動(dòng)作生成。
提出的方案
- 基于視頻擴(kuò)散Transformer(DiT)的框架:利用DiT的強(qiáng)大生成能力,提升面部運(yùn)動(dòng)傳遞的精度、身份保留和時(shí)間一致性。
- 表情感知條件模塊:通過表情引導(dǎo)的標(biāo)志點(diǎn)輸入驅(qū)動(dòng)連續(xù)視頻生成,增強(qiáng)表情與動(dòng)作的關(guān)聯(lián)性。
- 面部圖像-文本對(duì)齊模塊:深度融合面部特征與運(yùn)動(dòng)軌跡,強(qiáng)化身份一致性。
- 多階段訓(xùn)練策略:逐步優(yōu)化表情與運(yùn)動(dòng)的相關(guān)性,同時(shí)確保身份穩(wěn)定再現(xiàn)。
- 統(tǒng)一潛在空間建模:在單一潛在空間中聯(lián)合建模面部細(xì)節(jié)和全身動(dòng)態(tài),解決身份漂移和背景不一致問題。
應(yīng)用的技術(shù)
- 視頻擴(kuò)散Transformer(DiT):利用其強(qiáng)大的生成能力和時(shí)間一致性建模能力。
- 表情感知標(biāo)志點(diǎn)序列:作為條件輸入,驅(qū)動(dòng)細(xì)膩的表情生成。
- 圖像-文本對(duì)齊技術(shù):增強(qiáng)面部特征與運(yùn)動(dòng)軌跡的融合。
- 多階段訓(xùn)練范式:分階段優(yōu)化姿勢(shì)準(zhǔn)確性、身份穩(wěn)定性和運(yùn)動(dòng)真實(shí)性。
- 模塊化設(shè)計(jì):便于集成到實(shí)時(shí)視頻編輯系統(tǒng)和個(gè)性化虛擬化身平臺(tái)。
達(dá)到的效果
- 高質(zhì)量動(dòng)畫生成:生成高保真、富有表現(xiàn)力的肖像動(dòng)畫,適應(yīng)多樣化的身體比例。
- 身份一致性:在動(dòng)畫過程中保持人物身份的完整性,避免身份失真。
- 自然的表情與動(dòng)作:實(shí)現(xiàn)細(xì)膩的面部表情和自然的全身動(dòng)作,提升動(dòng)畫的真實(shí)感。
- 廣泛的適用性:適用于虛擬化身、遠(yuǎn)程通信、數(shù)字媒體生成等多種應(yīng)用場(chǎng)景。
- 優(yōu)于現(xiàn)有方法:在定量評(píng)估和用戶研究中表現(xiàn)優(yōu)異,特別是在處理復(fù)雜解剖結(jié)構(gòu)和微表情方面。
- 模塊化與易集成性:便于集成到下游應(yīng)用中,如實(shí)時(shí)視頻編輯和個(gè)性化虛擬化身平臺(tái)。
方法
SkyReels-A1框架概述
給定輸入視頻序列和參考肖像圖像,從視頻中提取表情感知的面部標(biāo)志點(diǎn),這些標(biāo)志點(diǎn)作為運(yùn)動(dòng)描述符,用于將表情傳遞到肖像上。本文的方法基于DiT(擴(kuò)散Transformer)的條件視頻生成框架,將這些表情感知的面部標(biāo)志點(diǎn)直接集成到輸入潛在空間中。與先前的研究一致,采用了在VAE(變分自編碼器)架構(gòu)中構(gòu)建的姿態(tài)引導(dǎo)機(jī)制。該組件將表情感知的面部標(biāo)志點(diǎn)編碼為DiT框架的條件輸入,從而使模型能夠捕捉關(guān)鍵的低維視覺屬性,同時(shí)保持面部特征的語義完整性。
表情感知關(guān)鍵點(diǎn)
本文為肖像動(dòng)畫引入了一種類似的基于面部關(guān)鍵點(diǎn)的運(yùn)動(dòng)條件輸入。精準(zhǔn)的面部表情運(yùn)動(dòng)表征是實(shí)現(xiàn)富有表現(xiàn)力的肖像動(dòng)畫的基礎(chǔ),它能夠捕捉人類情感和微表情的細(xì)微變化,從而顯著提升動(dòng)畫頭像的真實(shí)感和情感共鳴。目前的擴(kuò)散模型方法主要在訓(xùn)練過程中使用 2D 面部關(guān)鍵點(diǎn) 作為運(yùn)動(dòng)表征,但這類方法存在關(guān)鍵限制:
- 2D 關(guān)鍵點(diǎn)的推理依賴性—— 由于推理階段仍然依賴 2D 關(guān)鍵點(diǎn),目標(biāo)表情與參考肖像之間容易出現(xiàn)錯(cuò)位,導(dǎo)致表情不匹配和身份泄漏偽影。
- 3D 關(guān)鍵點(diǎn)提取的精度不足—— 現(xiàn)有方法使用MediaPipe等第三方工具從視頻序列中提取 3D 關(guān)鍵點(diǎn),但這些方法往往缺乏捕捉細(xì)粒度表情細(xì)節(jié)和復(fù)雜面部動(dòng)態(tài)的精度,尤其是在非正面視角和極端表情情況下。
為了解決上述問題,本文提出了 3D Facial Expressions,一個(gè)集成神經(jīng)渲染模塊的框架,以提升重建面部表情的精度與真實(shí)感。不同于依賴可微分渲染(differentiable rendering)的傳統(tǒng)方法,我們用 神經(jīng)渲染機(jī)制 取代這一組件,使得模型能夠更高效地學(xué)習(xí),并具備更強(qiáng)的泛化能力,適應(yīng)多樣的面部表情。該架構(gòu)能夠提取 高精度 3D 關(guān)鍵點(diǎn),以更高的保真度捕捉復(fù)雜的運(yùn)動(dòng)細(xì)節(jié)和面部動(dòng)態(tài)。借助這一優(yōu)化的運(yùn)動(dòng)表征,本文的方法顯著增強(qiáng)了肖像動(dòng)畫的真實(shí)感,同時(shí)確保 更精準(zhǔn)的表情匹配、身份一致性和多場(chǎng)景適應(yīng)性。
3D 關(guān)鍵點(diǎn)引導(dǎo)模塊
為了確保驅(qū)動(dòng)信號(hào)與輸入視頻潛在表示(latent representations) 之間的時(shí)空一致性,我們提出 時(shí)空對(duì)齊關(guān)鍵點(diǎn)引導(dǎo)模塊(Spatio-temporal Alignment Landmark Guide Module)。該模塊的核心組件是 3D 因果編碼器(3D causal encoder),通過精細(xì)調(diào)優(yōu),該編碼器能夠更有效地捕捉驅(qū)動(dòng)信號(hào)的運(yùn)動(dòng)表征,確保運(yùn)動(dòng)信號(hào)與輸入視頻潛在特征之間的精準(zhǔn)對(duì)齊。
該模塊通過 3D 因果編碼器 直接投影 驅(qū)動(dòng)信號(hào),使其與視頻潛在特征共享同一個(gè)潛在空間。這種共享表征 彌合了運(yùn)動(dòng)信號(hào)與生成視頻幀之間的鴻溝,確保時(shí)空動(dòng)態(tài)的同步性。此外,進(jìn)一步的 精細(xì)調(diào)優(yōu) 強(qiáng)化了編碼器對(duì)復(fù)雜運(yùn)動(dòng)模式的捕捉能力,從而提升運(yùn)動(dòng)遷移的真實(shí)性和細(xì)節(jié)還原度。
這一方法不僅確保 精準(zhǔn)的運(yùn)動(dòng)對(duì)齊,還能在生成的視頻中保持 身份一致性和運(yùn)動(dòng)穩(wěn)定性,從而實(shí)現(xiàn)高質(zhì)量、時(shí)序穩(wěn)定的肖像動(dòng)畫。
面部圖像-文本對(duì)齊
在現(xiàn)有的肖像動(dòng)畫方法中,在改變面部表情的同時(shí)保持身份一致性仍然是一個(gè)亟待深入研究的挑戰(zhàn)。早期的方法主要通過 跨注意力機(jī)制(cross-attention) 和 身份保持適配器(identity-preserving adapters) 來增強(qiáng)身份一致性。然而,我們發(fā)現(xiàn)此類方法不僅 訓(xùn)練難度較大,還 引入了大量額外參數(shù),增加了計(jì)算開銷。
受CogVideoX架構(gòu)的啟發(fā),我們?cè)诒砬樯蛇^程中,通過在輸入階段拼接面部圖像和視頻的嵌入(embeddings)來提升身份一致性。這種方法不僅能夠增強(qiáng)身份保持能力,還可以無縫繼承預(yù)訓(xùn)練基礎(chǔ)模型的能力。
為此,本文引入了一個(gè) 輕量級(jí)的可學(xué)習(xí)映射模塊,該模塊采用 多層感知機(jī)(MLP)P,用于將面部特征映射到文本特征空間。
實(shí)驗(yàn)
本節(jié)首先概述了實(shí)驗(yàn)的實(shí)施細(xì)節(jié),包括數(shù)據(jù)來源、數(shù)據(jù)過濾過程、基線模型以及實(shí)驗(yàn)中使用的基準(zhǔn)。然后展示了與選定基線模型的對(duì)比實(shí)驗(yàn)結(jié)果,以驗(yàn)證所提出模塊的有效性。
實(shí)驗(yàn)設(shè)置
實(shí)施細(xì)節(jié):基于先進(jìn)的視頻擴(kuò)散Transformer模型CogVideoX-5B進(jìn)行訓(xùn)練,使用收集的數(shù)據(jù)集與公開數(shù)據(jù)集的組合。在多階段訓(xùn)練過程中,第一階段訓(xùn)練2K步,第二階段訓(xùn)練2K步,最后階段訓(xùn)練1K步,批量大小為512。前兩個(gè)階段的學(xué)習(xí)率設(shè)置為1e-5,最后階段降至1e-6,使用AdamW優(yōu)化器。實(shí)驗(yàn)在32臺(tái)NVIDIA A800 GPU上進(jìn)行。在推理過程中,使用DDIM采樣器,并將無分類器引導(dǎo)的尺度設(shè)置為3。實(shí)驗(yàn)中使用的靜態(tài)參考圖像由Flux生成,并來源于Pexels。
數(shù)據(jù)集來源:訓(xùn)練視頻片段來源于NeRSemble數(shù)據(jù)集、HDTF、DFEW、RAVDESS、Panda70M以及從互聯(lián)網(wǎng)上收集的約1W個(gè)角色視頻片段。
數(shù)據(jù)過濾:在數(shù)據(jù)預(yù)處理階段,實(shí)施了一系列細(xì)致的過濾步驟,以確保視頻-文本數(shù)據(jù)集的質(zhì)量和適用性。工作流程包括三個(gè)階段:?jiǎn)谓巧崛 ⑦\(yùn)動(dòng)過濾和后處理。首先,選擇單角色視頻,并使用現(xiàn)有工具清理視頻內(nèi)容,解決相機(jī)捕捉偽影和背景噪聲等問題。然后使用MediaPipe檢測(cè)的面部關(guān)鍵點(diǎn)提取頭部姿態(tài)信息和嘴部標(biāo)志點(diǎn)。通過計(jì)算頭部角度和嘴部變化,篩選出具有顯著面部表情和頭部運(yùn)動(dòng)的樣本。最后,基于前幾步檢測(cè)到的面部位置,我們將視頻裁剪或填充至固定分辨率480×720,以滿足模型的輸入要求。從每個(gè)視頻中隨機(jī)選擇一幀,并使用clip編碼器將面部編碼為嵌入向量,為模型提供必要的面部特征信息。
基線模型:為了全面評(píng)估SkyReels-A1在不同場(chǎng)景下的性能,將其與多個(gè)肖像動(dòng)畫基線模型進(jìn)行比較,包括開源解決方案LivePortrait、Follow-Your-Emoji以及閉源商業(yè)產(chǎn)品Runway Act One。
評(píng)估指標(biāo)
為了衡量肖像動(dòng)畫結(jié)果的泛化質(zhì)量和運(yùn)動(dòng)準(zhǔn)確性,本文采用了三個(gè)指標(biāo)分別評(píng)估身份相似性、圖像質(zhì)量以及表情和頭部姿態(tài)的準(zhǔn)確性。具體來說:
- 身份保留:使用FaceSim-Arc和FaceSim-Cur分?jǐn)?shù),計(jì)算源圖像與生成圖像之間的余弦相似度。
- 圖像質(zhì)量:使用預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)合FID(Fréchet Inception Distance)進(jìn)行評(píng)估。
- 運(yùn)動(dòng)準(zhǔn)確性:通過比較驅(qū)動(dòng)幀和生成幀之間提取的面部混合形狀(blendshapes)和頭部姿態(tài)的L1差異,使用FaceAnalysis3和OpenPose4工具進(jìn)行評(píng)估。
與基線模型的比較
定量結(jié)果:本文進(jìn)行了跨身份運(yùn)動(dòng)傳遞的實(shí)驗(yàn),其中參考肖像從100張野外圖像中隨機(jī)選擇,驅(qū)動(dòng)序列則來自我們的測(cè)試數(shù)據(jù)集。下表1展示了定量評(píng)估結(jié)果。本文提出的模型在生成保真度和運(yùn)動(dòng)精度方面均優(yōu)于基于擴(kuò)散和非擴(kuò)散的方法。通過引入視頻擴(kuò)散Transformer作為先驗(yàn),SkyReels-A1在圖像質(zhì)量上取得了顯著提升,超越了現(xiàn)有方法(閉源商業(yè)模型Act-One除外)。
定性結(jié)果:下圖4展示了肖像動(dòng)畫的定性比較,補(bǔ)充了自動(dòng)化評(píng)估指標(biāo)的結(jié)果。前兩個(gè)示例突出了模型在驅(qū)動(dòng)或源肖像存在顯著姿態(tài)變化時(shí)仍能準(zhǔn)確傳遞運(yùn)動(dòng)的魯棒性。第三和第四個(gè)案例中,模型有效地捕捉并傳遞了細(xì)膩的面部表情(如嘴唇運(yùn)動(dòng)和眼神),同時(shí)保持了原始肖像的視覺一致性。此外,最后一個(gè)案例表明,通過集成拼接技術(shù),模型在動(dòng)畫全身圖像時(shí)表現(xiàn)出更高的穩(wěn)定性,即使參考肖像的面部區(qū)域較小。
用戶研究
為了進(jìn)一步驗(yàn)證SkyReels-A1模型在運(yùn)動(dòng)準(zhǔn)確性和表現(xiàn)力方面的優(yōu)越性,進(jìn)行了用戶研究,招募了來自不同地理區(qū)域的20名參與者對(duì)合成視頻進(jìn)行評(píng)估。每位參與者回答了一系列比較問題,評(píng)估兩個(gè)關(guān)鍵方面:運(yùn)動(dòng)準(zhǔn)確性和人類相似性。評(píng)估過程中明確告知模型名稱,參與者被要求選擇最能準(zhǔn)確復(fù)制驅(qū)動(dòng)序列表情和運(yùn)動(dòng)的視頻。在收集的100份反饋中,63%的參與者更傾向于選擇SkyReels-A1,證實(shí)了其在保留面部表情和姿態(tài)保真度方面的增強(qiáng)能力優(yōu)于現(xiàn)有基線模型。
使用
clone代碼&準(zhǔn)備環(huán)境:
git clone https://github.com/SkyworkAI/SkyReels-A1.git
cd SkyReels-A1
# create env using conda
conda create -n skyreels-a1 pythnotallow=3.10
conda activate skyreels-a1
下載依賴:
pip install -r requirements.txt
下載預(yù)訓(xùn)練weights
# !pip install -U "huggingface_hub[cli]"
huggingface-cli download SkyReels-A1 --local-dir local_path --exclude "*.git*" "README.md" "docs"
推理
執(zhí)行腳本
python inference.py
如果腳本運(yùn)行成功,可以得到一個(gè)輸出 mp4 文件。該文件包含以下結(jié)果:視頻、輸入圖像或視頻以及生成的結(jié)果。
結(jié)論
本研究提出了 SkyReels-A1,一種基于視頻擴(kuò)散Transformer的創(chuàng)新肖像動(dòng)畫框架。通過融合運(yùn)動(dòng)與身份表征,本文的方法在細(xì)微和夸張的面部表情生成方面均實(shí)現(xiàn)了高保真度。通過廣泛的自動(dòng)評(píng)估和用戶評(píng)測(cè),我們驗(yàn)證了模型在不同定制場(chǎng)景下的魯棒性和適應(yīng)性。我們期待這些具有前景的結(jié)果能夠推動(dòng)肖像動(dòng)畫應(yīng)用的發(fā)展。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
