成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型 精華

發(fā)布于 2025-2-19 09:50
瀏覽
0收藏

開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型-AI.x社區(qū)

論文鏈接:https://arxiv.org/abs/2502.10841 項(xiàng)目鏈接:https://skyworkai.github.io/skyreels-a1.github.io/ Demo鏈接:https://www.skyreels.ai/ 開源地址:https://github.com/SkyworkAI/SkyReels-A1 、 https://github.com/SkyworkAI/SkyReels-V1

昆侖萬維開源中國(guó)首個(gè)面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1、中國(guó)首個(gè)SOTA級(jí)別基于視頻基座模型的表情動(dòng)作可控算法SkyReels-A1。

亮點(diǎn)直擊

  • 提出了SkyReels-A1,一種用于肖像動(dòng)畫的全新框架,采用DiT(擴(kuò)散Transformer)架構(gòu),以提升運(yùn)動(dòng)傳遞精度、身份保留和時(shí)間一致性的保真度。該框架結(jié)合了基于表情標(biāo)志點(diǎn)的動(dòng)態(tài)條件模塊,以及連接視覺-文本語義空間的跨模態(tài)對(duì)齊機(jī)制。
  • 分階段的訓(xùn)練方法被設(shè)計(jì)用于逐步優(yōu)化運(yùn)動(dòng)-表情相關(guān)性以及主體特定特征的不變性。
  • 通過一系列全面的實(shí)驗(yàn)評(píng)估了SkyReels-A1的性能,結(jié)果表明其能夠生成高效的結(jié)果,并展現(xiàn)出對(duì)各種組合變化的無縫適應(yīng)性。最后,為了支持進(jìn)一步的研究和行業(yè)應(yīng)用,代碼和演示材料均已公開提供。

開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型-AI.x社區(qū)

開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型-AI.x社區(qū)

總結(jié)速覽

解決的問題

  • 身份失真:現(xiàn)有方法在動(dòng)畫生成過程中難以保持人物身份的穩(wěn)定性,導(dǎo)致身份信息泄露或扭曲。
  • 背景不穩(wěn)定:動(dòng)畫生成時(shí)背景容易出現(xiàn)抖動(dòng)或不一致的現(xiàn)象。
  • 面部表情不真實(shí):特別是在僅頭部動(dòng)畫的場(chǎng)景中,面部表情缺乏真實(shí)感。
  • 全身動(dòng)畫的挑戰(zhàn):當(dāng)動(dòng)畫擴(kuò)展到全身時(shí),現(xiàn)有方法容易產(chǎn)生視覺偽影或不自然的動(dòng)作。
  • 身份與運(yùn)動(dòng)融合的困難:現(xiàn)有方法難以在保持身份一致性的同時(shí),實(shí)現(xiàn)細(xì)膩的表情和動(dòng)作生成。

提出的方案

  • 基于視頻擴(kuò)散Transformer(DiT)的框架:利用DiT的強(qiáng)大生成能力,提升面部運(yùn)動(dòng)傳遞的精度、身份保留和時(shí)間一致性。
  • 表情感知條件模塊:通過表情引導(dǎo)的標(biāo)志點(diǎn)輸入驅(qū)動(dòng)連續(xù)視頻生成,增強(qiáng)表情與動(dòng)作的關(guān)聯(lián)性。
  • 面部圖像-文本對(duì)齊模塊:深度融合面部特征與運(yùn)動(dòng)軌跡,強(qiáng)化身份一致性。
  • 多階段訓(xùn)練策略:逐步優(yōu)化表情與運(yùn)動(dòng)的相關(guān)性,同時(shí)確保身份穩(wěn)定再現(xiàn)。
  • 統(tǒng)一潛在空間建模:在單一潛在空間中聯(lián)合建模面部細(xì)節(jié)和全身動(dòng)態(tài),解決身份漂移和背景不一致問題。

應(yīng)用的技術(shù)

  • 視頻擴(kuò)散Transformer(DiT):利用其強(qiáng)大的生成能力和時(shí)間一致性建模能力。
  • 表情感知標(biāo)志點(diǎn)序列:作為條件輸入,驅(qū)動(dòng)細(xì)膩的表情生成。
  • 圖像-文本對(duì)齊技術(shù):增強(qiáng)面部特征與運(yùn)動(dòng)軌跡的融合。
  • 多階段訓(xùn)練范式:分階段優(yōu)化姿勢(shì)準(zhǔn)確性、身份穩(wěn)定性和運(yùn)動(dòng)真實(shí)性。
  • 模塊化設(shè)計(jì):便于集成到實(shí)時(shí)視頻編輯系統(tǒng)和個(gè)性化虛擬化身平臺(tái)。

達(dá)到的效果

  • 高質(zhì)量動(dòng)畫生成:生成高保真、富有表現(xiàn)力的肖像動(dòng)畫,適應(yīng)多樣化的身體比例。
  • 身份一致性:在動(dòng)畫過程中保持人物身份的完整性,避免身份失真。
  • 自然的表情與動(dòng)作:實(shí)現(xiàn)細(xì)膩的面部表情和自然的全身動(dòng)作,提升動(dòng)畫的真實(shí)感。
  • 廣泛的適用性:適用于虛擬化身、遠(yuǎn)程通信、數(shù)字媒體生成等多種應(yīng)用場(chǎng)景。
  • 優(yōu)于現(xiàn)有方法:在定量評(píng)估和用戶研究中表現(xiàn)優(yōu)異,特別是在處理復(fù)雜解剖結(jié)構(gòu)和微表情方面。
  • 模塊化與易集成性:便于集成到下游應(yīng)用中,如實(shí)時(shí)視頻編輯和個(gè)性化虛擬化身平臺(tái)。

方法

SkyReels-A1框架概述

給定輸入視頻序列和參考肖像圖像,從視頻中提取表情感知的面部標(biāo)志點(diǎn),這些標(biāo)志點(diǎn)作為運(yùn)動(dòng)描述符,用于將表情傳遞到肖像上。本文的方法基于DiT(擴(kuò)散Transformer)的條件視頻生成框架,將這些表情感知的面部標(biāo)志點(diǎn)直接集成到輸入潛在空間中。與先前的研究一致,采用了在VAE(變分自編碼器)架構(gòu)中構(gòu)建的姿態(tài)引導(dǎo)機(jī)制。該組件將表情感知的面部標(biāo)志點(diǎn)編碼為DiT框架的條件輸入,從而使模型能夠捕捉關(guān)鍵的低維視覺屬性,同時(shí)保持面部特征的語義完整性。

開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型-AI.x社區(qū)

表情感知關(guān)鍵點(diǎn)

本文為肖像動(dòng)畫引入了一種類似的基于面部關(guān)鍵點(diǎn)的運(yùn)動(dòng)條件輸入。精準(zhǔn)的面部表情運(yùn)動(dòng)表征是實(shí)現(xiàn)富有表現(xiàn)力的肖像動(dòng)畫的基礎(chǔ),它能夠捕捉人類情感和微表情的細(xì)微變化,從而顯著提升動(dòng)畫頭像的真實(shí)感和情感共鳴。目前的擴(kuò)散模型方法主要在訓(xùn)練過程中使用 2D 面部關(guān)鍵點(diǎn) 作為運(yùn)動(dòng)表征,但這類方法存在關(guān)鍵限制:


  1. 2D 關(guān)鍵點(diǎn)的推理依賴性—— 由于推理階段仍然依賴 2D 關(guān)鍵點(diǎn),目標(biāo)表情與參考肖像之間容易出現(xiàn)錯(cuò)位,導(dǎo)致表情不匹配身份泄漏偽影
  2. 3D 關(guān)鍵點(diǎn)提取的精度不足—— 現(xiàn)有方法使用MediaPipe等第三方工具從視頻序列中提取 3D 關(guān)鍵點(diǎn),但這些方法往往缺乏捕捉細(xì)粒度表情細(xì)節(jié)和復(fù)雜面部動(dòng)態(tài)的精度,尤其是在非正面視角極端表情情況下。


為了解決上述問題,本文提出了 3D Facial Expressions,一個(gè)集成神經(jīng)渲染模塊的框架,以提升重建面部表情的精度與真實(shí)感。不同于依賴可微分渲染(differentiable rendering)的傳統(tǒng)方法,我們用 神經(jīng)渲染機(jī)制 取代這一組件,使得模型能夠更高效地學(xué)習(xí),并具備更強(qiáng)的泛化能力,適應(yīng)多樣的面部表情。該架構(gòu)能夠提取 高精度 3D 關(guān)鍵點(diǎn),以更高的保真度捕捉復(fù)雜的運(yùn)動(dòng)細(xì)節(jié)和面部動(dòng)態(tài)。借助這一優(yōu)化的運(yùn)動(dòng)表征,本文的方法顯著增強(qiáng)了肖像動(dòng)畫的真實(shí)感,同時(shí)確保 更精準(zhǔn)的表情匹配、身份一致性和多場(chǎng)景適應(yīng)性

3D 關(guān)鍵點(diǎn)引導(dǎo)模塊

為了確保驅(qū)動(dòng)信號(hào)輸入視頻潛在表示(latent representations) 之間的時(shí)空一致性,我們提出 時(shí)空對(duì)齊關(guān)鍵點(diǎn)引導(dǎo)模塊(Spatio-temporal Alignment Landmark Guide Module)。該模塊的核心組件是 3D 因果編碼器(3D causal encoder),通過精細(xì)調(diào)優(yōu),該編碼器能夠更有效地捕捉驅(qū)動(dòng)信號(hào)的運(yùn)動(dòng)表征,確保運(yùn)動(dòng)信號(hào)與輸入視頻潛在特征之間的精準(zhǔn)對(duì)齊。


該模塊通過 3D 因果編碼器 直接投影 驅(qū)動(dòng)信號(hào),使其與視頻潛在特征共享同一個(gè)潛在空間。這種共享表征 彌合了運(yùn)動(dòng)信號(hào)與生成視頻幀之間的鴻溝,確保時(shí)空動(dòng)態(tài)的同步性。此外,進(jìn)一步的 精細(xì)調(diào)優(yōu) 強(qiáng)化了編碼器對(duì)復(fù)雜運(yùn)動(dòng)模式的捕捉能力,從而提升運(yùn)動(dòng)遷移的真實(shí)性和細(xì)節(jié)還原度。


這一方法不僅確保 精準(zhǔn)的運(yùn)動(dòng)對(duì)齊,還能在生成的視頻中保持 身份一致性和運(yùn)動(dòng)穩(wěn)定性,從而實(shí)現(xiàn)高質(zhì)量、時(shí)序穩(wěn)定的肖像動(dòng)畫。

面部圖像-文本對(duì)齊

在現(xiàn)有的肖像動(dòng)畫方法中,在改變面部表情的同時(shí)保持身份一致性仍然是一個(gè)亟待深入研究的挑戰(zhàn)。早期的方法主要通過 跨注意力機(jī)制(cross-attention) 和 身份保持適配器(identity-preserving adapters) 來增強(qiáng)身份一致性。然而,我們發(fā)現(xiàn)此類方法不僅 訓(xùn)練難度較大,還 引入了大量額外參數(shù),增加了計(jì)算開銷。


受CogVideoX架構(gòu)的啟發(fā),我們?cè)诒砬樯蛇^程中,通過在輸入階段拼接面部圖像和視頻的嵌入(embeddings)來提升身份一致性。這種方法不僅能夠增強(qiáng)身份保持能力,還可以無縫繼承預(yù)訓(xùn)練基礎(chǔ)模型的能力。


為此,本文引入了一個(gè) 輕量級(jí)的可學(xué)習(xí)映射模塊,該模塊采用 多層感知機(jī)(MLP)P,用于將面部特征映射到文本特征空間。

開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型-AI.x社區(qū)

實(shí)驗(yàn)

本節(jié)首先概述了實(shí)驗(yàn)的實(shí)施細(xì)節(jié),包括數(shù)據(jù)來源、數(shù)據(jù)過濾過程、基線模型以及實(shí)驗(yàn)中使用的基準(zhǔn)。然后展示了與選定基線模型的對(duì)比實(shí)驗(yàn)結(jié)果,以驗(yàn)證所提出模塊的有效性。

實(shí)驗(yàn)設(shè)置

實(shí)施細(xì)節(jié):基于先進(jìn)的視頻擴(kuò)散Transformer模型CogVideoX-5B進(jìn)行訓(xùn)練,使用收集的數(shù)據(jù)集與公開數(shù)據(jù)集的組合。在多階段訓(xùn)練過程中,第一階段訓(xùn)練2K步,第二階段訓(xùn)練2K步,最后階段訓(xùn)練1K步,批量大小為512。前兩個(gè)階段的學(xué)習(xí)率設(shè)置為1e-5,最后階段降至1e-6,使用AdamW優(yōu)化器。實(shí)驗(yàn)在32臺(tái)NVIDIA A800 GPU上進(jìn)行。在推理過程中,使用DDIM采樣器,并將無分類器引導(dǎo)的尺度設(shè)置為3。實(shí)驗(yàn)中使用的靜態(tài)參考圖像由Flux生成,并來源于Pexels。


數(shù)據(jù)集來源:訓(xùn)練視頻片段來源于NeRSemble數(shù)據(jù)集、HDTF、DFEW、RAVDESS、Panda70M以及從互聯(lián)網(wǎng)上收集的約1W個(gè)角色視頻片段。


數(shù)據(jù)過濾:在數(shù)據(jù)預(yù)處理階段,實(shí)施了一系列細(xì)致的過濾步驟,以確保視頻-文本數(shù)據(jù)集的質(zhì)量和適用性。工作流程包括三個(gè)階段:?jiǎn)谓巧崛 ⑦\(yùn)動(dòng)過濾和后處理。首先,選擇單角色視頻,并使用現(xiàn)有工具清理視頻內(nèi)容,解決相機(jī)捕捉偽影和背景噪聲等問題。然后使用MediaPipe檢測(cè)的面部關(guān)鍵點(diǎn)提取頭部姿態(tài)信息和嘴部標(biāo)志點(diǎn)。通過計(jì)算頭部角度和嘴部變化,篩選出具有顯著面部表情和頭部運(yùn)動(dòng)的樣本。最后,基于前幾步檢測(cè)到的面部位置,我們將視頻裁剪或填充至固定分辨率480×720,以滿足模型的輸入要求。從每個(gè)視頻中隨機(jī)選擇一幀,并使用clip編碼器將面部編碼為嵌入向量,為模型提供必要的面部特征信息。


基線模型:為了全面評(píng)估SkyReels-A1在不同場(chǎng)景下的性能,將其與多個(gè)肖像動(dòng)畫基線模型進(jìn)行比較,包括開源解決方案LivePortrait、Follow-Your-Emoji以及閉源商業(yè)產(chǎn)品Runway Act One。

評(píng)估指標(biāo)

為了衡量肖像動(dòng)畫結(jié)果的泛化質(zhì)量和運(yùn)動(dòng)準(zhǔn)確性,本文采用了三個(gè)指標(biāo)分別評(píng)估身份相似性、圖像質(zhì)量以及表情和頭部姿態(tài)的準(zhǔn)確性。具體來說:

  1. 身份保留:使用FaceSim-Arc和FaceSim-Cur分?jǐn)?shù),計(jì)算源圖像與生成圖像之間的余弦相似度。
  2. 圖像質(zhì)量:使用預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)合FID(Fréchet Inception Distance)進(jìn)行評(píng)估。
  3. 運(yùn)動(dòng)準(zhǔn)確性:通過比較驅(qū)動(dòng)幀和生成幀之間提取的面部混合形狀(blendshapes)和頭部姿態(tài)的L1差異,使用FaceAnalysis3和OpenPose4工具進(jìn)行評(píng)估。

與基線模型的比較

定量結(jié)果:本文進(jìn)行了跨身份運(yùn)動(dòng)傳遞的實(shí)驗(yàn),其中參考肖像從100張野外圖像中隨機(jī)選擇,驅(qū)動(dòng)序列則來自我們的測(cè)試數(shù)據(jù)集。下表1展示了定量評(píng)估結(jié)果。本文提出的模型在生成保真度和運(yùn)動(dòng)精度方面均優(yōu)于基于擴(kuò)散和非擴(kuò)散的方法。通過引入視頻擴(kuò)散Transformer作為先驗(yàn),SkyReels-A1在圖像質(zhì)量上取得了顯著提升,超越了現(xiàn)有方法(閉源商業(yè)模型Act-One除外)。

開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型-AI.x社區(qū)

定性結(jié)果:下圖4展示了肖像動(dòng)畫的定性比較,補(bǔ)充了自動(dòng)化評(píng)估指標(biāo)的結(jié)果。前兩個(gè)示例突出了模型在驅(qū)動(dòng)或源肖像存在顯著姿態(tài)變化時(shí)仍能準(zhǔn)確傳遞運(yùn)動(dòng)的魯棒性。第三和第四個(gè)案例中,模型有效地捕捉并傳遞了細(xì)膩的面部表情(如嘴唇運(yùn)動(dòng)和眼神),同時(shí)保持了原始肖像的視覺一致性。此外,最后一個(gè)案例表明,通過集成拼接技術(shù),模型在動(dòng)畫全身圖像時(shí)表現(xiàn)出更高的穩(wěn)定性,即使參考肖像的面部區(qū)域較小。

開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型-AI.x社區(qū)

開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型-AI.x社區(qū)

用戶研究

為了進(jìn)一步驗(yàn)證SkyReels-A1模型在運(yùn)動(dòng)準(zhǔn)確性和表現(xiàn)力方面的優(yōu)越性,進(jìn)行了用戶研究,招募了來自不同地理區(qū)域的20名參與者對(duì)合成視頻進(jìn)行評(píng)估。每位參與者回答了一系列比較問題,評(píng)估兩個(gè)關(guān)鍵方面:運(yùn)動(dòng)準(zhǔn)確性和人類相似性。評(píng)估過程中明確告知模型名稱,參與者被要求選擇最能準(zhǔn)確復(fù)制驅(qū)動(dòng)序列表情和運(yùn)動(dòng)的視頻。在收集的100份反饋中,63%的參與者更傾向于選擇SkyReels-A1,證實(shí)了其在保留面部表情和姿態(tài)保真度方面的增強(qiáng)能力優(yōu)于現(xiàn)有基線模型。

使用

clone代碼&準(zhǔn)備環(huán)境:

git clone https://github.com/SkyworkAI/SkyReels-A1.git
cd SkyReels-A1

# create env using conda
conda create -n skyreels-a1 pythnotallow=3.10
conda activate skyreels-a1

下載依賴:

pip install -r requirements.txt

下載預(yù)訓(xùn)練weights

# !pip install -U "huggingface_hub[cli]"
huggingface-cli download SkyReels-A1 --local-dir local_path --exclude "*.git*" "README.md" "docs"

推理

執(zhí)行腳本

python inference.py

如果腳本運(yùn)行成功,可以得到一個(gè)輸出 mp4 文件。該文件包含以下結(jié)果:視頻、輸入圖像或視頻以及生成的結(jié)果。

結(jié)論

本研究提出了 SkyReels-A1,一種基于視頻擴(kuò)散Transformer的創(chuàng)新肖像動(dòng)畫框架。通過融合運(yùn)動(dòng)與身份表征,本文的方法在細(xì)微和夸張的面部表情生成方面均實(shí)現(xiàn)了高保真度。通過廣泛的自動(dòng)評(píng)估和用戶評(píng)測(cè),我們驗(yàn)證了模型在不同定制場(chǎng)景下的魯棒性和適應(yīng)性。我們期待這些具有前景的結(jié)果能夠推動(dòng)肖像動(dòng)畫應(yīng)用的發(fā)展。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/8_1wsjplWWEZM7pvByqpZg??

標(biāo)簽
已于2025-2-19 18:13:04修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 五月天激情综合网 | 国产免费一区 | 欧美日韩中文在线观看 | www.天天干.com| 老司机成人在线 | 成人h电影在线观看 | 亚洲成人精品 | 日韩图区| 天天曰夜夜 | 免费一区在线观看 | 欧美一级免费 | 亚洲高清中文字幕 | 欧美精品福利 | 99久久精品免费看国产四区 | 黄色在线观看网址 | 亚洲综合一区二区三区 | 亚洲视频国产视频 | 涩涩导航| 97色伦网 | 成人免费视频播放 | 99精品网| 色香婷婷 | 欧美亚洲日本 | 91传媒在线观看 | 看毛片的网站 | 天天操网| 孕妇一级毛片 | 日韩中文欧美 | 亚洲免费影院 | 久久激情视频 | 国产一二区视频 | 蜜桃视频成人 | www.国产精品 | 日韩不卡一二区 | 男人天堂午夜 | 美女久久久 | 欧美xxxx色视频在线观看免费 | 亚洲精品9999久久久久 | 欧美一级在线观看 | 久久精品青青大伊人av | 日韩免 |