一張照片,開口說話!阿里等最新音視頻對齊技術FantasyTalking:打造超寫實可控數字人!
文章鏈接:https://arxiv.org/pdf/2504.04842
開源地址:https://fantasy-amap.github.io/fantasy-talking/
亮點直擊
- 設計了一種雙階段視聽對齊訓練策略,以適配預訓練的視頻生成模型:首先在片段級別建立與輸入音頻對應的、包含背景和上下文對象(而不僅限于肖像本身)的連貫全局運動,隨后構建精確對齊的唇部運動以進一步提升生成視頻的質量。
- 摒棄了傳統的參考網絡用于身份保持的方法,轉而設計了一個專注于面部的交叉注意力模塊,該模塊集中建模面部區域,并以一致的身份指導視頻生成,從而簡化流程。
- 引入了運動強度調制模塊,顯式控制面部表情和身體運動的強度,從而實現對肖像運動的可控操縱,而不僅限于唇部運動。
- 大量實驗表明,FantasyTalking在視頻質量、時間一致性和運動多樣性方面達到了新SOTA。
總結速覽
解決的問題
- 靜態肖像動畫化的挑戰:從單張靜態肖像生成可動畫化的虛擬形象,難以捕捉細微的面部表情、全身動作和動態背景。
- 現有方法的不足:
- 依賴3D中間表示(如3DMM、FLAME)的方法難以準確捕捉細微表情和真實動作。
- 基于擴散模型的方法生成的內容真實性不足,通常僅關注唇部運動,忽略面部表情和身體動作的協調性。
- 背景和上下文對象通常是靜態的,導致場景不夠自然。
- 身份保持與動態靈活性的矛盾:現有方法在保持身份一致性和動態靈活性之間存在權衡問題。
提出的方案
- 雙階段音頻-視覺對齊策略:
- 第一階段(片段級訓練):利用視頻擴散Transformer模型的時空建模能力,建立音頻與全局視覺動態(包括肖像、背景和上下文對象)的隱式關聯,實現整體場景運動的連貫性。
- 第二階段(幀級細化):通過唇部追蹤掩碼和音頻映射的視覺token注意力機制,精確對齊唇部運動與音頻信號。
- 身份保持優化:
- 摒棄傳統的參考網絡(易限制動態效果),改用專注于面部建模的交叉注意力模塊,確保視頻中身份一致性。
- 運動強度控制模塊:
- 顯式解耦角色表情和身體動作,通過強度調節實現動態肖像的可控生成(如增強表情或身體動作幅度)。
應用的技術
- 基于DiT的視頻擴散模型:利用預訓練的視頻擴散Transformer(DiT)生成高保真、連貫的動態肖像。
- 多模態對齊框架:
- 音頻驅動動態建模(片段級和幀級)。
- 唇部掩碼引導的局部細化。
- 交叉注意力機制:替代參考網絡,通過面部聚焦的交叉注意力模塊保持身份一致性。
- 運動強度調制:通過額外條件輸入控制表情和身體動作的強度。
達到的效果
- 更高真實性與連貫性:
- 生成動態肖像的面部表情、唇部運動和身體動作更自然,背景和上下文對象動態協調。
- 精確的音頻同步:
- 幀級唇部細化確保唇動與音頻信號高度同步。
- 身份保持與動態靈活性的平衡:
- 交叉注意力模塊在保持面部一致性的同時,允許全身靈活運動。
- 可控運動強度:
- 用戶可調節表情和身體動作的強度,超越傳統僅唇部運動的限制。
- 實驗驗證:
- 在質量、真實性、連貫性、運動強度和身份保持方面優于現有方法。
方法
給定單張參考圖像、驅動音頻和提示文本,FantasyTalking 被設計用于生成與音頻同步的視頻,同時確保人物在動作過程中的身份特征得以保持。圖2展示了FantasyTalking的總體框架。研究了雙階段方法以在注入音頻信號時保持視聽對齊。采用身份學習方法保持視頻中的身份特征,并通過運動網絡控制表情和運動強度。
雙階段視聽對齊
傳統的說話頭視頻生成通常關注唇部運動的幀級對齊。然而,自然說話頭生成不僅需要關注與音頻直接相關的唇部運動,還需關注與音頻特征弱相關的其他面部組件和身體部位的運動(如眉毛、眼睛和肩膀)。這些運動并不與音頻嚴格時間對齊。為此,我們提出雙階段視聽對齊方法:在第一訓練階段學習片段級與音頻相關的視覺特征;在第二訓練階段專注于幀級與音頻高度相關的視覺特征。
片段級訓練。如圖3(a)所示,第一階段在片段級別計算全長視聽token序列的3D全注意力相關性,建立全局視聽依賴關系并實現整體特征融合。雖然該階段能聯合學習弱音頻相關的非語言線索(如眉毛運動、肩膀動作)和強音頻同步的唇部動態,但模型難以學習精確的唇部運動。這是因為唇部僅占據整個視場的小部分,而視頻序列在每幀中都與音頻高度相關。
身份保持
雖然音頻條件能有效建立聲學輸入與角色動作間的關聯,但長時間視頻序列和劇烈運動常導致合成結果中身份特征快速退化。現有方法通常采用從主干模型初始化的參考網絡來保持身份特征,但這些方法存在兩個關鍵缺陷:首先,參考網絡處理全幀圖像而非面部感興趣區域,導致模型偏向生成靜態背景和表現力受限的運動;其次,參考網絡通常采用與主干模型相似的結構,造成特征表示能力高度冗余,并增加模型計算負載和復雜度。
運動強度調制網絡
個體的說話風格在面部表情和身體運動幅度上表現出顯著差異,這些差異無法僅通過音頻和身份條件進行顯式控制。特別是在自然說話頭場景中,與拘束說話頭場景相比,角色的表情和身體運動更加多樣且動態。因此,引入了一個運動強度調制網絡來調控這些動態特征。
本文利用Mediapipe提取面部關鍵點序列的方差,記為面部表情運動系數ω,并使用DWPose計算身體關節序列的方差,記為身體運動系數ω。ω和ω都被歸一化到[0,1]的范圍,分別代表面部表情和身體運動的強度。
如下圖2所示,運動強度調制網絡由MLP層、ResNet層和平均池化層組成。得到的運動嵌入會與時間步相加。在推理階段,允許用戶自定義輸入系數ω_l和ω_b來控制面部和身體運動的幅度。
實驗
實驗設置
實現細節: 本文采用Wan2.1-I2V-14B作為基礎模型。在片段級訓練階段,訓練約80,000步;在幀級訓練階段,訓練約20,000步。在所有訓練階段,身份網絡和運動網絡都參與端到端訓練。使用Flow Matching來訓練模型,整個訓練在64塊A100 GPU上進行。學習率設置為1e-4。設為1,設為0.5,η設為0.2。為增強視頻生成的多樣性,參考圖像、引導音頻和提示文本各自以0.1的概率被獨立丟棄。在推理階段,采用30個采樣步數,運動強度參數ω和ω設為中性值0.5,音頻的CFG設為4.5。
數據集:本文使用的訓練數據集由三部分組成:Hallo3、Celebv-HQ以及從互聯網收集的數據。本文使用InsightFace排除面部置信度得分低于0.9的視頻,并移除語音和嘴部運動不同步的片段。這一篩選過程最終得到約150,000個片段。本文使用HDTF中的50個片段來評估拘束說話頭生成。此外,還在包含80個不同個體的自然說話數據集上評估我們的模型。
評估指標與基線: 本文采用八個指標進行評估。Frechet Inception Distance(FID)和Fréchet Video Distance(FVD)用于評估生成數據的質量。Sync-C和Sync-D用于測量音頻和唇部運動之間的同步性。Expression Similarity(ES)方法提取視頻幀之間的面部特征,并通過計算這些特征之間的相似度來評估身份特征的保持情況。Identity Consistency(IDC)通過提取面部區域并計算幀間的DINO相似度度量來衡量角色身份特征的一致性。本文使用SAM將幀分割為前景和背景,并分別測量前景和背景的光流得分來評估主體動態(SD)和背景動態(BD)。使用LAION審美預測器評估視頻的藝術和審美價值。
本文選擇了幾種最先進的方法來評估本文的方法,這些方法都有公開可用的代碼或實現。這些方法包括基于UNet的Aniportrait、EchoMimic和Sonic,以及基于DiT的Hallo3。為公平比較,本文的方法在推理時將提示設為空。
結果與分析
拘束數據集對比實驗: 拘束說話頭數據集的背景和角色姿態變化有限,主要關注唇部同步和面部表情準確性。下表1和圖4展示了評估結果。本方法在FID、FVD、IDC、ES和美學評分上均取得最優成績,這主要歸功于模型能生成最具表現力的自然面部表情,從而產生最高質量的視覺效果。在Sync-C和Sync-D指標上,本方法取得第一或第二的成績,表明DAVA方法使模型能準確學習音頻同步特征。
自然數據集對比實驗: 上表1和下圖5展示了包含顯著前景/背景變化的自然說話頭數據集評估結果。現有方法過度依賴參考圖像,限制了生成的面部表情、頭部運動和背景動態的自然度。相比之下,本方法在所有指標上均取得最優結果,其輸出具有更自然的前后景變化、更好的唇部同步和更高的視頻質量。這主要得益于:1)DAVA方法強化了音頻理解能力;2)面向面部特征的身份保持方法。這些技術使模型在保持角色身份特征的同時,能生成更復雜的自然頭部和背景運動。
可視化效果與Hallo3對比: 下圖7展示了與基于DiT的Hallo3方法的可視化對比。Hallo3的輸出存在明顯缺陷:上圖出現面部/唇部畸變和虛假背景運動,下圖則呈現僵硬的頭部運動。相比之下,本方法生成的表情、頭部運動和背景動態都更加真實自然,這得益于:1)面部知識學習增強身份特征;2)DAVA方法強化唇部同步學習。
用戶調研: 本文在自然說話頭數據集上進行了包含24名參與者的主觀評估,從唇部同步(LS)、視頻質量(VQ)、身份保持(IP)和運動多樣性(MD)四個維度進行0-10分評分。如下表3所示,FantasyTalking在所有評估維度上均超越基線方法,尤其在運動多樣性方面提升顯著。這驗證了本方法在生成真實多樣說話頭動畫的同時,能保持身份一致性和視覺保真度的優勢。
消融實驗與討論
DAVA方法消融實驗: 為驗證DAVA方法的有效性,我們分別測試了僅使用片段級對齊和僅使用幀級對齊的訓練方案。下表4和圖8顯示:僅采用片段級對齊會導致Sync-C指標顯著下降,表明其無法學習精確的唇音對應關系;而僅使用幀級對齊雖具備強唇同步能力,但會限制表情和主體運動的動態性。相比之下,DAVA方法通過結合兩級對齊的優勢,在實現精確唇音同步的同時,增強了角色動畫和背景動態的生動性。
身份保持模塊消融實驗: 上表4結果表明身份保持模塊的重要性。移除該模塊會導致IDC指標顯著降低,表明模型保持角色身份特征的能力大幅減弱。如下圖9所示,缺乏身份保持會導致面部特征出現偽影和畸變。我們提出的面部聚焦身份保持方法,在保持唇部同步和豐富運動能力的同時,顯著提升了身份特征的一致性,從而改善視頻整體質量。
局限性與未來工作: 盡管本方法在自然說話頭視頻生成方面取得顯著進展,但擴散模型推理所需的迭代采樣過程導致整體運行速度較慢。研究加速策略將有助于其在直播、實時交互等場景的應用。此外,基于音頻驅動說話頭生成技術探索具有實時反饋的交互式肖像對話解決方案,可拓展數字人avatar在現實場景中的應用廣度。
結論
本文提出了FantasyTalking,一種新穎的音頻驅動肖像動畫技術。通過采用雙階段視聽對齊訓練流程,本文的方法有效捕捉了音頻信號與唇部運動、面部表情以及身體動作之間的關聯關系。為增強生成視頻中的身份一致性,提出了一種面部聚焦的身份保持方法以精準保留面部特征。此外,通過運動網絡控制表情和身體運動的幅度,確保生成動畫的自然性與多樣性。定性與定量實驗表明,FantasyTalking在視頻質量、運動多樣性和身份一致性等關鍵指標上均優于現有SOTA方法。
本文轉自AI生成未來 ,作者:AI生成未來
