擊敗擴散和非擴散奪得SOTA!FLOAT:基于流匹配的音頻驅動說話者頭像生成模型 精華
論文鏈接:https://arxiv.org/pdf/2412.01064
github鏈接:https://deepbrainai-research.github.io/float/
亮點直擊
- FLOAT,這是一種基于流匹配的音頻驅動說話者頭像生成模型,利用了學習的運動隱空間,比基于像素的隱空間更高效和有效。
- 引入了一種簡單而有效的基于Transformer的流向量場預測器,用于時間一致的運動隱空間采樣,這也使得語音驅動的情感控制成為可能。
- 大量實驗表明,與基于擴散和非擴散的方法相比,FLOAT達到了最先進的性能。
總結速覽
解決的問題
- 在基于擴散的生成模型中,迭代采樣導致時間一致的視頻生成困難。
- 如何實現快速采樣以提高生成效率。
- 如何在音頻驅動的頭像圖像動畫中自然地融入情感和表現力豐富的動作。
提出的方案
- 將生成建模從基于像素的隱空間轉移到學習的運動隱空間,以實現更高效的時間一致運動設計。
- 引入基于Transformer的向量場預測器,具有簡單而有效的逐幀條件機制。
應用的技術
- 流匹配生成模型,用于優化運動隱空間的學習。
- Transformer模型,用于預測流向量場,實現時間一致的運動采樣。
- 逐幀條件機制,確保時間一致性并支持語音驅動的情感控制。
達到的效果
- 在視覺質量上,生成的頭像更加逼真,表現力更豐富。
- 在運動保真度上,動作更加自然流暢。
- 在效率上,相較于基于擴散和非擴散的方法,FLOAT具有更高的采樣速度和生成效率。
- 支持語音驅動的情感增強,能夠自然地融入表現力豐富的動作。
方法:音頻驅動的說話頭像的流程匹配
運動隱空間自動編碼器
近期的說話頭像方法利用了Stable Diffusion (SD) 的VAE,因為其具有豐富的基于像素的語義隱空間。然而,當應用于視頻生成任務時,這些方法常常難以生成時間一致的幀 [8, 29, 76, 89, 101]。因此,第一個目標是為逼真的說話頭像獲得良好的運動隱空間,能夠捕捉全局(例如頭部運動)和細粒度局部(例如面部表情、嘴部運動、瞳孔運動)動態。為此,我們采用隱空間圖像動畫器 (LIA) 作為我們的運動自動編碼器,而不是使用SD的VAE。關鍵區別在于訓練目標:LIA被訓練為從同一視頻片段中采樣的源圖像重建驅動圖像,這要求隱空間編碼包含能夠捕捉時間上相鄰和遠離的運動的隱式運動。
運動隱空間中的流匹配
語音驅動的情感標簽。 如何使說話動作更具表現力和自然性?在說話過程中,人類通過聲音自然地反映出他們的情感,而這些情感會影響說話的動作。例如,一個悲傷說話的人可能更傾向于搖頭并避免眼神接觸。這種由情感引發的非語言動作對說話者頭像的自然性有著重要影響。
現有的工作 [30, 81, 90] 使用圖像-情感配對數據或圖像驅動的情感預測器 [63] 來生成情感感知的動作。相比之下,我們結合了語音驅動的情感,這是一種更直觀的音頻驅動說話者頭像的情感控制方式。具體來說,我們利用一個預訓練的語音情感預測器,它輸出七種不同情感的 softmax 概率:憤怒、厭惡、恐懼、快樂、中性、悲傷和驚訝,然后我們將其輸入到 FMT 中。
然而,由于人們在說話時并不總是表現出單一、明確的情感,僅憑音頻來判斷情感往往是模糊的。簡單地引入語音驅動的情感可能會使情感感知的動作生成更加困難。為了解決這個問題,我們在訓練階段將情感與其他驅動條件一起注入,并在推理階段對其進行修改。
我們擴展了 CFV 到增量 CFV,以便分別調整音頻和情感,靈感來自 [3]:
采樣后,ODE 求解器接收估計的向量場,通過數值積分計算運動隱空間變量。我們通過實驗發現,FLOAT 可以在大約 10 次函數評估(NFE)內生成合理的運動。
最后,我們將源身份隱空間變量添加到生成的運動隱空間變量中,并使用運動隱空間變量解碼器將其解碼為視頻幀。
實驗
數據集和預處理
經過預處理后,對于 HDTF,我們使用了總計 11.3 小時的 240 個視頻,這些視頻包含 230 個不同的身份用于訓練,并使用 78 個不同身份的視頻進行測試,每個視頻長 15 秒。對于 RAVDESS,我們使用 22 個身份的視頻進行訓練,剩余 2 個身份的視頻用于測試,每個視頻長 3-4 秒,代表 14 種情感強度。請注意,兩個數據集中訓練和測試的身份是不重疊的。
實現細節
評估
指標和基線。 為了評估圖像和視頻生成的質量,我們測量了Fréchet Inception Distance (FID) 和16幀的Fréchet Video Distance (FVD)。對于面部身份、表情和頭部運動,我們分別測量了身份embedding的余弦相似度 (CSIM)、表情FID (E-FID) 和姿態FID (P-FID)。最后,我們測量了音頻與視覺對齊的唇同步誤差距離和置信度 (LSE-D 和 LSE-C)。
我們將我們的方法與當前最先進的語音驅動說話者頭像方法進行比較,這些方法的官方實現是公開可用的。對于非擴散方法,我們與SadTalker和EDTalk進行比較。對于擴散方法,我們與AniTalker、Hallo和EchoMimic進行比較。
比較結果。在上表1和上圖4中,我們分別展示了定量和定性的比較結果。FLOAT在大多數指標和視覺質量上都優于兩個數據集中的其他方法。
消融研究
關于FMT和流匹配的消融研究。 我們將使用逐幀AdaLN(和門控)并通過掩碼自注意力將條件分離與注意力分開的FMT,與同時執行條件和注意力的基于交叉注意力的Transformer進行比較。如下表2所示,這兩種方法都在圖像和視頻質量上表現出競爭力,而FMT在表情生成和唇同步方面表現更佳。
對NFE的消融研究。 一般來說,增加函數評估次數(NFE)可以減少ODE的解誤差。如下表3所示,即使在NFE=2較小的情況下,FLOAT也能實現有競爭力的圖像質量(FID)和唇同步(LSE-D)。然而,它在捕捉一致且富有表現力的動作(FVD和E-FID)方面表現不佳,導致頭部動作不穩和表情靜態。這是因為FLOAT在隱空間中生成動作,而圖像保真度由自動編碼器決定。
進一步的研究
值得注意的是,引入姿態參數顯著改善了圖像和視頻指標。這是因為驅動的頭部姿態有助于捕捉目標分布的頭部姿態。此外,語音驅動的情感和圖像驅動的情感都一致地提高了在情感密集數據集中生成的動作質量,其中圖像驅動的情感取得了略好一些的指標。這是因為與語音驅動的方法相比,圖像驅動的方法稍微不那么模糊。
重定向語音驅動的情感。 由于 FLOAT 是在情感密集型視頻數據集上訓練的,我們可以通過手動將預測的情感標簽重定向為另一種(例如,一個獨熱標簽),在推理時將生成的情感感知說話動作更改為不同的情感。如下圖7所示,當從語音預測的情感復雜或模糊時,這可以實現手動重定向。
用戶研究。 在下表 6 中,我們進行了一項基于平均意見得分(MOS)的用戶研究,以比較每種方法的感知質量(例如,牙齒清晰度和情感自然性)。我們使用基線和 FLOAT 生成了 6 個視頻,并請 15 名參與者根據五個評估因素對每個生成的視頻進行 1 到 5 的評分。如下表 6 所示,FLOAT 優于基線。
結論
FLOAT,這是一種基于流匹配的音頻驅動說話者頭像生成模型,利用了學習到的運動隱空間。引入了一個基于transformer的矢量場預測器,實現了時間上一致的運動生成。此外,將語音驅動的情感標簽納入運動采樣過程,以提高音頻驅動說話動作的自然性。FLOAT 通過流匹配減少采樣時間,同時實現了卓越的樣本質量,解決了當前基于擴散的方法在生成說話者頭像視頻時的核心限制。大量實驗驗證了 FLOAT 在視覺質量、運動逼真度和效率方面達到了最新的性能。
本文轉自AI生成未來 ,作者:AI生成未來
