音頻驅動人像視頻模型:字節Loopy、CyberHost研究成果揭秘
近期,來自字節跳動的視頻生成模型 Loopy,一經發布就在 X 上引起了廣泛的討論。Loopy 可以僅僅通過一張圖片和一段音頻生成逼真的肖像視頻,對聲音中呼吸,嘆氣,挑眉等細節都能生成的非常自然,讓網友直呼哈利波特的魔法也不過如此。
Loopy 模型采用了 Diffusion 視頻生成框架。輸入一張圖片和一段音頻,就可以生成相應的視頻。不但可以實現準確的音頻和口型同步,還可以生成細微自然的表情動作,例如人物跟隨情緒節奏做出抬眉、吸氣、憋嘴停頓、嘆氣、肩膀運動等非語言類動作也能很好地被捕捉到;在唱歌時也能表現得活靈活現,駕馭不同風格。
柔和
高昂
rap
更多豐富風格的展示,可移步項目主頁:https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634
在不同的圖片風格上,Loopy 也都表現得不錯,像古風畫像、粘土風格、油畫風格、3D 素材以及側臉的情況等等。
Loopy 技術方案
具體來說,Loopy 是如何僅需音頻,就能實現這樣生動的效果呢?
Loopy 框架中分別對外觀信息(對應圖中左上角)和音頻信息(圖中左下角)做了相應的方法設計,在外觀上團隊引入了 inter/intra- clip temporal layers 模塊,通過 inter-clip temporal layer 來捕捉跨時間片段的時序信息,通過 intra-clip temporal layer 來捕捉單個片段內的時序信息,通過分而治之的方式更好建模人物的運動信息。
同時為了進一步的提升效果,團隊設計了 Temporal Segment Module 使得 inter-clip temporal layer 可以捕捉長達 100 幀以上的時序信息,從而可以更好的基于數據學習長時運動信息依賴,拋棄了空間模版的限制,最終生成更好的人像運動。這就不難理解為什么 Loopy 可以僅僅依靠音頻,不需要任何空間輔助信號就可以生成自然逼真的人像視頻了。
除此以外,為了能夠捕捉到細膩的表情變化,團隊設計了一個名為 audio to latents(A2L)的模塊,用來增強音頻和頭部運動之間的關聯關系。這個 A2L 模塊在訓練過程中會隨機選取音頻、表情參數、運動參數中的一個,將其轉化為 motion latents,作為 diffusion model 的運動控制信號。在測試的時候,只需要音頻就能夠得到 motion latents。通過這種方式,可以借助與肖像運動強相關的條件(表情參數、運動參數)來幫助較弱相關的條件(audio)生成更好的 motion latents,進而實現對細微生動的肖像運動及表情的生成。
Loopy 在不同場景下都和近期的方法做了數值對比,也體現了相當的優勢:
CyberHost 半身人像版模型,手部動作也能驅動
除此以外,該團隊近期還推出了一個名為 CyberHost 的半身人像版本。這款模型是首個采用端到端算法框架進行純音頻驅動的半身視頻生成系統,將驅動范圍從肖像擴大到了半身,不僅表情自然、口型準確,也能生成和音頻同步的手部動作,這在該領域是一個重大突破。
手部動作生成一直是視頻生成技術中的難題,鮮有模型能實現穩定的效果。特別是在純音頻驅動的場景下,由于缺乏骨架信息輸入,保持手部動作的穩定性更具挑戰。CyberHost 通過專門設計的 Codebook Attention 來強化對人臉和手部等關鍵區域的結構先驗學習,在純音頻驅動下的手部生成質量甚至超越了許多基于視頻驅動的方法。
Codebook Attention 引入了一系列可學習的時空聯合隱變量參數,專注于在訓練過程中學習數據集中局部區域的結構特征和運動模式。同時,該機制還提取了關鍵區域的外觀特征,強化了局部 ID 的一致性。團隊將這一機制應用于臉部和手部區域,并在 Denoising U-Net 的各個階段進行插入,提升了對關鍵區域的建模能力。
此外,CyberHost 還設計了一系列基于人體結構先驗的訓練策略,旨在減少音頻驅動下人體動作生成的不確定性。這些策略包括 Body Movement Map 和 Hand Clarity Score。Body Movement Map 可以用于限制視頻生成中人體的運動范圍。而 Hand Clarity Score 通過計算局部像素的 laplacian 算子來控制生成手部的清晰度,規避手部運動模糊帶來的效果劣化。
更多細節見論文以及項目主頁:
CyberHost: https://cyberhost.github.io/, https://arxiv.org/pdf/2409.01876
團隊介紹
字節跳動智能創作數字人團隊,智能創作是字節跳動 AI & 多媒體技術團隊,覆蓋了計算機視覺、音視頻編輯、特效處理等技術領域,借助公司豐富的業務場景、基礎設施資源和技術協作氛圍,實現了前沿算法 - 工程系統 - 產品全鏈路的閉環,旨在以多種形式為公司內部各業務提供業界前沿的內容理解、內容創作、互動體驗與消費的能力和行業解決方案。其中數字人方向專注于建設行業領先的數字人生成和驅動技術,豐富智能創作內容生態。
目前,智能創作團隊已通過字節跳動旗下的云服務平臺火山引擎向企業開放技術能力和服務。更多大模型算法相關崗位開放中。