成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

音頻驅動人像視頻模型:字節Loopy、CyberHost研究成果揭秘

人工智能 新聞
Loopy 模型采用了 Diffusion 視頻生成框架。輸入一張圖片和一段音頻,就可以生成相應的視頻。

近期,來自字節跳動的視頻生成模型 Loopy,一經發布就在 X 上引起了廣泛的討論。Loopy 可以僅僅通過一張圖片和一段音頻生成逼真的肖像視頻,對聲音中呼吸,嘆氣,挑眉等細節都能生成的非常自然,讓網友直呼哈利波特的魔法也不過如此。

圖片

圖片

圖片

Loopy 模型采用了 Diffusion 視頻生成框架。輸入一張圖片和一段音頻,就可以生成相應的視頻。不但可以實現準確的音頻和口型同步,還可以生成細微自然的表情動作,例如人物跟隨情緒節奏做出抬眉、吸氣、憋嘴停頓、嘆氣、肩膀運動等非語言類動作也能很好地被捕捉到;在唱歌時也能表現得活靈活現,駕馭不同風格。

柔和

高昂

rap

更多豐富風格的展示,可移步項目主頁:https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634

在不同的圖片風格上,Loopy 也都表現得不錯,像古風畫像、粘土風格、油畫風格、3D 素材以及側臉的情況等等。

Loopy 技術方案

具體來說,Loopy 是如何僅需音頻,就能實現這樣生動的效果呢?

圖片


Loopy 框架中分別對外觀信息(對應圖中左上角)和音頻信息(圖中左下角)做了相應的方法設計,在外觀上團隊引入了 inter/intra- clip temporal layers 模塊,通過 inter-clip temporal layer 來捕捉跨時間片段的時序信息,通過 intra-clip temporal layer 來捕捉單個片段內的時序信息,通過分而治之的方式更好建模人物的運動信息。

圖片

同時為了進一步的提升效果,團隊設計了 Temporal Segment Module 使得 inter-clip temporal layer 可以捕捉長達 100 幀以上的時序信息,從而可以更好的基于數據學習長時運動信息依賴,拋棄了空間模版的限制,最終生成更好的人像運動。這就不難理解為什么 Loopy 可以僅僅依靠音頻,不需要任何空間輔助信號就可以生成自然逼真的人像視頻了。

圖片

除此以外,為了能夠捕捉到細膩的表情變化,團隊設計了一個名為 audio to latents(A2L)的模塊,用來增強音頻和頭部運動之間的關聯關系。這個 A2L 模塊在訓練過程中會隨機選取音頻、表情參數、運動參數中的一個,將其轉化為 motion latents,作為 diffusion model 的運動控制信號。在測試的時候,只需要音頻就能夠得到 motion latents。通過這種方式,可以借助與肖像運動強相關的條件(表情參數、運動參數)來幫助較弱相關的條件(audio)生成更好的 motion latents,進而實現對細微生動的肖像運動及表情的生成。

Loopy 在不同場景下都和近期的方法做了數值對比,也體現了相當的優勢:

圖片

CyberHost 半身人像版模型,手部動作也能驅動

除此以外,該團隊近期還推出了一個名為 CyberHost 的半身人像版本。這款模型是首個采用端到端算法框架進行純音頻驅動的半身視頻生成系統,將驅動范圍從肖像擴大到了半身,不僅表情自然、口型準確,也能生成和音頻同步的手部動作,這在該領域是一個重大突破。

手部動作生成一直是視頻生成技術中的難題,鮮有模型能實現穩定的效果。特別是在純音頻驅動的場景下,由于缺乏骨架信息輸入,保持手部動作的穩定性更具挑戰。CyberHost 通過專門設計的 Codebook Attention 來強化對人臉和手部等關鍵區域的結構先驗學習,在純音頻驅動下的手部生成質量甚至超越了許多基于視頻驅動的方法。

圖片

圖片

Codebook Attention 引入了一系列可學習的時空聯合隱變量參數,專注于在訓練過程中學習數據集中局部區域的結構特征和運動模式。同時,該機制還提取了關鍵區域的外觀特征,強化了局部 ID 的一致性。團隊將這一機制應用于臉部和手部區域,并在 Denoising U-Net 的各個階段進行插入,提升了對關鍵區域的建模能力。

圖片

此外,CyberHost 還設計了一系列基于人體結構先驗的訓練策略,旨在減少音頻驅動下人體動作生成的不確定性。這些策略包括 Body Movement Map 和 Hand Clarity Score。Body Movement Map 可以用于限制視頻生成中人體的運動范圍。而 Hand Clarity Score 通過計算局部像素的 laplacian 算子來控制生成手部的清晰度,規避手部運動模糊帶來的效果劣化。

更多細節見論文以及項目主頁:

CyberHost: https://cyberhost.github.io/, https://arxiv.org/pdf/2409.01876

團隊介紹

字節跳動智能創作數字人團隊,智能創作是字節跳動 AI & 多媒體技術團隊,覆蓋了計算機視覺、音視頻編輯、特效處理等技術領域,借助公司豐富的業務場景、基礎設施資源和技術協作氛圍,實現了前沿算法 - 工程系統 - 產品全鏈路的閉環,旨在以多種形式為公司內部各業務提供業界前沿的內容理解、內容創作、互動體驗與消費的能力和行業解決方案。其中數字人方向專注于建設行業領先的數字人生成和驅動技術,豐富智能創作內容生態。

目前,智能創作團隊已通過字節跳動旗下的云服務平臺火山引擎向企業開放技術能力和服務。更多大模型算法相關崗位開放中。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-11-21 16:43:57

2014-12-15 09:57:43

綠色網格綠色數據中心

2023-12-25 09:07:50

AI人工智能Ferret

2023-02-17 10:50:32

字節跳動卷積神經網絡BERT

2013-06-20 18:22:32

PTC制造業

2013-09-29 13:03:53

微軟WindowsKinect

2022-06-23 13:51:37

火山引擎預訓練模型

2019-08-08 13:21:31

2010-03-05 11:49:02

2024-12-02 13:30:00

2014-07-16 09:45:58

2020-05-25 10:49:10

安恒信息

2021-05-13 13:33:39

數字化

2020-12-09 22:32:49

Zotero開源開源應用

2024-02-29 11:53:22

神經網絡NNVMC偏微分方程求解器
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲综合天堂 | av一级 | 国产欧美在线播放 | 久久91 | 五月香婷婷| 狠狠干五月天 | 成人在线视频一区二区三区 | 蜜臀网 | 中文字幕第二区 | 亚洲国产精品自拍 | 北条麻妃一区二区三区在线观看 | 成人精品免费视频 | 嫩草伊人| 中文字幕国产精品 | 成人免费视频观看视频 | 久久精品网 | 精品国产青草久久久久96 | 久久久久国产精品午夜一区 | 成人性视频在线播放 | 久久亚洲春色中文字幕久久久 | 国产一级一级毛片 | 久久综合国产精品 | 日韩欧美一区二区三区免费观看 | 91国产在线视频在线 | 在线日韩欧美 | 中文字幕av在线 | 亚洲欧美一区在线 | 天天干天天爽 | 婷婷综合在线 | 91av视频| 精品国产乱码久久久久久图片 | 中文字幕第三页 | 玖玖免费 | 日韩三级电影一区二区 | 亚洲网址在线观看 | 日韩国产一区二区三区 | 男女羞羞免费网站 | 成人黄色a | 日韩视频一区 | 国产日韩91 | 亚洲第1页 |