成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

音頻秒生全身虛擬人像,AI完美驅動面部肢體動作!UC伯克利Meta提出Audio2Photoreal

人工智能
最近,來自Meta和UC伯克利的研究人員,發布了一種最新的音頻到人像模型。操作簡單,輸出極致逼真。

就在最近,Meta和UC伯克利聯合提出了一種全新的虛擬人物形象生成的方法——

直接根據音頻生成全身人像,效果不僅逼真,還能模擬出原音頻中包含的細節,比如手勢、表情、情緒等等。

圖片圖片

論文地址:https://arxiv.org/abs/2401.01885

話不多說,直接上圖。

圖片圖片

可以看到,人像刷地一下就出來了,十分逼真。

而且從上面的文字對話可以看到,就是在講可以用音頻生成虛擬人像這件事。講者的手勢動作真的像是在做講解。

音頻到Avatar,一步!

這個系統不光可以生成全身逼真的形象,人像還會根據二人互動的對話動態做出手勢。

給定語音音頻后,音頻會為一個人輸出多種可能的手勢動作,包括面部、身體和雙手等部位。

Meta表示,方法的關鍵就在于將矢量量化帶來的樣本多樣性優勢與通過擴散獲得的高頻細節相結合,從而生成更具動態和表現力的動作。

圖片圖片

研究團隊使用了高度逼真的人像,將生成的運動可視化。這些頭像可以表達手勢中的關鍵細微差別(如譏笑和傻笑)。

為了促進這一研究方向,Meta首次引入了一個叫作多視角對話數據集的玩意兒,可以讓用戶進行逼真的重建。

實驗表明,Meta的新模型能生成恰當且多樣化的手勢,從性能上講,要優于擴散和純VQ的方法。

此外,在研究過程中,Meta在感知評估這一塊強調了逼真度在準確評估對話手勢中所包含的微妙運動細節方面的重要性。

Meta已將代碼和數據集公開發布在了網站上。

具體來看,要實現這個最終結果,有以下6個步驟:

  1. 一個新穎、豐富的二元對話數據集,可以進行逼真的重構。

圖片圖片

  1. 由三部分組成的運動模型:面部運動模型、引導姿勢預測器和身體運動模型。

圖片圖片

  1. 給定音頻和預訓練唇語回歸器的輸出,Meta訓練一個條件擴散模型來輸出面部運動。

圖片圖片

  1. 對于身體部分,Meta將音頻作為輸入,并以1fps的速度自回歸輸出VQ-ed引導姿勢。

圖片圖片

  1. 然后,將音頻和引導姿態傳遞到同一個擴散模型中,以30 fps的速度填充高頻率的身體運動。

圖片圖片

  1. 最后,生成的面部和肢體運動都會傳入Meta訓練過的人像渲染器,生成逼真的人像。

圖片圖片

然后,成品就有了!

圖片圖片

Meta在博客中列舉了四個比較有特色的點,以此來凸顯效果的逼真和模型的強大。

  1. 甩腕表示梳理要點;講故事時聳肩。

  1. 表達「它們的發生肯定是有原因的」時,強調手臂的動作;用手指的動作來表示陳述。

圖片圖片

  1. 通過手部動作來配合談話,以及聲音的起伏。

圖片圖片

  1. 提問時手指的動作細節;想問題時頭向后仰,做思考狀;回答時手向外推。

圖片圖片

論文

經過前面的介紹,整個流程大家估計已經很熟悉了。

無非就是,音頻輸入、中間過程,以及最終輸出。

圖片圖片

關于對話的原始音頻,Meta引入了一個模型(上面提到過),該模型能為兩人中的其中一人生成相應的逼真面部、身體和手部動作。

研究人員從記錄的多視角數據中提取潛在表情代碼來表示面部特征,并用運動骨架中的關節角度來表示身體姿勢。

該系統由兩個生成模型組成,在輸入二人對話音頻的情況下,生成表情代碼和身體姿勢序列。

圖片圖片

然后,就可以使用Meta的神經人像渲染器,逐幀渲染表情代碼和身體姿勢序列。

首先,臉部與輸入音頻的相關性很強,尤其是嘴唇的運動,而身體與語音的相關性較弱。這就導致在給定的語音輸入中,肢體手勢的合理性更加多樣化。

其次,由于在兩個不同的空間(學習到的表情代碼與關節角度)中表示面部和身體,因此它們各自遵循不同的時間動態。因此,研究人員選擇用兩個獨立的運動模型來模擬面部和身體。這樣,臉部模型就可以將其能力用于生成與語音一致的臉部細節,而身體模型則可以專注于生成多樣但合理的身體運動。

此外,面部運動模型是一個擴散模型,以輸入音頻和由預先訓練的唇部回歸器生成的唇部頂點為條件,如下圖所示。

圖片圖片

對于肢體運動模型,Meta發現,僅以音頻為條件的純擴散模型產生的運動多樣性較少,而且在時間上顯得不可思議。

但是,當以不同的引導姿勢為條件時,質量就會提高。

因此,Meta選擇將身體運動模型分為兩部分:首先,自回歸音頻條件變換器以 1fps 的速度預測粗略的引導姿勢,然后擴散模型利用這些粗略的引導姿勢來填充細粒度和高頻運動。

圖片圖片

為了從音頻輸入生成面部動作,Meta構建了一個以音頻為條件的擴散模型,遵循DDPM對擴散的定義。

前向噪聲過程定義為:

圖片圖片

其中,F(0)近似于無噪聲的面部表情代碼序列,τ∈ [1, ... , T˙]表示前向擴散步驟,ατ∈ (0, 1) 遵循單調遞減。當 τ接近T˙時,Meta對F(T˙)~N(0, I)進行采樣。

為了逆轉噪聲過程,Meta定義了一個模型,從噪聲F(τ)中去噪F(0)。

然后,將前向過程應用于預測的F(0),就能得到反向過程的下一步F(τ-1) 。

而對于身體動作的模型,給定對話的輸入音頻后,自注意力模型P會生成多種多樣的引導姿勢序列樣本,包括傾聽反應、說話手勢和插話。

P會從豐富的已學姿勢代碼庫中采樣,可生成各種姿勢,甚至還有如指點、搔癢、鼓掌等小動作,在不同樣本中具有很高的多樣性。

圖片圖片

然后,這些不同的姿勢將被用于身體擴散模型J的條件。

實驗階段,Meta評估了模型有效生成逼真對話動作的能力。

研究人員根據跟蹤的實況數據(F、J)對結果的真實性和多樣性進行了定量評估。

同時還進行了感知評估,以證實定量結果,并衡量生成的手勢在特定對話環境中的適當性。

評估結果表明,在逼真的頭像上呈現的手勢比在三維網格上呈現的手勢更容易被評估者感知。

下圖為基線和消融(ablation)與實況(GT)的對比。下箭頭↓ 表示越低越好。

Meta對數據集中的所有受試者取平均值,并對Divsample的5個序列進行采樣,并對每個指標的所有采樣取平均值。下標為標準偏差(μσ)。

圖片圖片

下圖為唇部動作的誤差。垂直和水平距離是上下和左右關鍵點之間沿Y(X)軸的距離。

下表中顯示的是GT與生成距離之間的L2差值。Mesh L2指的是唇部區域生成網格頂點與GT網格頂點的誤差。誤差單位為平方毫米。

圖片圖片

為了量化對話中的手勢連貫性,Meta主要通過感知評估來評價。

研究團隊在Amazon Mechanical Turk上進行了兩種不同的A/B測試。在第一個測試中,評估者觀看的是在普通非紋理網格上渲染的動作。在第二項測試中,評估者觀看的是逼真人像上的運動視頻。

在這兩種情況下,評估者都觀看了一系列視頻對比。

在每對視頻中,一個視頻來自Meta的模型,另一個視頻來自最強基線LDA或GT。然后,評估人員被要求根據對話音頻找出看起來更合理的動作。

同時,可選答案還細化到了略微偏好與強烈偏好。

如下圖所示,Meta引入的方法明顯優于最強基準LDA,大約70%的評估者在Mesh和照片真實設置中都更喜歡Meta的成品。

有趣的是,當以逼真的方式可視化時,評估者對該方法的偏好從略微偏好轉為了強烈偏好。

而當將Meta的方法與GT進行比較時,這一趨勢仍在繼續。

在基于Mesh的渲染中,Meta的方法與GT相比,同樣具有競爭力,但在逼真領域卻落后了。43%的評估者強烈傾向于GT而非Meta的方法。

由于Mesh通常會掩蓋微妙的運動細節,因此很難準確評估手勢中的細微差別,導致評估者會對不正確的運動更加寬容。

綜上來看,結果表明,逼真度對于準確評估對話動作至關重要。

圖片圖片

參考資料:

https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-01-22 15:21:00

2023-11-14 07:47:42

IGN擴散模型

2024-07-31 15:38:00

2024-12-18 07:20:00

2024-01-07 23:13:43

AI虛擬

2025-05-06 15:31:55

智能模型AI

2025-04-23 09:10:00

AI系統模型

2024-08-19 14:05:00

2022-03-28 13:25:42

AI扶貧機器之心

2023-05-31 16:15:51

模型圖像

2025-03-18 09:23:22

2025-05-15 09:10:00

2023-04-07 09:28:31

模型訓練

2018-10-09 14:00:41

SQL深度學習神經網絡

2025-04-18 08:42:52

模型推理AI

2023-04-04 13:17:00

GPUCMU開源

2023-06-08 11:27:10

模型AI

2023-05-04 14:55:02

模型AI

2023-12-16 09:49:18

2024-03-26 15:43:00

訓練數據機器人
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美国产精品一区二区三区 | 91黄在线观看 | 国产特级毛片aaaaaa | 国产亚洲成av人片在线观看桃 | 欧美在线视频一区二区 | 亚洲va中文字幕 | 日韩在线一区二区 | 色av一区二区三区 | 中文字幕日本一区二区 | 国产精品久久九九 | 狠狠艹| 免费在线观看av | 成年女人免费v片 | 成人欧美一区二区 | 欧美日韩视频 | av在线成人 | 亚洲一区二区三区免费视频 | 成年人网站在线观看视频 | 伊人爽 | 久产久精国产品 | 黄色一级片aaa | 91精品国产91久久久久久密臀 | 国产日韩欧美在线一区 | 亚洲精品电影在线观看 | 国产精品三级久久久久久电影 | 欧美高清视频在线观看 | 欧美激情综合色综合啪啪五月 | 国产www成人| 日本精品网站 | 欧美午夜精品久久久久久浪潮 | 日韩字幕一区 | 日日操天天射 | 四虎成人av | 国产精品久久午夜夜伦鲁鲁 | 午夜不卡福利视频 | 国产综合久久 | 久久精品国产99国产精品亚洲 | 国产99热| 一区二区三区免费 | 日韩不卡一二区 | 欧美激情视频网站 |