成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

清華和字節跳動提出神經網絡配音器,有望讓影視后期效率倍增

新聞
清華大學和字節跳動智能創作語音團隊業內首次提出神經網絡配音器,讓 AI 根據配音腳本,自動生成與畫面節奏同步的高質量配音。

 [[436247]]

影視配音是一項技術含量很高的專業技能。專業配音演員的聲音演繹往往讓人印象深刻?,F在,AI 也有望自動實現這種能力。

近期,清華大學和字節跳動智能創作語音團隊業內首次提出了神經網絡配音器(Neural Dubber)。這項研究能讓 AI 根據配音腳本,自動生成與畫面節奏同步的高質量配音。相關論文 Neural Dubber: Dubbing for Videos According to Scripts 已入選機器學習和計算神經科學領域頂級學術會議 NeurIPS 2021。

清華和字節跳動提出神經網絡配音器,有望讓影視后期效率倍增
  • 論文地址:https://arxiv.org/abs/2110.08243
  • 項目主頁:https://tsinghua-mars-lab.github.io/NeuralDubber/

配音(Dubbing)廣泛用于電影和視頻的后期制作,具體指的是在安靜的環境(即錄音室)中重新錄制演員對話的后期制作過程。配音常見于兩大應用場景:第一個是替換拍攝時錄制的對話,如拍攝場景下錄制的語音音質不佳,又或者出于某種原因演員只是對了口型,聲音需要事后配上;第二個是對譯制片配音,例如,為了便于中國觀眾欣賞,將其他語言的視頻翻譯并配音為中文。

清華大學和字節跳動智能創作語音團隊的這項研究主要關注第一個應用場景,即 “自動對話替換(ADR)”。在這一場景下,專業的配音演員觀看預先錄制的視頻中的表演,并用適當的韻律(例如重音、語調和節奏)重新錄制每一句臺詞,使他們的講話與預先錄制的視頻同步。

為了實現上述目標,該團隊定義了一個新的任務,自動視頻配音(Automatic Video Dubbing, AVD), 從給定文本和給定視頻中合成與該視頻時序上同步的語音。

此前,行業內的很多研究是,根據給定語音生成與之同步的說話人的面部視頻(Talking Face Generation)。而 AVD 任務正好相反,是用于生成與視頻同步的語音,更加適用于真實的應用場景,因為影視作品拍攝的視頻往往質量很高,并不希望再對其進行修改。

清華和字節跳動提出神經網絡配音器,有望讓影視后期效率倍增

圖 1:自動視頻配音(AVD)任務示意圖。給定文本和視頻作為輸入,AVD 任務旨在合成與視頻在時間上同步的語音。這是兩個人互相交談的場景。面部圖片是灰色的,表示當時這個人沒有說話。

清華大學和字節跳動智能創作語音團隊提出的神經網絡配音器(Neural Dubber)旨在解決自動視頻配音(AVD)任務。這是第一個解決 AVD 任務的神經網絡模型:能夠從文本中端到端地并行合成與給定視頻同步的高質量語音。神經網絡配音器是一種多模態文本到語音 (TTS) 模型,它利用視頻中的嘴部運動來控制生成語音的韻律,以達到語音和視頻同步的目的。此外,該工作還針對多說話人場景開發了基于圖像的說話人嵌入 (ISE) 模塊,該模塊使神經網絡配音器能夠根據說話人的面部生成具有合理音色的語音。

具體的技術方法如下:

神經網絡配音器(Neural Dubber)將 AVD 任務具體建模成如下形式:給定音素序列和視頻幀序列,模型需要預測與視頻同步的梅爾頻譜序列。

清華和字節跳動提出神經網絡配音器,有望讓影視后期效率倍增

圖 2:神經網絡配音器(Neural Dubber)的模型結構。

神經網絡配音器(Neural Dubber)的整體模型結構如圖 2 所示。首先,神經網絡配音器應用音素編碼器和視頻編碼器分別處理音素序列和視頻幀序列。編碼后,音素序列變成音素隱表示序列,視頻幀序列變成視頻隱表示序列。然后,音素隱表示序列和視頻隱表示序列被輸入到文本視頻對齊器(Text-Video Aligner),得到經過擴展后的梅爾頻譜隱表示序列,它與目標梅爾頻譜序列的長度相同。該工作在文本視頻對齊器中解決了音素和梅爾頻譜序列長度不一致的問題。在多說話人場景時,模型會從視頻幀序列中隨機選擇的一張人臉圖像,輸入到基于圖像的說話人嵌入(Image-based Speaker Embedding, ISE)模塊以生成基于圖像的說話人嵌入。梅爾頻譜隱表示序列會與 ISE 相加,并輸入到可變信息適配器(Variance Adaptor)中以添加一些方差信息(例如,音高、音量(頻譜能量))。最后,梅爾頻譜解碼器(Mel-spectrogram Decoder)將隱表示序列轉換為梅爾頻譜序列。

文本視頻對齊器(Text-Video Aligner)

文本視頻對齊器(圖 2(b))可以找到文本和嘴部運動之間的對應關系,利用這種對應關系可以進一步生成與視頻同步的語音。

在文本視頻對齊器中,注意力模塊學習音素序列和視頻幀序列之間的對齊方式,并生成文本視頻上下文特征序列。然后執行上采樣操作以將此序列從與視頻幀序列一樣長擴展到與目標梅爾頻譜序列一樣長。

清華和字節跳動提出神經網絡配音器,有望讓影視后期效率倍增

注意力模塊中,視頻隱表示序列用作查詢。因此,注意力權重由視頻顯式地控制,并實現了視頻幀和音素之間的時序對齊。獲得的視頻幀和音素之間的單調對齊有助于合成出的語音在細粒度(音素)級別上和視頻同步。

之后,將文本視頻上下文特征序列擴展到與目標梅爾頻譜序列一樣的長度。這樣音素和梅爾頻譜序列之間的長度不匹配問題,就在沒有音素和梅爾頻譜細粒度對齊監督的情況下得到解決。由于視頻幀和音素之間的注意力機制,合成語音的速度和韻律由輸入視頻顯式地控制,使得能夠合成與視頻同步的語音。

基于圖像的說話人嵌入(Image-based Speaker Embedding)

在真實的配音場景中,配音演員需要為不同的表演者改變音色。為了更好地模擬 AVD 任務的真實情況,該研究提出了基于圖像的說話人嵌入模塊(圖 2(c)),目標是在多說話人的場景中利用說話人的面部特征對合成語音進行不同音色的調節。就像人們可以從他人的外表(性別、年齡等)大致推斷出對方說話的音色。

基于圖像的說話人嵌入是一種新型的多模態說話人嵌入,能夠從人臉圖片生成說話人嵌入,該嵌入蘊含了圖像中所能體現的說話人的聲音特征。ISE 模塊利用視頻中人臉和語音的天然對應關系,采用自監督的方式進行訓練,不需要說話人身份的監督。ISE 模塊學習到人臉和聲音特征的相關性,讓神經網絡配音器(Neural Dubber)能夠產生具有合理音色的語音。合理指的是聲音特征與從說話人面部推斷出的各種屬性(例如,性別和年齡等)相符。

實驗和結果

在單說話人數據集 Chemistry Lectures 和多說話人數據集 LRS2 上的實驗表明,神經網絡配音器(Neural Dubber)可以生成與 SOTA 的 TTS 模型在音質方面相當的語音。最重要的是,定性和定量評估都表明,神經網絡配音器可以通過視頻控制合成語音的韻律,并生成與視頻同步的高質量語音。

評價指標

由于 AVD 任務旨在給定文本和視頻合成與該視頻同步的語音,因此語音質量和音視頻同步度是重要的評估標準。定性評價上,該研究在測試集進行平均意見分數(MOS)評估,以衡量語音質量和音視頻同步度。定量評價上,該研究采用兩個指標:Lip Sync Error - Distance (LSE-D) 和 Lip Sync Error - Confidence (LSE-C)。

單說話人場景

研究者首先在單說話人數據集上進行實驗,將 Neural Dubber 與以下幾個系統進行比較,包括 1) GT,真實音視頻數據;2) GT (Mel + PWG),先將真實音頻轉換為梅爾頻譜圖,然后使用 Parallel WaveGAN (PWG) 將其轉換回音頻;3) FastSpeech 2 (Mel + PWG);4) Video-based Tacotron (Mel + PWG)。為了進行公平比較,2)、3)、4) 和 Neural Dubber 中的使用相同預訓練的 Parallel WaveGAN。

清華和字節跳動提出神經網絡配音器,有望讓影視后期效率倍增

表 1:單說話人場景下自動視頻配音的測評結果。

從結果(如表 1 所示)可以看出,Neural Dubber 在音頻質量上與 FastSpeech 2 不相上下,這表明 Neural Dubber 可以合成高質量的語音。此外,在音視頻同步度方面,Neural Dubber 明顯優于 FastSpeech 2 和 Video-based Tacotron,而且與 GT (Mel + PWG) 系統相媲美,這表明 Neural Dubber 可以用視頻控制語音的韻律并生成與視頻同步的語音。然而, FastSpeech 2 和 Video-based Tacotron 都無法生成與視頻同步的語音。

清華和字節跳動提出神經網絡配音器,有望讓影視后期效率倍增

圖 3: 由以下系統合成的音頻的梅爾頻譜圖:Ground Truth (GT)、Neural Dubber (ND)、FastSpeech 2 (FS2) 和 Video-based Tacotron (VT)。

圖 3 展示了一個定性比較,其中包含由上述系統生成的音頻的梅爾頻譜圖。結果表明 Neural Dubber 生成的音頻的韻律十分接近于真實音頻的韻律,即與視頻同步度很高。

多說話人場景

該研究還在多說話人數據集 LRS2 上進行了相同的定性和定量評估。

清華和字節跳動提出神經網絡配音器,有望讓影視后期效率倍增

表 2: 多說話人場景下自動視頻配音的測評結果。

從結果(如表 2 所示)可以看出, Neural Dubber 在音頻質量方面明顯優于 FastSpeech 2,展示了 ISE 在多說話人場景中的有效性。定性和定量評估表明,在音視頻同步度方面,Neural Dubber 比 FastSpeech 2 好得多,并且與 GT (Mel + PWG) 系統相當。這些結果表明,Neural Dubber 可以解決比單說話人場景更具挑戰性的多說話人場景下的自動視頻配音(AVD)問題。

為了展示 ISE 使得 Neural Dubber 能夠通過人臉圖像控制生成語音的音色。該研究用 Neural Dubber 生成了一些由不同說話者人臉圖像作為輸入的音頻片段。研究者從 LRS2 數據集的測試集中隨機選擇 12 名男性和 12 名女性進行評估,每個人選擇了 10 張具有不同頭部姿勢、光照和化妝的人臉圖像。

清華和字節跳動提出神經網絡配音器,有望讓影視后期效率倍增

圖 4: 說話人嵌入的可視化。

從圖 4 可以看出,由同一說話人的圖像生成的語音形成一個緊密的簇,不同說話人的簇彼此分離。此外,由不同性別的人臉圖像合成的語音之間存在明顯差異。

與基于嘴部運動的語音生成方法的對比

與基于嘴部運動的語音生成(Lip-motion Based Speech Generation )模型 Lip2Wav 對比,Neural Dubber 在自動視頻配音任務下的優越性十分顯著。

研究者使用 STOI 和 ESTOI 來評估語音可懂度,使用 PESQ 來評估語音質量,使用單詞錯誤率 (WER) 評估語音發音準確度。

表 3: Lip2Wav 和 Neural Dubber 在單說話人場景下的比較。

如表 3 的結果所示,Neural Dubber 在語音質量和可懂度方面均超過 Lip2Wav。最重要的是,Neural Dubber 的 WER 比 Lip2Wav 低 4 倍左右。這表明 Neural Dubber 在發音準確度上明顯優于 Lip2Wav。Lip2Wav 的 WER 高達 72.70%,說明它誤讀了很多內容,這在 AVD 任務中是不可接受的??偠灾琋eural Dubber 在語音可懂度、音質和發音準確度方面明顯優于 Lip2Wav,更適合自動視頻配音任務。

清華大學 MARS Lab 多模態學習實驗室簡介:MARS Lab 多模態學習實驗室,是清華大學交叉信息院下的交叉學科人工智能實驗室,由趙行教授組建和指導。團隊特別感興趣如何讓機器像人一樣的能夠通過多種感知輸入進行學習、推理和交互。團隊的研究涵蓋了多模態學習的基礎問題及其應用。

字節跳動智能創作語音團隊簡介:字節跳動智能創作 - 語音團隊 (Speech, Audio and Music Intelligence, SAMI) 致力于語音、音頻、音樂等技術的研發和產品創新,使命是通過多模態音頻技術賦能內容創作和互動,讓內容消費和創作變得更簡單和愉悅。 團隊支持包括語音合成、音頻處理和理解、音樂理解和生成等技術方向,并以中臺形式服務于公司眾多業務線以及向外部企業開放成熟的能力和服務。

項目主頁:https://tsinghua-mars-lab.github.io/NeuralDubber/

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2019-06-29 17:23:46

人工智能機器學習技術

2019-07-22 16:55:46

神經網絡數據圖形

2021-08-18 10:41:24

GoogleSoundStream神經網絡

2018-07-03 16:10:04

神經網絡生物神經網絡人工神經網絡

2017-05-22 14:45:51

大數據神經網絡架構

2025-02-19 15:12:17

神經網絡PyTorch大模型

2023-05-19 13:49:17

神經網絡AI

2020-03-02 11:04:19

人工智能機器學習技術

2017-07-03 10:55:48

神經網絡深度學習

2016-03-30 10:29:25

神經網絡處理器神經網絡DianNaoYu

2021-04-21 10:18:25

人工智能機器學習技術

2021-08-18 15:48:03

神經網絡數據圖形

2018-08-30 09:15:42

人工智能神經網絡深度學習

2017-09-10 07:07:32

神經網絡數據集可視化

2025-02-25 14:13:31

2021-07-28 15:35:58

谷歌神經網絡AI

2021-11-16 09:31:24

神經網絡AI算法

2019-04-29 12:11:53

神經網絡AI深度學習

2019-09-04 15:07:15

代碼開發開源

2024-03-11 09:31:46

開源神經網絡架構
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产91在线 | 亚洲 | 福利在线观看 | 一级片在线免费播放 | 中文在线视频 | 亚洲精久久久 | 91视频在线观看 | 爽爽免费视频 | av中文字幕在线 | aaa精品| 久久伦理电影 | 国产一区二区三区在线观看免费 | 亚洲激情在线观看 | 亚洲免费精品 | 91麻豆精品国产91久久久更新资源速度超快 | 亚洲小视频在线播放 | 成人精品毛片 | 欧美美乳| 日韩一区精品 | 99精品在线观看 | 欧美一区二区二区 | 欧美一级特黄aaa大片在线观看 | 日本久久网 | 国产激情一区二区三区 | 精品国产免费一区二区三区演员表 | 欧美一区二区三区电影 | 亚洲网站观看 | 日本精品视频 | 一级特黄视频 | 天天激情综合 | 另类专区成人 | av一区二区三区 | 狠狠操电影 | 久久不卡 | 欧美一区日韩一区 | 一区二区三区视频在线观看 | 成人欧美一区二区三区 | 伊人导航| 中文字幕国产视频 | 日韩国产中文字幕 | av一区二区在线观看 | 中文字幕在线三区 |