成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

國產最強語音大模型誕生,MaskGCT宣布開源,聲音效果媲美人類

人工智能 新聞
MaskGCT 是一個大規模的零樣本 TTS 系統,利用全非自回歸掩碼生成編解碼器 Transformer,無需文本與語音的對齊監督和音素級持續時間預測。

近期,港中大(深圳)聯手趣丸科技聯合推出了新一代大規模聲音克隆 TTS 模型 ——MaskGCT。該模型在包含 10 萬小時多語言數據的 Emilia 數據集上進行訓練,展現出超自然的語音克隆、風格遷移以及跨語言生成能力,同時保持了較強的穩定性。MaskGCT 已在香港中文大學(深圳)與上海人工智能實驗室聯合開發的開源系統 Amphion 發布。

圖片

  • 論文鏈接:https://arxiv.org/abs/2409.00750
  • 樣例展示:https://maskgct.github.io
  • 模型下載:https://huggingface.co/amphion/maskgct
  • Demo 展示:https://huggingface.co/spaces/amphion/maskgct
  • 項目地址:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
  • 公測應用:voice.funnycp.com

本文介紹了一種名為 Masked Generative Codec Transformer(MaskGCT)的全非自回歸 TTS 模型。

現有大規模文本到語音(TTS)系統通常分為自回歸和非自回歸系統。自回歸系統隱式地建模持續時間,但在魯棒性和持續時間可控性方面存在一定缺陷。非自回歸系統在訓練過程中需要顯式的文本與語音對齊信息,并預測語言單元(如音素)的持續時間,這可能會影響其自然度。

該模型消除了文本與語音監督之間的顯式對齊需求,以及音素級持續時間預測。MaskGCT 是一個兩階段模型:在第一階段,模型使用文本預測從語音自監督學習(SSL)模型中提取的語義標記;在第二階段,模型基于這些語義標記預測聲學標記。MaskGCT 遵循掩碼預測學習范式。在訓練過程中,MaskGCT 學習根據給定的條件和提示預測掩碼的語義或聲學標記。在推理過程中,模型以并行方式生成指定長度的標記。通過對 10 萬小時的自然語音進行實驗,結果表明 MaskGCT 在質量、相似度和可理解性方面優于當前最先進的零樣本 TTS 系統。

一、方法

MaskGCT 模型由四個主要組件組成:

1. 語音語義表示編解碼器:將語音轉換為語義標記。

2. 語音聲學編解碼器:從聲學標記重建波形。

3. 文本到語義模型:使用文本和提示語義標記預測語義標記。

4. 語義到聲學模型:基于語義標記預測聲學標記。

圖片

語音語義表示編解碼器用于將語音轉換為離散的語義標記,這些標記通常通過離散化來自語音自監督學習(SSL)模型的特征獲得。與以往使用 k-means 方法離散化語義特征相比,這種方法可能導致信息損失,從而影響高質量語音的重建或聲學標記的精確預測,尤其是在音調豐富的語言中。為了最小化信息損失,本文訓練了一個 VQ-VAE 模型來學習一個向量量化碼本,該碼本能夠從語音 SSL 模型中重建語音語義表示。具體來說,使用 W2v-BERT 2.0 模型的第 17 層隱藏狀態作為語音編碼器的語義特征,編碼器和解碼器由多個 ConvNext 塊組成。通過改進的 VQ-GAN 和 DAC 方法,使用因子分解碼將編碼器輸出投影到低維潛在變量空間。

語音聲學編解碼器旨在將語音波形量化為多層離散標記,同時盡可能保留語音的所有信息。本文采用殘差向量量化(Residual Vector Quantization, RVQ)方法,將 24K 采樣率的語音波形壓縮為 12 層的離散標記。此外,模型使用 Vocos 架構作為解碼器,以提高訓練和推理效率。

圖片

文本到語義模型采用非自回歸掩碼生成 Transformer,而不使用自回歸模型或任何文本到語音的對齊信息。在訓練過程中,我們隨機提取語義標記序列的前綴部分作為提示,以利用語言模型的上下文學習能力。我們使用 Llama 風格的 Transformer 作為模型的主干,結合門控線性單元(GLU)和 GELU 激活函數、旋轉位置編碼等,但將因果注意力替換為雙向注意力。還使用了接受時間步 t 作為條件的自適應 RMSNorm。在推理過程中,我們生成任意指定長度的目標語義標記序列,條件是文本和提示語義標記序列。本文還訓練了一個基于流匹配的持續時間預測模型,以預測基于文本和提示語音持續時間的總持續時間,利用上下文學習。

語義到聲學模型同樣采用非自回歸掩碼生成 Transformer,該模型以語義標記為條件,生成多層聲學標記序列以重建高質量語音波形。

圖片

二、樣例展示

MaskGCT 能超自然地模擬參考音頻音色與風格,并跨語言生成音頻。

以下是一個展示 MaskGCT 翻譯《黑神話:悟空》的實例:

翻譯效果:

四、實驗結果

SOTA 的語音合成效果:MaskGCT 在三個 TTS 基準數據集上都達到了 SOTA 效果,在某些指標上甚至超過了人類水平。

圖片

此外,MaskGCT 在風格遷移(口音、情感)也達到了 SOTA 的水準:

圖片

我們還研究了 MaskGCT 在中、英外其它語言的能力:

圖片

五、應用場景

目前,MaskGCT 在短劇出海、智能助手、有聲讀物、輔助教育等領域擁有豐富的應用場景。為了加快落地應用,在安全合規下,趣丸科技打造了多語種速譯智能視聽平臺 “趣丸千音”。一鍵上傳視頻即可快速翻譯成多語種版本,并實現音話同步、口型同步、去字幕等功能。該產品進一步革新視頻翻譯制作流程,大幅降低過往昂貴的人工翻譯成本和冗長的制作周期,成為影視、游戲、短劇等內容出海的理想選擇平臺。

《2024 年短劇出海白皮書》顯示,短劇出海成為藍海新賽道,2023 年海外市場規模高達 650 億美元,約為國內市場的 12 倍,短劇出海成為藍海新賽道。以 “趣丸千音” 為代表的產品的出現,將加速國產短劇 “走出去”,進一步推動中華文化在全球不同語境下的傳播。

六、總結

MaskGCT 是一個大規模的零樣本 TTS 系統,利用全非自回歸掩碼生成編解碼器 Transformer,無需文本與語音的對齊監督和音素級持續時間預測。MaskGCT 通過文本預測從語音自監督學習(SSL)模型中提取的語義標記,然后基于這些語義標記預測聲學標記,實現了高質量的文本到語音合成。實驗表明,MaskGCT 在語音質量、相似度和可理解性方面優于最先進的 TTS 系統,并且在模型規模和訓練數據量增加時表現更佳,同時能夠控制生成語音的總時長。此外,我們還探索了 MaskGCT 在語音翻譯、語音轉換、情感控制和語音內容編輯等任務中的可擴展性,展示了 MaskGCT 作為語音生成基礎模型的潛力。

七、團隊介紹

  • 王遠程:香港中文大學(深圳)計算機科學專業的二年級博士生,研究聚焦語音合成與表征領域,曾作為共同第一作者,研發新一代語音合成系統 NaturalSpeech 3。
  • 武執政:香港中文大學(深圳)副教授、博導,港中大深圳 - 趣丸科技聯合實驗室主任。入選國家級青年人才,連續多次入選斯坦福大學 “全球前 2%頂尖科學家”、愛思唯爾 “中國高被引學者” 榜單。
  • 曾銳鴻:趣丸科技資深語音算法工程師,研究聚焦跨語言零樣本語音合成。曾在頂級期刊 ACM TWEB 發表論文,以及多篇語音識別和語音合成相關發明專利。
  • 詹皓粵:趣丸科技資深語音算法工程師,研究聚焦跨語言零樣本語音合成,曾發表多篇領域頂會論文及發明專利。
  • 張強:趣丸科技人工智能研究中心副主任,人工智能高級工程師,專注研究人工智能算法,目前主持語音大模型、2D 和 3D 數字人等技術的研發。
  • 張順四:趣丸科技副總裁兼人工智能研究中心主任,人工智能高級工程師,粵港澳人工智能產業智庫專家,長期從事低延遲音視頻通訊技術和人工智能技術的研究,主導過千萬級日活產品。發表技術發明專利 30 余篇,發表 EI 3 篇,SCI 3 篇。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-24 09:55:47

2024-07-25 12:31:06

2024-10-28 09:47:53

2022-12-28 13:57:56

AI模型語言

2022-11-14 10:04:36

AI模型

2024-01-12 17:25:45

MoE模型開源人工智能

2023-09-25 12:14:00

AI開源

2023-06-08 11:06:17

OpenAITigerBot

2024-04-15 11:48:09

2023-09-02 12:49:01

2024-11-13 12:48:30

2018-06-07 16:00:28

阿里巴巴語音識別開源

2018-03-15 21:51:46

微軟翻譯機器

2024-11-06 09:47:00

2025-02-28 12:32:42

2023-08-21 10:36:23

2023-12-04 09:55:58

AI大模型

2023-10-12 14:40:10

AI模型

2018-06-07 10:34:22

開源DFSMN語音識別

2020-10-18 07:49:40

開源在線表格Excel前端表格庫
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕免费 | 日韩黄a | 国产精品欧美一区二区三区 | 毛片在线免费 | 国产精品精品视频 | 中文字幕日韩欧美 | 久久精品亚洲欧美日韩久久 | 国产精品免费观看 | 日本精品一区二区三区在线观看视频 | 国产专区在线 | 91夜夜夜| a在线视频观看 | 国产一区二区在线观看视频 | 成人性视频免费网站 | 一级毛片视频 | 欧美二区三区 | 国产在线视频一区 | 久久精品欧美一区二区三区不卡 | 96国产精品久久久久aⅴ四区 | 日本精品视频一区二区 | 欧美久久一区二区 | 欧美不卡一区二区三区 | 久久国产欧美日韩精品 | 国产人成精品一区二区三 | 欧美区在线观看 | 亚洲一区自拍 | 麻豆久久精品 | 国产区在线 | 亚洲性视频 | 午夜免费观看体验区 | 中午字幕在线观看 | 午夜爽爽爽男女免费观看 | 国产精品中文字幕一区二区三区 | www.国产精品 | 乱码av午夜噜噜噜噜动漫 | 亚洲国产精品网站 | 免费看国产一级特黄aaaa大片 | 精品国产久 | 国产精品爱久久久久久久 | 亚洲精品黄色 | 日本免费在线 |