成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

僅聽3秒,AI零樣本克隆人聲達到人類水平,情緒語調隨意改

發布于 2024-4-15 09:55
瀏覽
0收藏

這就是微軟與中國科技大學、香港中文大學(深圳)和浙江大學等機構合作,推出的NaturalSpeech 3系統。

僅聽3秒,AI零樣本克隆人聲達到人類水平,情緒語調隨意改-AI.x社區

該系統采用了創新的屬性分解擴散模型和屬性分解語音神經編解碼器FACodec,從“表示”和“建模”兩個維度對語音數據進行深入研究。通過數據/模型的規模化方法,在多說話人數據集LibriSpeech上首次實現了零樣本的人類水平語音合成

指定特征實現個性化輸出

文本到語音合成(TTS)技術作為生成式人工智能的關鍵分支,在大型語言模型(LLM)的推動下近年來迎來了突飛猛進的發展。特別是隨著語音合成技術的進步,它為大模型帶來了聲音交互的新維度,受到了業界的高度重視。在這一領域內,微軟一直是技術研究與產品開發的積極參與者,旨在創造出高度自然的人類語音。為此,微軟啟動了NaturalSpeech研究項目(https://speechresearch.github.io/)。


該項目為實現其目標,制定了分階段的實施路線圖:

  1. 首先,項目聚焦于在單個說話人語音合成上實現與真人相媲美的音質。2022年,NaturalSpeech 1版本在LJSpeech語音合成數據集上的表現,已達到人類錄音的音質水平。
  2. 隨后,項目目標升級,旨在高效生成具有多樣化特征的人類語音,如不同說話人、韻律、情感和風格等。2023年,通過引入擴散模型,NaturalSpeech 2實現了零樣本的語音合成,標志著技術的進一步突破。
  3. 推出NaturalSpeech 3系統。


NaturalSpeech 3的”Natural”的一大核心體現就是在LibriSpeech數據集上實現了零樣本語音合成達到人類水平


NaturalSpeech 3在LibriSpeech數據集上實現了零樣本語音合成對人類錄音的-0.08 CMOS(此前的 SOTA 結果為 -0.18)以及超過人類錄音的4.01 SMOS (人類錄音結果為3.85,而此前的SOTA為3.71),而在WER上,NaturalSpeech 3實現了比人類錄音結果(1.94 WER)更低的1.81 WER。


實驗結果表明,NaturalSpeech 3的零樣本語音生成結果在LibriSpeech數據集上和人類錄音水平已經沒有統計學上的顯著差異。

僅聽3秒,AI零樣本克隆人聲達到人類水平,情緒語調隨意改-AI.x社區

NaturalSpeech 3的自然不僅體現在能夠完美的克隆音色上,還體現在能夠自然的模仿提示音頻的韻律、情感等,讓AI生成的聲音具有人類的情緒。


NaturalSpeech 3的技術實現允許對生成的語音進行細致的屬性控制,這種方法提供了對語音合成過程中各個維度的精準調節能力。


通過引入特定屬性的提示,比如采用語速較快的聲音樣本作為時長(duration)控制的參考,NaturalSpeech 3能夠在保持其他聲音屬性不變的情況下,精確調整生成語音的語速。

這意味著,用戶可以通過指定具有特定特征的樣本來引導語音生成過程,進而實現更加個性化和多樣化的語音輸出。


NaturalSpeech 3的成功秘訣來自于基于屬性分解的Codec+Diffusion建模范式以及Data/Model Scaling


傳統TTS系統因訓練數據集有限,難以支持高質量的零樣本語音合成。而最近的研究通過擴大語料庫,雖有所進步,但在聲音質量、相似性和韻律方面仍未達到理想水平。


NaturalSpeech 3提出創新的屬性分解擴散模型屬性分解神經語音編碼器FACodec通過將語音分解成不同屬性的子空間并根據不同的提示(prompt)分別生成,有效地降低了語音建模難度,從而大大提高了語音合成的質量和自然度。


與此同時,NaturalSpeech 3通過將訓練數據擴展到20萬小時(這是迄今為止公開的研究工作中使用的最大規模數據)以及將模型大小擴展到1B(2B甚至更大的模型正在訓練中),進一步提升語音合成的質量和自然度。

僅聽3秒,AI零樣本克隆人聲達到人類水平,情緒語調隨意改-AI.x社區

NaturalSpeech 3采用的屬性分解神經語音編解碼器(FACodec)是一項創新技術。


FACodec的核心在于將復雜的語音波形轉換為多個解耦子空間,這些子空間分別代表語音的不同屬性,如內容、韻律、音色和聲學細節。這樣的設計使得FACodec能夠更精準地控制和重構語音的各個方面,從而生成更自然、更高質量的語音輸出。


FACodec通過以下幾個關鍵組件實現其功能:

  • 語音編碼器:將原始的語音數據轉化到表征空間,為后續的屬性分解做準備。
  • 音色提取器:專門負責提取語音的音色屬性,即說話人的獨特聲音特征。
  • 分解向量量化器:分別針對內容、韻律和聲學細節,將這些屬性轉換成量化的、離散的表示形式。這一步是實現屬性間解耦的關鍵。
  • 語音解碼器:根據從分解向量量化器得到的各屬性表示,重構出高質量的語音波形。


此外,FACodec還結合了多種訓練技術,以優化這些組件的性能和相互作用,確保生成的語音既自然又符合目標屬性。


這種屬性分解和重構的方法不僅簡化了TTS對語音表示的建模過程,而且大大增強了語音合成的可控性和靈活性。用戶可以通過調整不同的語音屬性來生成滿足特定需求的語音,如調整音色以模仿特定的說話人,或修改韻律以改變語音的情感表達。


目前語音開源項目Amphion已經支持NaturalSpeech 3的核心組件FACodec,并且已發布預訓練模型

僅聽3秒,AI零樣本克隆人聲達到人類水平,情緒語調隨意改-AI.x社區

NaturalSpeech 3的另一個創新之處在于其對屬性分解擴散模型的采用,這種方法為語音合成帶來了新的維度。


通過使用統一的擴散模型并合集多個擴散階段,分別針對音素持續時間、韻律、內容和聲學細節進行建模,NaturalSpeech 3能夠更細致且有效地控制語音生成的各個方面。


與傳統的語音合成方法相比,這種模塊化的擴散模型架構提供了更高的靈活性和精確度,使得生成的語音既自然又富有表現力。


在這種架構中,音色作為一種重要的語音屬性,其特征可以直接從提供給系統的提示(prompt)中提取,而不需要像其他屬性那樣通過獨立的模型來建模。


這種設計簡化了系統的復雜度,同時保證了音色的一致性和自然性。每個擴散模型只需要接受與其對應的語音屬性相關的提示,從而實現了對特定語音屬性的精準控制和可控性生成。

僅聽3秒,AI零樣本克隆人聲達到人類水平,情緒語調隨意改-AI.x社區

SOTA的語音合成效果:經過大量的實驗驗證,NaturalSpeech 3在語音質量、相似性、韻律和可懂度方面均超越了現有最先進的TTS系統。特別是,在LibriSpeech測試集上,NaturalSpeech 3已經達到了人類錄音水平

僅聽3秒,AI零樣本克隆人聲達到人類水平,情緒語調隨意改-AI.x社區

僅聽3秒,AI零樣本克隆人聲達到人類水平,情緒語調隨意改-AI.x社區

Data/Model Scaling:值得一提的是,NaturalSpeech 3還將模型拓展到 1B 大小、數據量拓展到 20萬小時左右,在提升合成語音質量,相似度,可理解性方等面的令人期待的結果,展示了較強的Scaling能力。


傳送門:
[1]NaturalSpeech 3 論文鏈接: https://arxiv.org/abs/2403.03100
[2]NaturalSpeech 3 Demo演示: https://speechresearch.github.io/naturalspeech3
[3]FACodec預訓練模型: https://huggingface.co/spaces/amphion/naturalspeech3_facodec
[4]FACodec代碼: https://github.com/open-mmlab/Amphion/tree/main/models/codec/ns3_codec


本文轉自 量子位,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/W6yEui3UG8jVXXxiIhqxdg??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 黄色一级大片在线免费看产 | 国产一区二区自拍 | 久久亚洲美女 | 亚洲一区 中文字幕 | 午夜精品三区 | 久久精品国产亚洲一区二区三区 | 99热成人在线 | 欧美一区二区三区精品免费 | 久久久久中文字幕 | 日韩三区在线 | www.一级毛片 | 亚洲毛片在线 | 国产亚洲一区二区三区 | 久草.com| 精品在线99| 国产视频一二三区 | 99国内精品久久久久久久 | 91精品国产一区二区三区 | 99精品视频一区二区三区 | 久久国产区 | 久久躁日日躁aaaaxxxx | 五月天国产在线 | 999久久久| 国产精品久久久久久妇女 | 超碰97人人人人人蜜桃 | 欧美中文字幕一区二区 | 亚洲精品乱码久久久久久9色 | 亚洲免费视频网站 | 日韩一区二区精品 | 综合国产 | 欧美日韩精品久久久免费观看 | 9999国产精品欧美久久久久久 | 中文字幕电影在线观看 | 国产aaaaav久久久一区二区 | hdfreexxxx中国妞 | 69亚洲精品 | 国产欧美在线一区 | 福利视频网站 | 能看的av | 亚洲电影一区 | 中文字幕视频在线观看免费 |