成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

支持跨語言、人聲狗吠互換,僅利用最近鄰的簡單語音轉換模型有多神奇

人工智能 新聞
AI 語音轉換真的越復雜越好嗎?本文就提出了一個方法簡單但同樣強大的語言轉換模型,與基線方法相比自然度和清晰度毫不遜色,相似度更是大大提升。

AI 參與的語音世界真神奇,既可以將一個人的語音換成任何其他人的語音,也可以與動物之間的語音互換。

我們知道,語音轉換的目標是將源語音轉換為目標語音,并保持內容不變。最近的任意到任意(any-to-any)語音轉換方法提高了自然度和說話者相似度,但復雜性卻大大增加了。這意味著訓練和推理的成本變得更高,使得改進效果難以評估和建立。

問題來了,高質量的語音轉換需要復雜性嗎?在近日南非斯坦陵布什大學的一篇論文中,幾位研究者探究了這個問題。

圖片

  • 論文地址:https://arxiv.org/pdf/2305.18975.pdf
  • GitHub 地址:https://bshall.github.io/knn-vc/

研究亮點在于:他們引入了 K 最近鄰語音轉換(kNN-VC),一種簡單而強大的任意到任意語音轉換方法。在過程中不訓練顯式轉換模型,而是簡單地使用了 K 最近鄰回歸。

具體而言,研究者首先使用自監督語音表示模型來提取源話語和參照話語的特征序列,然后通過將源表示的每個幀替換為參照中的最近鄰來轉換成目標說話者,最后使用神經聲碼器對轉換后的特征進行合成以獲得轉換后的語音。

從結果來看,盡管 KNN-VC 很簡單,但與幾個基線語音轉換系統相比,它在主觀和客觀評估中都能媲美甚至提高了清晰度和說話者相似度。

我們來欣賞一下 KNN-VC 語音轉換的效果。先來看人聲轉換,將 KNN-VC 應用于 LibriSpeech 數據集中未見過的源說話者和目標說話者。

源語音00:11

合成語音100:11

合成語音200:11

KNN-VC 還支持了跨語言語音轉換,比如西班牙語到德語、德語到日語、漢語到西班牙語。

源漢語00:08

目標西班牙語00:05

合成語音300:08

更令人稱奇的是,KNN-VC 還能將人聲與狗吠聲互換。

源狗吠00:09

源人聲00:05

合成語音400:08

合成語音500:05

我們接下來看 KNN-VC 如何運行以及與其他 jixian 方法的比較結果。

方法概覽及實驗結果

kNN-VC 的架構圖如下所示,遵循了編碼器 - 轉換器 - 聲碼器結構。首先編碼器提取源語音和參照語音的自監督表示,然后轉換器將每個源幀映射到參照中它們的最近鄰,最后聲碼器根據轉換后的特征生成音頻波形。

其中編碼器采用 WavLM,轉化器采用 K 最近鄰回歸、聲碼器采用 HiFiGAN。唯一需要訓練的組件是聲碼器。

對于 WavLM 編碼器,研究者只使用預訓練的 WavLM-Large 模型,并在文中不對它做任何訓練。對于 kNN 轉換模型,kNN 是非參數,不需要任何訓練。對于 HiFiGAN 聲碼器,采用原始 HiFiGAN 作者的 repo 對 WavLM 特征進行聲碼處理,成為唯一需要訓練的部分。

圖片圖片

在實驗中,研究者首先將 KNN-VC 與其他基線方法進行比較,使用了最大可用目標數據(每個說話者大約 8 分鐘的音頻)來測試語音轉換系統。

對于 KNN-VC,研究者使用所有目標數據作為匹配集。對于基線方法,他們對每個目標話語的說話者嵌入求平均。

下表 1 報告了每個模型的清晰度、自然度和說話者相似度的結果。可以看到,kNN-VC 實現了與最佳基線 FreeVC 相似的自然度和清晰度,但說話者相似度卻顯著提高了。這也印證了本文的論斷:高質量的語音轉換不需要增加復雜性。

圖片

此外,研究者想要了解有多少改進得益于在預匹配數據上訓練的 HiFi-GAN,以及目標說話者數據大小對清晰度和說話者相似度的影響有多大。

下圖 2 展示了兩種 HiFi-GAN 變體在不同目標說話者大小時的 WER(越小越好)和 EER(越高越好)關系圖。

圖片圖片

網友熱評

對于這個「僅利用最近鄰」的語音轉換新方法 kNN-VC,有人認為,文中使用了預訓練語音模型,因此用「僅」不太準確。但不可否認,kNN-VC 仍然要比其他模型簡單。

結果也證明了,與非常復雜的任意到任意語音轉換方法相比,kNN-VC 即便不是最好,也同樣有效。

圖片圖片

還有人表示,人聲與狗吠互換的例子非常有趣。

圖片圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-05-17 16:02:00

2021-11-22 17:47:21

模型人工智能深度學習

2023-11-30 09:55:27

鴻蒙鄰分類器

2023-05-25 16:24:13

2021-04-13 06:13:33

微軟人工智能語音技術

2022-03-28 07:15:56

Unsafe框架工具

2022-10-12 08:00:00

語音識別Node.js音頻質量

2025-03-31 15:22:01

2023-08-29 13:54:00

AI技術

2023-12-01 12:31:22

AI模型

2024-11-22 14:27:00

2024-11-27 15:20:00

模型開源

2022-11-22 08:00:00

開源工具數據集

2024-08-20 07:55:03

2023-06-09 08:00:00

QLoRa語言模型微調

2022-06-27 08:59:40

Python游戲代碼

2023-11-09 09:00:00

OpenAI人工智能Whisper

2023-08-23 11:15:20

2018-08-22 12:15:53

Amazon Poll深度學習

2024-05-28 08:11:44

SpringTensorFlow訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产欧美视频一区二区 | 国产一区在线免费观看 | 精品一区二区三区在线观看 | 欧美999| 免费人成在线观看网站 | 国产在线中文 | 四虎成人免费视频 | 一区二区不卡视频 | 欧美二区三区 | 欧美黄色一区 | 我爱操| 久久国产精品精品 | 91精品国产一区二区三区动漫 | 91精品国产91久久久久久最新 | 狠狠的干狠狠的操 | 国产一区三区在线 | 一级特黄视频 | 91污在线 | 国产女人叫床高潮大片免费 | 久久成人免费 | 日本高清视频在线播放 | 欧美激情一区二区三区 | 国产一区91精品张津瑜 | 国产ts人妖一区二区三区 | 神马久久久久久久久久 | 激情欧美日韩一区二区 | 色一级片| 精品一二区 | 国产综合视频 | 欧美a级成人淫片免费看 | 国产精品免费av | 亚洲福利一区二区 | 国产真实精品久久二三区 | 一级毛片大全免费播放 | 国产ts人妖系列高潮 | 欧美精品v | 国产成人啪免费观看软件 | 99精品欧美一区二区三区综合在线 | 欧美中文字幕一区 | 99re视频 | 午夜天堂精品久久久久 |