語音克隆達到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員精華

angel

發布于 2024-7-25 08:02

瀏覽

0收藏

最近，微軟發布了零樣本的文本到語音（TTS）模型VALLE-2，首次實現了與人類同等的水平，可以說是TTS領域里程碑式的進展。

語音克隆達到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區

論文地址：https://arxiv.org/pdf/2406.05370

隨著近年來深度學習的快速進步，用錄音室環境下的干凈單人語音訓練模型，已經可以達到人類同等水平的質量，但零樣本TTS依舊是一個有挑戰性的問題。

「零樣本」意味著推理過程中，模型只能參照一段簡短的陌生語音樣本，用相同的聲音說出文本內容，就像一個能即時模仿的口技大師。

聽到這里，不知道你會不會突然警覺——有這種能力的模型就是Deepfake的最佳工具！

令人欣慰的是，MSRA考慮到了這一點，他們目前只將VALL-E系列作為研究項目，并沒有納入產品或擴大使用范圍的計劃。

雖然VALL-E 2有很強的零樣本學習能力可以像配音員一樣模仿聲音，但相似度和自然度取決于語音prompt的長度和質量、背景噪音等因素。

在項目頁面和論文中，作者都進行了道德聲明：如果要將VALL-E推廣到真實世界的應用中，至少需要一個強大的合成語音檢測模型，并設計一套授權機制，確保模型在合成語音前已經得到了聲音所有者的批準。

對于微軟這種只發論文不發產品的做法，有些網友表示非常失望。

語音克隆達到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區

畢竟最近各種翻車的產品讓我們深深明白，只看demo完全不可靠，沒法自己試用=沒有。

語音克隆達到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區

但Reddit上有人揣測：微軟只是不想當「第一個吃螃蟹的人」，不發模型是擔心可能的帶來的批評和負面輿論。

一旦有了能將VALL-E轉化為產品的方法，或者市場上殺出其他競品，難道還擔心微軟有錢不賺嗎？

語音克隆達到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區

的確如網友所說，從項目頁面目前放出的demo來看，很難判斷VALL-E的真實水平。

語音克隆達到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區

項目頁面：https://www.microsoft.com/en-us/research/project/vall-e-x/vall-e-2/

共5條文本都是不超過10個單詞的英文短句，語音prompt的人聲音色都非常相近，英語口音也不夠多樣化。

雖然demo不多，但能隱隱感受到，模型對英美口音的模仿非常爐火純青，但如果prompt略帶印度或者蘇格蘭口音，就很難達到以假亂真的程度。

方法

模型前身VALL-E發布于2023年初，已經是TTS在零樣本方面的重大突破。VALL-E能夠用3秒的錄音合成個性化語音，同時保留說話者的聲音、情緒和聲學環境。

然而VALL-E存在兩方面的關鍵限制：

1）穩定性：推理過程中使用的隨機采樣（random sampling）可能會導致輸出不穩定，而top-p值較小的核采樣可能會導致無限循環問題。雖然可以通過多次采樣和后續排序來緩解，但會增加計算成本。

2）效率：VALL-E的自回歸架構綁定了與現成的音頻編解碼器模型相同的高幀率，且無法調整，導致推理速度較慢。

雖然已經有多項研究用于改進VALL-E的這些問題，但往往會使模型的整體架構復雜化，而且增加了擴展數據規模的負擔。

基于這些之前的工作，VALL-E 2包含兩方面的關鍵創新：重復感知采樣（repetition aware sampling）和分組代碼建模（grouped code modeling）。

重復感知采樣是對VALL-E中隨機采樣的改進，能夠自適應地采用隨機采樣或者核采樣（nucleus sampling），選擇的依據是曾經的token重復，因此有效緩解了VALL-E的無限循環問題，大大增強解碼穩定性。

語音克隆達到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區

重復感知采樣的算法描述

分組代碼建模則是將編解碼器代碼劃分為多個組，自回歸時每組在單個幀上建模。不僅減少了序列長度、加速推理，還通過緩解長上下文建模問題來提高性能。

值得注意的是，VALL-E 2僅需要簡單的語音-轉錄文本數據進行訓練，不需要額外的復雜數據，大大簡化了數據的收集、處理流程，并提高了潛在的可擴展性。

具體來說，對于數據集中每條語音-文本數據，分別用音頻編解碼器編碼器（audio codec encoder）和文本分詞器將其表示為編解碼器代碼??=[??₀,??₁,…,??_(???1)]和文本序列??=[??₀,??₁,…,??_(???1)]，用于自回歸（AR）和非自回歸（NAR）模型的訓練。

語音克隆達到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區