如何用緊湊型語音表征打造高性能語音合成系統
小紅書多媒體智能算法團隊和香港中文大學首次聯合提出了基于多階段多碼本緊湊型語音表征的高性能語音合成方案 MSMC-TTS。基于矢量量化變分自編碼器(VQ-VAE)的特征分析器采用若干碼本對聲學特征進行階段式編碼,形成一組具有不同時間分辨率的隱序列集合。這些隱序列可以由多階段預測器從文本中預測獲得,并且通過神經聲碼器轉換成目標音頻。該方案,對比基于Mel-Spectrogram的Fastspeech 基線系統,音質和自然度有明顯的改善。該工作現已總結成論文 “A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS”,并被語音領域會議 INTERSPEECH 2022 接收。
一、背景介紹
語音合成(Text-to-Speech, 簡稱 TTS)是把文本轉化為語音的一種技術,被廣泛應用于視頻配音、音視頻內容創作、智能人機交互等產品中。主流語音合成系統后端的聲學建模技術通常包括特征提取器,聲學模型和聲碼器三部分。TTS 通常會對基于信號處理獲得的聲學特征(例如梅爾譜 Mel Spectrogram)進行聲學建模,但受限于模型的擬合能力,預測得到的聲學特征和真實數據在分布上存在一定差異,這導致在真實數據上訓練的聲碼器難以從預測特征中生成高質量音頻。
TTS 系統框架圖
針對這一難題,學界使用了更為復雜的模型結構和更為新穎的生成式算法以減小預測誤差和縮小分布差異。而本工作另辟蹊徑,以緊湊型語音表征為出發點來考慮問題。對語音合成來說,1)聲學特征良好的緊湊性能夠保證更為準確的模型預測結果和更魯棒的波形生成;2)聲學特征良好的完備性能夠保證更好地重構語音信號?;谶@兩點考慮,本文提出采用矢量量化變分自編碼器(VQ-VAE)從目標數據中挖掘出一種更好的緊湊型表示。
二、表征學習 MSMC VQ-VAE
VQ-VAE 包括編碼器與解碼器。編碼器將輸入聲學特征序列加工為隱序列并用相應碼本進行量化。而解碼器把經過量化的序列恢復為原始聲學特征序列。這種量化序列作為離散化表征具有較好的緊湊性(特征參數量較少)。其中量化程度越高,即碼本容量越小,特征緊湊程度就越高。但這也造成了信息壓縮,使特征完備度變差。為了確保足夠的完備性,一般都會使用更多的碼字。但隨著碼本容量的增加,碼本更新所需的數據量以及訓練次數將呈指數級遞增,這使得 VQ-VAE 難以通過增大碼本來有效增強表征完備性。針對此問題,本文提出多頭矢量量化(MHVQ)方法。
VQ-VAE 模型結構圖
MHVQ 將單個碼本按特征維度方向均分為若干個子碼本。量化時還將每個輸入向量相等地切割成若干個子向量,并分別用相應子碼本量化,最終拼接成輸出向量。這樣我們就能更加有效地提高碼本利用率及表征容量,而無需增加碼本參數量。例如,要使壓縮率減少1倍,碼字本來要增加到原碼本數的平方。采用 MHVQ 后,只要把碼本切分成兩部分就可以實現相同的壓縮率。因此,本方法能夠更加有效地調節量化表征的完備性。
MHVQ 示例圖
另外在對語音序列進行量化時,語音特征中蘊含的各類信息都有不同程度地丟失。這些信息在時間粒度上是不一樣的,如粗粒度的音色,發音風格等,以及細粒度的音調,發音細節等。在任何時間尺度上過度壓縮信息都可能使語音質量遭到一定程度的破壞。為了緩解這一問題,本工作提出了一種多時間尺度的語音建模方法。如圖所示,聲學特征序列通過若干個編碼器將聲學特征序列階段式編碼至不同時間尺度,然后再通過解碼器端逐層量化,解碼得到若干個具有不同時間分辨率的量化序列。這類序列集合構成的表征, 即為本工作提出的多階段多碼本表征。
多階段建模示例圖
三、聲學建模 MSMC-TTS
針對多階段多碼本表征 MSMCR ,本論文提出了相應的 TTS 系統,即 MSMC-TTS 系統。系統包括分析、合成和預測3個部分。在系統訓練中,該系統先對分析模塊進行訓練。訓練集中的音頻經過信號處理后轉化為高完備性聲學特征(如本次工作中用到的 Mel-Spectrogram 特征)。利用這些聲學特征對基于 MSMC-VQ-VAE 的特征分析器進行訓練,訓練結束時將其轉化為相應的MSMCR,再對聲學模型及神經聲碼器進行訓練。解碼過程中,該系統利用聲學模型從文本中預測 MSMCR,然后利用神經聲碼器產生目標音頻。
MSMC-TTS 系統框架圖
本工作還提出一種多階段預測器來適配 MSMCR 建模。該模型是以 FastSpeech 為基礎實現的,但在解碼器端有所不同。該模型首先對文本進行編碼,并根據預測時長信息對文本上采樣。然后再將序列降采樣至 MSMCR 對應的各個時間分辨率。這些序列將由不同解碼器由低分辨率向高分辨率逐級解碼量化。同時將低分辨率量化序列發送給下一階段的解碼器以協助預測。最后將預測所得 MSMCR 送入神經聲碼器中產生目標音頻。
多階段預測器結構圖
對多階段預測器進行訓練與推斷時,本工作選擇直接在連續空間預測目標表征。這種方法能較好地顧及向量間及碼字間在線性連續空間上的距離關系。訓練準則除了采用常用于 TTS 建模的 MSE 損失函數外,還使用了 “triplet loss” 以迫使預測向量遠離非目標碼字并靠近目標碼字。通過將兩種損失函數項組合,該模型能夠更好地預測目標碼字。
四、實驗效果
本工作在公開的英文單說話人數據集 Nancy (Blizzard Challenge 2011) 上進行實驗。我們組織了主觀意見得分測試 (MOS)對 MSMC-TTS 合成效果進行評價。實驗結果顯示:原始錄音為 4.50 分的情況下, MSMC-TTS 的得分為 4.41分,基線系統 Mel-FS(Mel-Spectrogram based FastSpeech)為 3.62 分。我們對基線系統的聲碼器進行調優,使之與Mel-FS輸出特征相適配,結果為 3.69 分。該對比結果證明了文中所提方法對 TTS 系統的顯著改進作用。
另外我們還進一步討論了建模復雜度對于 TTS 的性能影響。由 M1 至 M3 模型參數量呈倍數下降, Mel-FS 合成效果降至 1.86 分。反觀 MSMC-TTS, 參數量減少并未對合成質量造成顯著的影響。當聲學模型參數量為 3.12 MB 時, MOS 仍可保持 4.47 分。這既證明了以緊湊型特征為基礎的 MSMC-TTS 建模復雜度需求較低,同時也展示了該方法應用于輕量級 TTS 系統的潛力。
最后我們在不同 MSMCR 基礎上進行了 MSMC-TTS 比較,以探討 MHVQ 與多階段建模對 TTS 的影響。其中 V1 系統采用單階段單碼本的表征, V2 系統基于 V1 采用 4-head 矢量量化, V3 系統則基于 V2 采用兩階段建模。首先,V1 系統使用的表征擁有最高的特征壓縮比,但在分析合成實驗中表現出最低的完備性,同時在 TTS 實驗中表現出最差的合成質量。經過 MHVQ 增強完備性, V2 系統在 TTS 效果上也得到了明顯提升。V3 所使用的的多階段表征雖然沒有展現進一步完備性的提升,但是在 TTS 上展現出了最佳的效果,無論是韻律自然度還是音頻質量均有明顯改善。這進一步表明多階段建模、多尺度信息保留在MSMC-TTS 中具有重要意義。
五、總結
該工作從研究緊湊型語音表征角度出發,提出一套新的高性能 TTS(MSMC-TTS)建模方法。該系統從音頻中提取多階段多碼本表征,以代替傳統聲學特征。輸入文本可被多階段預測器轉換為這種由多個時間分辨率不同的序列組成的語音表征,并通過神經聲碼器轉換到目標語音信號。實驗結果表明,相較于主流的基于 Mel-Spectrogram 的 FastSpeech 系統,該系統展示出了更優秀的合成質量,以及對建模復雜度更低的要求。
六、作者信息
郭浩瀚:小紅書多媒體智能算法團隊實習生。本碩畢業于西北工業大學,期間在 ASLP 實驗室學習,師從謝磊教授?,F博士就讀于香港中文大學 HCCL 實驗室,師從蒙美玲教授。迄今為止,作為一作,先后在 ICASSP、INTERSPEECH、SLT 國際語音會議上發表論文六篇。
解奉龍:小紅書多媒體智能算法團隊語音技術負責人。曾在ICASSP、INTERSPEECH、SPEECHCOM等語音領域會議及期刊發表論文十余篇, 長期擔任ICASSP、INTERSPEECH等主要語音會議的審稿人,主要研究方向為語音信號處理與建模。