跨語種「AI同傳」震撼登場!Meta谷歌連發(fā)重大突破,顛覆語音翻譯
就在Meta AI成立10周年之際,研究團隊重磅開源了在語音翻譯領域的突破性進展——「無縫交流」(Seamless Communication)模型。
作為首個開源的「大一統(tǒng)模型」,Seamless集成了其他三款SOTA模型的全部功能(SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2),可以實時進行更自然、更真實的跨語言交流。
甚至可以說,它從本質(zhì)上實現(xiàn)了通用語音翻譯器(Universal Speech Translator)的概念。
緊接著,谷歌也分享了自己在無監(jiān)督語音翻譯的突破——Translation 3。
通過利用SpecAugment、MUSE嵌入和反向翻譯,Translatotron 3在翻譯詞匯的同時,更能處理停頓、語速、說話者身份等非文本語音細微差異。
不僅如此,Translatotron 3在還可以直接從單語數(shù)據(jù)學習,擺脫了對并行數(shù)據(jù)的依賴。
論文地址:https://arxiv.org/abs/2305.17547
結果顯示,在翻譯質(zhì)量、說話者相似性和語音自然度方面表現(xiàn)出色,Translation 3都超越了傳統(tǒng)系統(tǒng)。
探索溝通的未來,Translatotron 3或?qū)⒁郧八从械男屎蜏蚀_性打破語言障礙。
Seamless:「無縫」語音翻譯大一統(tǒng)
Seamless將SeamlessM4T v2的高質(zhì)量和多語言、SeamlessStreaming的低延遲和SeamlessExpressive的表達一致性,全部融合到了一個統(tǒng)一的系統(tǒng)之中。
由此,Seamless也為了第一個能夠同時保持聲音風格和語調(diào)的流式翻譯模型。
SeamlessExpressive:完美保留語音語調(diào)
雖然現(xiàn)有的翻譯工具能熟練地捕捉對話內(nèi)容,但它們的輸出通常依賴于單調(diào)的機器人文本到語音系統(tǒng)。
相比之下,SeamlessExpressive則可以保留語音的細微差別,如停頓和語速,以及聲音風格和情感基調(diào)。
,時長00:28
為了在不同語言中保留說話者的語音風格,研究人員在SeamlessM4T v2基礎模型中加入了表現(xiàn)力編碼器。這一過程可確保單元生成遵循預期的語速和節(jié)奏。
此外,將SeamlessM4T v2中的HiFi-GAN單元聲碼器替換為以源語音為條件的表現(xiàn)力單元到語音生成器,可實現(xiàn)音調(diào)、情感和風格的無縫傳輸。
SeamlessStreaming:AI版「同聲傳譯」
SeamlessStreaming是首個大規(guī)模多語言模型,其翻譯延遲時間約為兩秒,準確度幾乎與離線模型相同。
SeamlessStreaming以SeamlessM4T v2為基礎,支持近100種輸入和輸出語言的自動語音識別和語音到文本翻譯,以及近100種輸入語言和36種輸出語言的語音到語音翻譯。
Meta AI最先進的流模型SeamlessStreaming能夠智能地決定何時有足夠的語境來輸出下一個目標文本或語音片段。
SeamlessStreaming學習到的讀/寫策略,會根據(jù)部分音頻輸入來決定是「寫」并生成輸出,還是「讀」并繼續(xù)等待更多輸入。并且,還可以自適應不同的語言結構,從而在許多不同的語言對中發(fā)揮更強的性能。
SeamlessM4T v2:更高質(zhì)量、更高精度
2023年8月,Meta AI推出了第一版SeamlessM4T——一個基礎多語言和多任務模型,可為跨語音和文本的翻譯和轉(zhuǎn)錄提供SOTA的結果。
在此基礎上,研究人員于11月推出了改進版的SeamlessM4T v2,作為全新SeamlessExpressive和SeamlessStreaming模型的基礎。
升級后的SeamlessM4T v2采用非自回歸文本到單元解碼器,從而提高了文本和語音輸出之間的一致性。
其中,w2v-BERT 2.0編碼器是在450萬小時的語音數(shù)據(jù)基礎上訓練出來的。相比之前,第一版的訓練數(shù)據(jù)只有100萬小時。
此外,SeamlessM4T v2還通過全新的SeamlessAlign,為低資源語言補充了更多數(shù)據(jù)。
評估結果顯示,SeamlessM4T v2在BLEU、ASR-BLEU、BLASER 2等任務上的表現(xiàn),明顯優(yōu)于之前的SOTA模型。
SeamlessAlignExpressive
基于之前在WikiMatrix、CCMatrix、NLLB、SpeechMatrix和SeamlessM4T方面所做的工作,Meta AI推出了首個表達式語音對齊程序——SeamlessExpressive。
從原始數(shù)據(jù)開始,富有表現(xiàn)力的對齊程序會自動發(fā)現(xiàn)成對的音頻片段,這些片段不僅具有相同的含義,而且具有相同的整體表現(xiàn)力。
基于此,Meta還創(chuàng)建了第一個用于基準測試的多語言音頻對齊的大型基準測試數(shù)據(jù)集——SeamlessAlignExpressive。
Translatotron 3:引領無監(jiān)督語音翻譯新時代
谷歌聯(lián)合DeepMind提出的無監(jiān)督語音到語音翻譯架構Translatotron 3,不僅為更多語言對之間的翻譯,還為停頓、語速和說話人身份等非文本語音屬性的翻譯打開了大門。
這種方法不用對目標語言進行任何直接的監(jiān)督,而且可以在翻譯過程中保留源語音的其他特征(如語調(diào)、情感等)。
Translatotron 3在保留源語音其他特征(如語調(diào)、情感等)的同時,無需對目標語言進行任何直接的監(jiān)督,并且還
摒棄了對雙語語音數(shù)據(jù)集的需求。
其設計包含三個關鍵方面:
1. 使用SpecAugment將整個模型作為mask自動編碼器進行預訓練
SpecAugment是一種簡單的語音識別數(shù)據(jù)增強方法,可在輸入音頻(而非原始音頻本身)的對數(shù)梅爾頻譜圖上進行操作,從而有效提高編碼器的泛化能力。
2. 基于MUSE的無監(jiān)督嵌入映射
多語言無監(jiān)督嵌入是在未配對的語言上進行訓練的,可以讓模型學習源語言和目標語言之間共享的嵌入空間。
3. 基于反向翻譯的重構損失
這種方法可以完全采用無監(jiān)督的方式,來訓練編碼器-解碼器S2ST模型。
效果展示(西班牙語-英語)
輸入
CommonVoice11 Input,新智元,5秒
CommonVoice11 Synthesized Input,新智元,2秒
Conversational Input,新智元,2秒
TTS合成
CommonVoice11 TTS,新智元,4秒
CommonVoice11 Synthesized TTS,新智元,2秒
Conversational TTS,新智元,1秒
Translatotron 3
CommonVoice11 Translation 3,新智元,4秒
CommonVoice11 Synthesized Translation 3,新智元,2秒
Conversational Translation 3,新智元,1秒
結構
Translatotron 3采用共享編碼器對源語言和目標語言進行編碼。其中,解碼器由語言解碼器、聲音合成器(負責翻譯語音的聲音生成)和單一注意力模塊組成。
相比于上一代Translatotron 2,Translatotron 3配備有兩個解碼器,一個用于源語言,另一個用于目標語言。
在訓練過程中,研究人員使用單語語音-文本數(shù)據(jù)集(這些數(shù)據(jù)由語音-文本對組成;并且沒有進行翻譯)。
編碼器
編碼器的輸出分為兩部分:第一部分包含語義信息,第二部分包含聲學信息。
其中,前半部分的輸出被訓練成輸入語音頻譜圖文本的MUSE嵌入。后半部分在沒有MUSE損失的情況下進行更新。
值得注意的是,源語言和目標語言共享同一個編碼器。
基于MUSE嵌入的多語言性質(zhì),編碼器能夠?qū)W習源語言和目標語言的多語言嵌入空間。
這樣一來,編碼器就能將兩種語言的語音編碼到一個共同的嵌入空間中,而不是為每種語言保留一個單獨的嵌入空間,從而更高效、更有效地對輸入進行編碼。
解碼器
解碼器由三個不同的部分組成,即語言解碼器、聲音合成器和注意力模塊。
為了有效處理源語言和目標語言的不同屬性,Translatotron 3配備有兩個獨立的解碼器,分別用于源語言和目標語言。
訓練
訓練由兩個階段組成:(1)自動編碼與重構;(2)反向翻譯。
第一個階段中,使用MUSE損失和重構損失對網(wǎng)絡進行訓練,從而將輸入內(nèi)容自動編碼到多語言嵌入空間,確保網(wǎng)絡生成有意義的多語言表征。
在第二階段中,利用反向翻譯損失進一步訓練網(wǎng)絡翻譯輸入頻譜圖。為了減輕災難性遺忘的問題,并確保潛空間是多語言的,此階段依然采用MUSE損失和重構損失。
為了確保編碼器學習輸入的有意義屬性,而不是簡單地重構輸入,研究人員在兩個階段都對編碼器輸入應用了 SpecAugment。事實證明,通過增強輸入數(shù)據(jù),可以有效提高編碼器的泛化能力。
- MUSE損失:MUSE損失衡量的是輸入頻譜圖的多語言嵌入與反向翻譯頻譜圖的多語言嵌入之間的相似性。
- 重構損失: 重構損失衡量的是輸入頻譜圖與反向翻譯頻譜圖之間的相似度。
性能
評估中包括Common Voice 11數(shù)據(jù)集,以及從對話和Common Voice 11數(shù)據(jù)集衍生出的兩個合成數(shù)據(jù)集。
其中,翻譯質(zhì)量是通過翻譯語音的ASR(自動語音識別)轉(zhuǎn)錄的BLEU(越高越好)與相應的參考翻譯文本進行比較來衡量的。而語音質(zhì)量則通過MOS分數(shù)來衡量(越高越好)。此外,說話人相似度是通過平均余弦相似度來衡量的(越高越好)。
由于Translatotron 3是一種無監(jiān)督方法,因此研究人員使用了由ASR、無監(jiān)督機器翻譯(UMT)和 TTS(文本到語音)組合而成的級聯(lián)S2ST系統(tǒng)作為基準。
結果顯示,Translatotron 3在翻譯質(zhì)量、說話者相似性和語音質(zhì)量等各方面的表現(xiàn)都遠遠優(yōu)于基線,在會話語料庫中的表現(xiàn)尤為突出。
此外,Translatotron 3實實現(xiàn)了與真實音頻樣本相似的語音自然度(以MOS衡量,越高越好)。