Meta 開源語(yǔ)音 AI 模型支持 1,100 多種語(yǔ)言
自從ChatGPT火爆以來(lái),各種通用的大型模型層出不窮,GPT4、SAM等等,本周一Meta 又開源了新的語(yǔ)音模型MMS,這個(gè)模型號(hào)稱支持4000多種語(yǔ)言,并且發(fā)布了支持1100種語(yǔ)言的預(yù)訓(xùn)練模型權(quán)重,最主要的是這個(gè)模型不僅支持ASR,還支持TTS,也就是說(shuō)不僅可以語(yǔ)音轉(zhuǎn)文字,還可以文字轉(zhuǎn)語(yǔ)音。
因?yàn)橐郧皩?duì)語(yǔ)音方面沒(méi)有研究,所以我就查閱了一下資料,世界上一共有 7,000 多種語(yǔ)言(我一直以為只有幾百),目前的語(yǔ)音識(shí)別技術(shù)目前僅能覆蓋100多種,其實(shí)我覺(jué)得100多種已經(jīng)夠用了,當(dāng)然如果有特殊的研究需要那要另說(shuō)。
Facebook (Meta) AI 的最新大型多語(yǔ)言語(yǔ)音 (MMS) 項(xiàng)目可以為 1,100 多種語(yǔ)言提供語(yǔ)音轉(zhuǎn)文本、文本轉(zhuǎn)語(yǔ)音等功能。這是現(xiàn)有模型的 10 倍!它的官網(wǎng)blog上特別提到了Tatuyo 語(yǔ),只有幾百人在使用。這其實(shí)對(duì)于日常來(lái)說(shuō)沒(méi)什么用,但是對(duì)于研究來(lái)說(shuō)這是一個(gè)很好的例子,因?yàn)橹挥袔装偃巳绾握业讲⒂行У奶釤挃?shù)據(jù)集呢?
Meta 與 OpenAI 的 Whisper 做了詳細(xì)的對(duì)比,在數(shù)據(jù)上訓(xùn)練的模型實(shí)現(xiàn)了一半的單詞錯(cuò)誤率,并且訓(xùn)練數(shù)據(jù)更少:
可以看到它的訓(xùn)練數(shù)據(jù)只有45k 小時(shí)的標(biāo)注數(shù)據(jù),要比Whisper少10倍,而語(yǔ)言支持也多了10倍,這是一個(gè)大的提高。在blog中還特意提到了使用了 《圣經(jīng)》這種流傳廣泛,翻譯語(yǔ)種多的內(nèi)容作為數(shù)據(jù)集,我覺(jué)得這是一個(gè)很好方向。
MMS 項(xiàng)目還利用了 wav2vec 2.0 自監(jiān)督語(yǔ)音表示學(xué)習(xí)技術(shù)的優(yōu)勢(shì)。在 1,400 種語(yǔ)言的大約 500,000 小時(shí)的語(yǔ)音數(shù)據(jù)上進(jìn)行自監(jiān)督的訓(xùn)練,明顯減少了對(duì)標(biāo)記數(shù)據(jù)的依賴。然后針對(duì)特定的語(yǔ)音任務(wù)對(duì)生成的模型進(jìn)行微調(diào),例如多語(yǔ)言語(yǔ)音識(shí)別和語(yǔ)言識(shí)別。
Whisper 的效果對(duì)于我來(lái)說(shuō)就已經(jīng)非常好了,我也一直在使用他做為語(yǔ)言轉(zhuǎn)文字的工具,如果MMS的效果更好,那對(duì)于我們來(lái)說(shuō)簡(jiǎn)直太棒了,并且MMS還支持 language identification (LID) 也就說(shuō)可以自動(dòng)識(shí)別所說(shuō)的語(yǔ)言,但是經(jīng)過(guò)我的測(cè)試,這個(gè)對(duì)于支持這么多種語(yǔ)言的模型來(lái)說(shuō)有一個(gè)致命的錯(cuò)誤,就是轉(zhuǎn)錄或錯(cuò)誤解釋可能會(huì)導(dǎo)致冒犯性或不準(zhǔn)確的語(yǔ)言。
還記得大張偉嗎,越是準(zhǔn)確的模型越會(huì)出問(wèn)題:
這種多語(yǔ)言語(yǔ)音模型的出現(xiàn)使得語(yǔ)言障礙將被打破,來(lái)自全球每個(gè)角落人們都可以通過(guò)聲音正常的交流。還記得META爛尾的VR和AR應(yīng)用嗎,我覺(jué)得MMS應(yīng)該是它們VR的一個(gè)子項(xiàng)目,VR爛尾很正常,但是這個(gè)MMS會(huì)為我們帶來(lái)更多的進(jìn)步。
最后地址,里面有預(yù)訓(xùn)練模型下載和安裝方法:
https://github.com/facebookresearch/fairseq/tree/main/examples/mms