未來(lái)十年,AI 語(yǔ)音識(shí)別將朝著這五個(gè)方向發(fā)展
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。
在過(guò)去的兩年中,自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR)在商用上取得了重要的發(fā)展,其中一個(gè)衡量指標(biāo)就是:
多個(gè)完全基于神經(jīng)網(wǎng)絡(luò)的企業(yè)級(jí) ASR 模型成功上市,如 Alexa、Rev、AssemblyAI、ASAPP等。2016年,微軟研究院發(fā)表了一篇文章,宣布他們的模型在已有25年歷史的“Switchboard”數(shù)據(jù)集上,達(dá)到了人類(lèi)水平(通過(guò)單詞錯(cuò)誤率來(lái)衡量)。ASR 的準(zhǔn)確性仍在不斷提高,在更多的數(shù)據(jù)集和用例中逐漸達(dá)到人類(lèi)水平。
圖源:Awni Hannun 的博文 “Speech Recognition is not Solved”
隨著 ASR 技術(shù)的識(shí)別準(zhǔn)確度大幅提升,同時(shí)應(yīng)用場(chǎng)景越來(lái)越豐富,我們相信:現(xiàn)在還不是 ASR 商用的巔峰,該領(lǐng)域的研究與市場(chǎng)應(yīng)用還有待發(fā)掘。我們預(yù)計(jì)未來(lái)十年 AI 語(yǔ)音的相關(guān)研究和商業(yè)系統(tǒng)將重點(diǎn)攻克以下五個(gè)領(lǐng)域 :
1 多語(yǔ)言ASR模型
“在未來(lái)十年,我們將在生產(chǎn)環(huán)境中部署真正的多語(yǔ)言模型,使開(kāi)發(fā)人員能夠構(gòu)建任何人都能理解任意語(yǔ)言的應(yīng)用程序,從而真正向全世界釋放語(yǔ)音識(shí)別的力量。”
圖源:Alexis Conneau 等人在 2020 年發(fā)表的“Unsupervised cross-lingual representation learning for speech recognition”論文
如今的商用 ASR 模型主要使用英語(yǔ)數(shù)據(jù)集進(jìn)行訓(xùn)練,因此對(duì)英語(yǔ)輸入具有更高的準(zhǔn)確性。由于數(shù)據(jù)可用性和市場(chǎng)需求,學(xué)術(shù)界和工業(yè)界對(duì)英語(yǔ)的長(zhǎng)期關(guān)注度更高。法語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)和德語(yǔ)等商業(yè)流行語(yǔ)言的識(shí)別準(zhǔn)確度雖然也較為合理,但顯然存在一個(gè)訓(xùn)練數(shù)據(jù)有限且ASR輸出質(zhì)量相對(duì)較低的語(yǔ)言長(zhǎng)尾。
此外,大多數(shù)商業(yè)系統(tǒng)都是基于單一語(yǔ)言,這無(wú)法適用于許多社會(huì)特有的多語(yǔ)言場(chǎng)景。多語(yǔ)言可以采用背靠背語(yǔ)言的形式,例如雙語(yǔ)國(guó)家的媒體節(jié)目。亞馬遜最近推出了一款集成語(yǔ)言識(shí)別(LID)和ASR的產(chǎn)品,在處理這一問(wèn)題上取得了長(zhǎng)足進(jìn)步。相比之下,跨語(yǔ)言(也稱(chēng)為語(yǔ)碼轉(zhuǎn)換)是個(gè)人使用的一種語(yǔ)言系統(tǒng),該系統(tǒng)可以將兩種語(yǔ)言的單詞和語(yǔ)法結(jié)合在同一個(gè)句子中。這是一個(gè)學(xué)術(shù)界繼續(xù)取得有趣進(jìn)展的領(lǐng)域。
正如自然語(yǔ)言處理領(lǐng)域采用多語(yǔ)言方法一樣,我們將會(huì)看到ASR在未來(lái)十年也會(huì)效仿。隨著我們學(xué)習(xí)如何利用新興的端到端技術(shù),我們將會(huì)訓(xùn)練可以在多種語(yǔ)言之間進(jìn)行遷移學(xué)習(xí)的大規(guī)模多語(yǔ)言模型。Meta的XLS-R就是一個(gè)很好的例子:在一個(gè)演示中,體驗(yàn)者可以說(shuō)21種語(yǔ)言中的任何一種,而不需要指定某種語(yǔ)言,模型最終都會(huì)翻譯成英語(yǔ)。通過(guò)理解和應(yīng)用語(yǔ)言之間的相似性,這些更智能的ASR系統(tǒng)將為低資源語(yǔ)言和混合語(yǔ)言用例提供高質(zhì)量的ASR可用性,并將實(shí)現(xiàn)商業(yè)級(jí)別的應(yīng)用。
2 豐富的標(biāo)準(zhǔn)化輸出對(duì)象
“在未來(lái)十年,我們相信商業(yè) ASR 系統(tǒng)將輸出更豐富的轉(zhuǎn)錄對(duì)象,其中包含的內(nèi)容將不止簡(jiǎn)單的單詞。此外,我們預(yù)計(jì),這種更豐富的輸出將得到W3C等標(biāo)準(zhǔn)組織的認(rèn)可,以便所有API都將返回類(lèi)似構(gòu)造的輸出。這將進(jìn)一步釋放世界上每個(gè)人的語(yǔ)音應(yīng)用潛力。
”盡管?chē)?guó)家標(biāo)準(zhǔn)技術(shù)研究院(NIST)在探索“豐富轉(zhuǎn)錄”方面有著悠久傳統(tǒng),但在將其納入ASR輸出的標(biāo)準(zhǔn)化和可擴(kuò)展格式方面仍是淺嘗輒止。豐富轉(zhuǎn)錄的概念最初涉及大寫(xiě)、標(biāo)點(diǎn)和日記化,但在某種程度上擴(kuò)展到說(shuō)話(huà)人角色和一系列非語(yǔ)言性言語(yǔ)事件。預(yù)期的創(chuàng)新包括轉(zhuǎn)錄來(lái)自不同說(shuō)話(huà)者、不同情緒和其他副語(yǔ)言特征的重疊語(yǔ)音,以及一系列非語(yǔ)言甚至非人類(lèi)的語(yǔ)音場(chǎng)景和事件,還可以轉(zhuǎn)錄基于文本或語(yǔ)言多樣性的信息。Tanaka等人描繪了一個(gè)用戶(hù)可能希望在不同豐富程度的轉(zhuǎn)錄選項(xiàng)中進(jìn)行選擇的場(chǎng)景,顯然,我們預(yù)測(cè)的附加信息的數(shù)量和性質(zhì)是可指定的,這取決于下游應(yīng)用。
傳統(tǒng)的ASR系統(tǒng)能夠在識(shí)別口語(yǔ)單詞的過(guò)程中生成多個(gè)假設(shè)的網(wǎng)格,這些已被證明在人工輔助轉(zhuǎn)錄、口語(yǔ)對(duì)話(huà)系統(tǒng)和信息檢索中大有裨益。在豐富的輸出格式中包含n-best信息將鼓勵(lì)更多用戶(hù)使用ASR系統(tǒng),從而改善用戶(hù)體驗(yàn)。雖然目前不存在用于構(gòu)建或存儲(chǔ)語(yǔ)音解碼過(guò)程中當(dāng)前生成或可能生成的附加信息的標(biāo)準(zhǔn),但CallMiner的開(kāi)放語(yǔ)音轉(zhuǎn)錄標(biāo)準(zhǔn)(OVTS)朝這個(gè)方向邁出了堅(jiān)實(shí)的一步,使企業(yè)易于探索和選擇多個(gè)ASR供應(yīng)商。
我們預(yù)測(cè),在未來(lái),ASR系統(tǒng)將以標(biāo)準(zhǔn)格式產(chǎn)生更豐富的輸出,從而支持更強(qiáng)大的下游應(yīng)用程序。例如,ASR系統(tǒng)可能會(huì)輸出全部可能網(wǎng)格,并且應(yīng)用程序可以在編輯轉(zhuǎn)錄內(nèi)容時(shí)使用這些附加數(shù)據(jù)進(jìn)行智能自動(dòng)轉(zhuǎn)錄。類(lèi)似地,包括附加元數(shù)據(jù)(如檢測(cè)到的區(qū)域方言、口音、環(huán)境噪聲或情緒)的ASR轉(zhuǎn)錄可以實(shí)現(xiàn)更強(qiáng)大的搜索應(yīng)用。
3 面向所有人的大規(guī)模 ASR
“在這十年中,大規(guī)模的 ASR(即私有化、可負(fù)擔(dān)、可靠和快速)將成為每個(gè)人日常生活的一部分。這些系統(tǒng)將能夠搜索視頻,索引我們參與的所有媒體內(nèi)容,并使世界各地的聽(tīng)力受損消費(fèi)者能夠訪(fǎng)問(wèn)每個(gè)視頻。ASR將是對(duì)每一個(gè)音頻和視頻都實(shí)現(xiàn)可訪(fǎng)問(wèn)和可操作的關(guān)鍵。”
我們可能都在大量使用音視頻軟件:播客、社交媒體流、在線(xiàn)視頻、實(shí)時(shí)群聊、Zoom會(huì)議等等。然而相關(guān)的內(nèi)容實(shí)際上很少被轉(zhuǎn)錄。如今,內(nèi)容轉(zhuǎn)錄已經(jīng)成為ASR API的最大市場(chǎng)之一,并將在未來(lái)十年呈指數(shù)級(jí)增長(zhǎng),特別是考慮到它們準(zhǔn)確性和經(jīng)濟(jì)性。話(huà)雖如此,ASR轉(zhuǎn)錄目前僅用于特定應(yīng)用程序(廣播視頻、某些會(huì)議和播客等)。因此,許多人無(wú)法訪(fǎng)問(wèn)此媒體內(nèi)容,并且在廣播或活動(dòng)結(jié)束后很難找到相關(guān)信息。
在未來(lái),這種情況將會(huì)改變。正如Matt Thompson在2010年預(yù)測(cè)的那樣,在某種程度上,ASR價(jià)格廉價(jià)并被廣泛普及,以至于我們將體驗(yàn)到他所謂的“演講性”。我們預(yù)計(jì),未來(lái)幾乎所有音頻和視頻內(nèi)容都將被轉(zhuǎn)錄,并且可立即訪(fǎng)問(wèn)、可存儲(chǔ)、可大規(guī)模搜索。但ASR的發(fā)展不會(huì)到此停滯,我們還希望這些內(nèi)容具有可操作性。我們希望消費(fèi)或參與的每個(gè)音視頻會(huì)提供額外的上下文,例如從播客或會(huì)議中自動(dòng)生成的見(jiàn)解,或視頻中關(guān)鍵時(shí)刻的自動(dòng)總結(jié)等等,我們希望NLP系統(tǒng)可以將上述處理日常化。
4 人機(jī)協(xié)同
“到本世紀(jì)末,我們將擁有不斷發(fā)展的ASR系統(tǒng),它就像一個(gè)活的有機(jī)體,在人類(lèi)的幫助或自我監(jiān)督下不斷學(xué)習(xí)。這些系統(tǒng)將從現(xiàn)實(shí)世界中的不同渠道學(xué)習(xí), 以實(shí)時(shí)而非異步的方式理解新單詞和語(yǔ)言變體,自我調(diào)試并自動(dòng)監(jiān)控不同的用法。”
隨著ASR成為主流并涵蓋越來(lái)越多的用例,人機(jī)協(xié)同將發(fā)揮關(guān)鍵作用。ASR模型的訓(xùn)練很好地體現(xiàn)了這一點(diǎn)。如今,開(kāi)源數(shù)據(jù)集和預(yù)訓(xùn)練模型降低了ASR供應(yīng)商的準(zhǔn)入門(mén)檻。然而,訓(xùn)練過(guò)程仍然相當(dāng)簡(jiǎn)單:收集數(shù)據(jù)、注釋數(shù)據(jù)、訓(xùn)練模型、評(píng)估結(jié)果、改進(jìn)模型。但這是一個(gè)緩慢的過(guò)程,并且在許多情況下,由于調(diào)整困難或數(shù)據(jù)不足而容易出錯(cuò)。Garnerin等人觀(guān)察到,元數(shù)據(jù)缺失和跨語(yǔ)料庫(kù)表示的不一致性使得在ASR性能方面難以保證同等的準(zhǔn)確性,這也是Reid和Walker在開(kāi)發(fā)元數(shù)據(jù)標(biāo)準(zhǔn)時(shí)試圖解決的問(wèn)題。
在未來(lái),人類(lèi)將通過(guò)智能手段高效地監(jiān)督ASR訓(xùn)練,在加速機(jī)器學(xué)習(xí)方面發(fā)揮日益重要的作用。人在回路方法將人工審查員置于機(jī)器學(xué)習(xí)/反饋循環(huán)中,可以對(duì)模型結(jié)果進(jìn)行持續(xù)審查和調(diào)整。這會(huì)使機(jī)器學(xué)習(xí)更快、更高效,從而產(chǎn)生更高質(zhì)量的輸出。今年早些時(shí)候,我們討論了ASR的改進(jìn)如何使Rev的人工轉(zhuǎn)錄員(稱(chēng)為“Revvers”)能夠?qū)SR草案進(jìn)行后期編輯,從而提高工作效率。Revver的轉(zhuǎn)錄可以直接輸入到改進(jìn)的ASR模型中,形成良性循環(huán)。
對(duì)于ASR,人類(lèi)語(yǔ)言專(zhuān)家仍然不可或缺的一個(gè)領(lǐng)域是反向文本規(guī)范化(ITN),他們將識(shí)別的字符串(如“five dollars”)轉(zhuǎn)換為預(yù)期的書(shū)面形式(如“$5”)。Pusateri等人提出了一種使用“手工語(yǔ)法和統(tǒng)計(jì)模型”的混合方法,Zhang等人繼續(xù)沿用這些思路,用人工制作的FST約束RNN。
5 負(fù)責(zé)任的 ASR
“與所有人工智能系統(tǒng)一樣,未來(lái)的ASR系統(tǒng)將堅(jiān)持更嚴(yán)格的人工智能倫理原則,以便系統(tǒng)平等對(duì)待所有人,可解釋性程度更高、對(duì)其決策負(fù)責(zé)、并尊重用戶(hù)及其數(shù)據(jù)的隱私。”
未來(lái)的ASR系統(tǒng)將遵循人工智能倫理的四項(xiàng)原則:公平性、可解釋性、尊重隱私和問(wèn)責(zé)制。
公平性:無(wú)論說(shuō)話(huà)者的背景、社會(huì)經(jīng)濟(jì)地位或其他特征如何,公平的ASR系統(tǒng)都能識(shí)別語(yǔ)音。值得注意的是,構(gòu)建這樣的系統(tǒng)需要識(shí)別并減少我們的模型和訓(xùn)練數(shù)據(jù)中的偏差。幸運(yùn)的是,政府、非政府組織和企業(yè)已經(jīng)著手創(chuàng)建識(shí)別和減輕偏見(jiàn)的基礎(chǔ)設(shè)施。
可解釋性:ASR系統(tǒng)將不再是“黑盒”:它們將根據(jù)要求對(duì)數(shù)據(jù)收集與分析、模型性能與輸出過(guò)程進(jìn)行解釋。這種附加的透明度要求可以對(duì)模型訓(xùn)練和性能進(jìn)行更好的人為監(jiān)督。與Gerlings等人一樣,我們從一系列利益相關(guān)者(包括研究人員、開(kāi)發(fā)人員、客戶(hù),以及Rev案例中的轉(zhuǎn)錄學(xué)家)的角度來(lái)看待可解釋性。研究人員可能想知道輸出錯(cuò)誤文本的原因,以便緩解問(wèn)題;而轉(zhuǎn)錄學(xué)家可能需要一些證據(jù)來(lái)證明ASR為什么會(huì)這么認(rèn)為,以幫助他們?cè)u(píng)估其有效性,特別是在嘈雜的情況下,ASR可能比人“聽(tīng)”得更好。Weitz等人在音頻關(guān)鍵詞識(shí)別的背景下,為終端用戶(hù)實(shí)現(xiàn)可解釋性采取了重要的初步措施。Laguarta和Subirana已將臨床醫(yī)生指導(dǎo)的解釋納入用于阿爾茨海默癥檢測(cè)的語(yǔ)音生物標(biāo)記系統(tǒng)。
尊重隱私:根據(jù)各種美國(guó)和國(guó)際法律,“語(yǔ)音”被視為“個(gè)人數(shù)據(jù)”,因此,語(yǔ)音記錄的收集和處理受到嚴(yán)格的個(gè)人隱私保護(hù)。在Rev,我們已經(jīng)提供了數(shù)據(jù)安全和控制功能,未來(lái)的ASR系統(tǒng)將進(jìn)一步尊重用戶(hù)數(shù)據(jù)的隱私和模型的隱私。在許多情況下,這很可能涉及將ASR模型推向邊緣(在設(shè)備或?yàn)g覽器上)。語(yǔ)音隱私挑戰(zhàn)正在推動(dòng)這一領(lǐng)域的研究,許多司法管轄區(qū),如歐盟,已經(jīng)開(kāi)展立法工作。隱私保護(hù)機(jī)器學(xué)習(xí)領(lǐng)域有望引起大家對(duì)技術(shù)這一關(guān)鍵方面的重視,使其能夠被公眾廣泛接受和信任。
問(wèn)責(zé)制:我們將對(duì)ASR系統(tǒng)進(jìn)行監(jiān)控,以確保其遵守前三項(xiàng)原則。反過(guò)來(lái)需要投入資源和基礎(chǔ)設(shè)施,以設(shè)計(jì)和開(kāi)發(fā)必要的監(jiān)測(cè)系統(tǒng),并針對(duì)調(diào)查結(jié)果采取措施。部署ASR系統(tǒng)的公司將對(duì)其技術(shù)的使用負(fù)責(zé),并為遵守ASR倫理原則做出具體努力。
值得一提的是,作為ASR系統(tǒng)的設(shè)計(jì)者、維護(hù)者和消費(fèi)者,人類(lèi)將負(fù)責(zé)實(shí)施和執(zhí)行這些原則——這是人機(jī)協(xié)同的又一個(gè)示例。