語音識別技術是如何發展的?
語音識別技術是從20世紀50年代開始發展的。現在讓我們看看這些年來這項技術是如何發展的,以及我們使用的語音識別和語音轉文本功能的方式是如何隨著技術的發展而發展的。
20世紀50-80年代:第一臺能聽聲音的電腦誕生
自動語音識別(ASR)的強大力量意味著它的發展總是與大公司聯系在一起。
貝爾實驗室在1952年率先研制出語音號碼識別系統——AUDERY。在嚴格控制的條件下,AUDERY系統識別語音號碼的準確率為97-99%。然而,根據科學家、前貝爾實驗室電氣工程師James Flanagan的說法,AUDERY坐在“一個六英尺高的繼電器架上,消耗了大量的電力,并表現出與復雜的真空管電路相關的無數維護問題。”即使對于特定的用途而言,AUDREY太昂貴且不方便。
1962年,IBM推出了能夠識別數字和簡單數學術語的Shoebox。與此同時,日本的實驗室正在開發元音和音素識別器以及第一個語音分詞器。對于計算機來說,理解一小部分數字(比如0-9)是一回事,但京都大學的突破是“分割”一段語音,這樣這項技術就可以用于語音的范圍。
在20世紀70年代,美國國防部(DARPA)資助了語音理解研究(SUR)項目。該研究的成果包括卡耐基梅隆大學的HARPY語音識別系統。HARPY從1011個單詞的詞匯表中識別出句子,使這套系統的語音能力相當于三歲兒童的平均水平。
HARPY是最早使用HMM的語音識別模型之一。這種概率方法推動了20世紀80年代ASR的發展。事實上,在20世紀80年代,隨著IBM的實驗轉錄系統Tangora,語音到文本工具的第一個可行使用案例出現了。經過適當的訓練,Tangora可以識別并輸入2萬個英語單詞。然而,對于商業用途來說,該系統仍然過于笨重。
20世紀90年代到2010年代:消費級ASR
“我們認為讓機器模仿人是錯誤的,”IBM的語音識別創新者Fred Jelinek回憶道。“畢竟,如果一臺機器必須移動,它是通過輪子而不是步行來移動的。我們不是竭盡全力地研究人們是如何聽和理解語言的,而是希望找到讓機器來做這件事的自然方式。”
1990年,Dragon Dictate作為第一款商用語音識別軟件推出。當時它的成本約為9000美元。在1997年推出Dragon Naturally Speaking之前,用戶仍然需要在每個單詞之間停頓。
1992年,AT&T推出了貝爾實驗室的語音識別呼叫處理(VRCP)服務。VRCP現在每年處理大約12億次語音交易。
但在20世紀90年代,大多數關于語音識別的工作都是在幕后進行的。個人電腦和無處不在的網絡為創新創造了新的視角。這正是Mike Cohen發現的機會,他在2004年加入谷歌,啟動了該公司的語音技術發展。谷歌Voice Search(2007)向大眾提供了語音識別技術。但它也回收了數百萬網絡用戶的語音數據,作為機器學習的培訓材料。
蘋果(Siri)和微軟(Cortana)緊隨其后。在2010年代早期,深度學習、循環神經網絡(RNNs)和長短期記憶(LSTM)的出現,導致ASR技術能力的超空間飛躍。這種前進勢頭在很大程度上也受到低成本計算和大規模算法進步的出現和可用性的推動。
ASR的現狀
在數十年的發展基礎上,為了響應用戶日益增長的期望,語音識別技術在過去五年中取得了進一步的飛躍。優化不同的音頻保真度和苛刻的硬件要求的解決方案,使語音識別通過語音搜索和物聯網,日常使用更為方便。
例如,智能音箱使用熱詞檢測,通過嵌入式軟件傳遞即時結果。同時,句子的其余部分被發送到云進行處理。谷歌的VoiceFilter-Lite在交易的設備端優化個人的語音。這使得消費者可以用自己的聲音“訓練”他們的設備。培訓降低了源失真比(SDR),提高了聲控輔助應用程序的可用性。
單詞錯誤率(WER——語音到文本轉換過程中出現的錯誤單詞的百分比)正在大幅下降。研究人員認為,到本世紀20年代末,99%的轉錄工作將是自動化的。人們只會介入質量控制和糾正。
21世紀20年代的ASR使用案例
隨著網絡時代的發展,ASR能力正在共生發展。下面是自動語音識別的三個引人注目的案例。
2021年,播客產業將突破10億美元大關。聽眾的數量在飆升,詞匯不斷涌現。
播客平臺正在尋找具有高準確性和每字時間戳的ASR提供商,以幫助人們更容易創建播客,并最大化其內容的價值。像Description這樣的應用程序可以將音頻轉換為可以快速編輯的文本。
此外,每個單詞的時間戳節省了時間,使編輯可以像粘土一樣塑造完成的播客。這些文本還可以讓所有觀眾更容易獲取內容,并幫助創作者通過搜索引擎優化提高他們節目的可搜索性和可發現性。
由于新冠疫情的大流行,越來越多的會議在線上進行。雖然會議記錄需要耗費大量的時間,但是它對于與會者而言是一個非常實用的工具。因為會議記錄可以讓與會人員了解會議的概要并跟進細節。Streaming ASR能夠實時轉換語音到文字,為會議和研討會提供更為便捷的字幕及現場轉錄。
法律作證、招聘等流程也正在走向虛擬。ASR可以使視頻內容更容易被獲取。但更重要的是,端到端(E2E)機器學習(ML)模型進一步改進了語音分割技術——記錄誰在場,誰說了什么。