帶你了解語音識別技術(shù)的發(fā)展歷史
作者|楊軍,單位:中國移動雄安產(chǎn)業(yè)研究院
Labs 導(dǎo)讀
語音識別相信大家并不陌生,近些年來語音識別技術(shù)的應(yīng)用層出不窮,同時(shí)也更加智能。從開始我們簡單的詢問“你是誰”,到現(xiàn)在可以與我們進(jìn)行多輪對話,理解我們的意思甚至是心情,語音識別已經(jīng)實(shí)現(xiàn)了長足的發(fā)展??赡艽蠖鄶?shù)人覺得語音識別是近些年才出現(xiàn)的技術(shù),其實(shí)不然,下面讓我們一起從語音技術(shù)的歷史展開來看。
Part 01 語音識別近70年發(fā)展史
1952年,貝爾實(shí)驗(yàn)室發(fā)明了自動數(shù)字識別機(jī),科學(xué)家對智能語音有了模糊的概念,可能這時(shí)科學(xué)家們就已經(jīng)在暢想我們?nèi)缃駥?shí)現(xiàn)的這一切。
1964年,IBM在世界博覽會上推出了數(shù)字語音識別系統(tǒng),語音技術(shù)也自此走出了實(shí)驗(yàn)室,為更多人知曉,貝爾實(shí)驗(yàn)室的夢想也變成了更多人的夢想。
1980年,聲龍推出了第一款語音識別產(chǎn)品Dragon Dictate,這是第一款面向消費(fèi)者的語音識別產(chǎn)品。雖然夢想第一次照進(jìn)了現(xiàn)實(shí),但其高達(dá)9000美元的售價(jià),很大程度增加了智能語音技術(shù)的普及難度。
1997年,IBM推出它的第一個(gè)語音識別產(chǎn)品Via Voice。在中國市場,IBM適配了四川、上海、廣東等地方方言,Via Voice也真正的為更多消費(fèi)者接觸、使用到。
2011年,蘋果首次在iphone4s上加入智能語音助手Siri。至此,智能語音與手機(jī)深度綁定,進(jìn)入廣大消費(fèi)者的日常生活。隨后國內(nèi)各大手機(jī)廠商也先后跟進(jìn),為手機(jī)消費(fèi)者提供了五彩繽紛的語音識別功能。
此后,語音識別技術(shù)的應(yīng)用,并沒有局限于手機(jī),而是擴(kuò)展到了各種場景。從各種智能家居,如智能機(jī)器人、智能電視、智能加濕器等,到現(xiàn)在智能汽車,各大傳統(tǒng)廠商以及造車新勢力紛紛積極布局智能座艙??梢娭悄苷Z音技術(shù)已經(jīng)在我們的衣食住行各個(gè)方面得到了廣泛應(yīng)用。
Part 02 語音識別技術(shù)簡介
語音識別技術(shù),也被稱為自動語音識別(Automatic Speech Recognition,ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入。語音識別技術(shù)屬于人工智能方向的一個(gè)重要分支,涉及許多學(xué)科,如信號處理、計(jì)算機(jī)科學(xué)、語言學(xué)、聲學(xué)、生理學(xué)、心理學(xué)等,是人機(jī)自然交互技術(shù)中的關(guān)鍵環(huán)節(jié)。
Part 03 語音識別基本流程
ASR:指自動語音識別技術(shù)(Automatic Speech Recognition),是一種將人的語音轉(zhuǎn)換為文本的技術(shù)。
NLU:自然語言理解(Natural Language Understanding, NLU)是所有支持機(jī)器理解文本內(nèi)容的方法模型或任務(wù)的總稱。
NLG:自然語言生成(Natural Language Generation,NLG)是一種通過計(jì)算機(jī)在特定交互目標(biāo)下生成語言文本的自動化過程,其主要目的是能夠自動化構(gòu)建高質(zhì)量的生成人類能夠理解的語言文本。
上圖展示了一個(gè)語音識別的基本流程,用戶發(fā)出指令后,mic收集音頻,完成聲音到波形圖的轉(zhuǎn)換,通過波形圖與人類發(fā)音的波形圖做對比,可以識別出說的具體音節(jié),通過音節(jié),組合成詞、句子,再結(jié)合大數(shù)據(jù)分析出說的最匹配的話,然后NLU模塊開始工作,分析出這句話的意圖(intent)、域(Domain)等各種信息。分析出意圖后開始對話管理DM(Dialog Manager),通過后臺數(shù)據(jù)查詢應(yīng)該給用戶什么反饋。然后交給NLG模塊,通過查出來的信息,生成自然語言,最后通過TTS模塊,將文字轉(zhuǎn)回成波形圖并播放聲音。
上面的流程涉及到的學(xué)科、知識都比較多,由于篇幅原因,不一一展開描述,在這里我節(jié)選出ASR來進(jìn)行相對詳細(xì)些的學(xué)習(xí)。
Part 04 ASR實(shí)現(xiàn)原理簡單剖析
我們首先從ASR聲音源來看,當(dāng)一位用戶發(fā)出指令,比如說:我愛你。這時(shí)麥克風(fēng)會收集音頻到存儲設(shè)備。我們通過音頻處理軟件(如Audacity)打開后可以發(fā)現(xiàn)音頻是一段波形圖。
但是這段波形圖并沒有什么直觀的有意義的信息,它的高低只代表了聲音的大小,橫軸也僅僅是時(shí)間。語音識別本身是基于大數(shù)據(jù)的分析技術(shù),分析的基礎(chǔ)是數(shù)據(jù)的準(zhǔn)確,聲音大小和發(fā)音的時(shí)間長短很難有什么統(tǒng)計(jì)學(xué)的意義,所以此時(shí)我們需要對音頻進(jìn)行處理。(這段波形圖是四句我愛你的波形圖)。
處理的一種常用方法是傅里葉變換,通過傅里葉變換,我們可以將時(shí)間維度的波形圖,轉(zhuǎn)換成頻率維度的波形圖。
為什么要處理成頻率的維度呢?
因?yàn)槲覀兌贾?,人類發(fā)出的聲音,能聽到的聲音大概在一個(gè)頻段內(nèi)。這涉及到生物學(xué)、聲學(xué)的知識,我們?nèi)祟惖纳眢w構(gòu)造大致相同,這里想當(dāng)然一下,盡管有個(gè)體差異、有性別差異,我們發(fā)出的聲音的頻率相差不會很大。這樣我們就把沒有統(tǒng)計(jì)意義的聲音波形圖處理成了頻率圖。
但是我們的時(shí)間維度也不能丟掉,我們在將聲音分割之后(這里涉及到聲音預(yù)處理、分幀等知識,暫不展開),可以根據(jù)本地的聲學(xué)模型做比對,看每一幀時(shí)間內(nèi)發(fā)出的音素是什么。中文的話,音素指的是我們發(fā)音的一個(gè)字母,比如“我”由兩個(gè)音素組成:w和o。
到現(xiàn)在我們知道了如何將聲音從音頻文件處理成音素。之后再通過語言學(xué)、統(tǒng)計(jì)學(xué)等技術(shù),結(jié)合具體語境,將音素組合成詞,將詞組成句子,從而識別出用戶說的語句,ASR大致流程就完成了。
上面的方式其實(shí)屬于語音識別各種技術(shù)中較為簡單的一部分,在實(shí)際應(yīng)用中可能還包括各種各樣的技術(shù),比如聲學(xué)特征提取的MFCC方式、上面聲音預(yù)處理的降噪、分幀、加窗、端點(diǎn)檢測等技術(shù)。
Part 05 語音識別及相關(guān)技術(shù)展望和我們能做的事情
隨著硬件技術(shù)提升、5G技術(shù)普及,我們可以在后端對海量的數(shù)據(jù)進(jìn)行處理,依靠5G技術(shù)的穩(wěn)定和低時(shí)延,為用戶提供更可靠、順暢的服務(wù),可以預(yù)見在不久的將來,語音識別及其相關(guān)技術(shù)必將更加智能、更加穩(wěn)定。中國移動作為國內(nèi)擁有絕對用戶基礎(chǔ)數(shù)量優(yōu)勢的電信運(yùn)營商,可以依靠5G優(yōu)勢、規(guī)模優(yōu)勢為用戶提供更好的服務(wù),為智慧城市提供有力的保障,為國家發(fā)展作出更多的貢獻(xiàn)。