揭開神秘面紗:深入了解語音識別算法 原創
本文將探索使語音識別成為可能的機制,了解日益普及的用于應用人工智能的語音用戶界面(VUI)可能帶來的優勢。
如今,似乎每一款商用設備都具備某種形式的語音識別功能,或者至少嘗試過實現這一功能。從跨平臺的語音助手到轉錄服務和輔助工具,再到最近成為大型語言模型(LLM)差異化的關鍵要素——語音輸入已成為日常的用戶界面。根據預測,語音用戶界面(VUI)的市場規模將從2023年至2028年以23.39%的復合年增長率增長,可以預見將有更多的科技公司采用這一技術。
以下從剖析和定義使語音識別成為可能的最常見技術開始。
一、語音識別的機制:它是如何工作的?
特征提取
在進行任何“識別”之前,機器必須將人們產生的聲波轉換成它們能理解的格式。這個過程稱為預處理和特征提取。梅爾頻率倒譜系數(MFCC)和感知線性預測(PLP)系數是兩種最常見的特征提取技術。
(1)梅爾頻率倒譜系數(MFCC)
梅爾頻率倒譜系數(MFCC)捕捉音頻信號的功率譜,從本質上識別每個聲音的獨特之處。這項技術首先通過放大高頻來平衡信號使其更清晰。然后,信號被分成短幀或聲音片段,持續時間在200毫秒到40毫秒之間。然后對這些幀進行分析以了解它們的頻率成分。通過應用一系列模擬人耳如何感知音頻的濾波器,梅爾頻率倒譜系數(MFCC)捕捕捉語音信號的關鍵、可識別的特征。最后一步是將這些特征轉換成聲學模型可以使用的數據格式。
(2)感知線性預測(PLP)系數
感知線性預測(PLP)系數旨在盡可能地模擬人類聽覺系統的反應。與梅爾頻率倒譜系數(MFCC)類似,感知線性預測系數(PLP)過濾聲音頻率以模擬人耳。在經過過濾之后,動態范圍(樣本的“響度”范圍)被壓縮,以反映人們的聽覺對不同音量的不同反應。在最后一步,感知線性預測(PLP)估計“頻譜包絡線”,這是一種捕捉語音信號最基本特征的方法。這個過程提高了語音識別系統的可靠性,特別是在嘈雜的環境中。
(3)聲學建模
聲學建模是語音識別系統的核心,它形成了語音信號(聲音)和語音單位(構成語言的不同聲音)之間的統計關系。最廣泛使用的技術包括隱馬爾可夫模型(HMM)和最近的深度神經網絡(DNN)。
(4)隱馬爾可夫模型(HMM)
自從20世紀60年代末以來,隱馬爾可夫模型(HMM)一直是模式識別工程的基石。它們對語音處理特別有效,因為它們將口語分解成更小、更易于管理的部分——音素。每個提取的音素都與隱馬爾可夫模型(HMM)中的一個狀態相關聯,該模型將計算從一個狀態到另一個狀態轉換的概率。這種概率方法允許系統從聲音信號中推斷出單詞,即使在存在噪聲和不同個體的語音差異的情況下也是如此。
(5)深度神經網絡(DNN)
近年來,與人工智能和機器學習的發展和興趣密切相關,深度神經網絡(DNN)已經成為自然語言處理(NLP)的首選。與依賴于預定義狀態和轉換的隱馬爾可夫模型(HMM)不同,深度神經網絡(DNN)直接從數據中學習。它們由多層相互連接的神經元組成,這些神經元逐步提取數據的高級表示。
通過關注場景以及某些單詞和聲音之間的關系,深度神經網絡可以捕獲語音中更復雜的模式。這使得它們在準確性和魯棒性方面與隱馬爾可夫模型(HMM)相比表現得更好,并且需要額外的訓練來適應口音、方言和說話風格——這在日益多語言的世界中是一個巨大的優勢。
展望未來:挑戰與創新
語音識別技術已經取得了很大的進步,但是,正如用戶認識到的那樣,它還遠遠不夠完美。背景噪音、多人同時講話、口音以及延遲是尚未解決的挑戰。隨著工程師們逐漸認識到網絡模型的潛力,一個頗具前景的創新是利用隱馬爾可夫模型(HMM)和深度神經網絡(DNN)的優勢,使用混合解決方案。擴大人工智能研究的另一個好處是跨領域的深度學習應用,傳統上用于圖像分析的卷積神經網絡(CNN)在語音處理方面顯示出有前景的結果。另一項激動人心的發展是遷移學習的使用,在大數據集上訓練的模型可以通過相對較小的配套數據集對特定任務和語言進行微調。這減少了為新應用程序開發高性能語音識別所需的時間和資源,允許采用更環保的方法來重復模型部署。
二、整合一切:現實世界的應用
綜上所述,特征提取和聲學建模協同工作,形成了所謂的語音識別系統。這個過程從使用預處理和特征識別將聲波轉換成可管理的數據開始。然后將這些數據點或特征輸入聲學模型,由聲學模型進行解釋并將輸入轉換為文本。從那里,其他應用程序可以很容易地與語音輸入進行交互。
從最嘈雜、最耗時的環境(如汽車界面)到個人設備上的無障礙替代方案,人們越來越信任這項技術,并將其用于更關鍵的功能。對于致力改進這項技術的人來說,理解這些機制不僅僅是學術上的需要,還激勵技術人員欣賞這些工具及其在提高無障礙性、可用性和用戶體驗效率方面的潛力。隨著語音用戶界面(VUI)越來越與大型語言模型(LLM)相關聯,工程師和設計師應該熟悉生成式人工智能在現實世界應用中最常見的界面。
原文標題:Demystifying the Magic: A Look Inside the Algorithms of Speech Recognition,作者:Manoj bopathi Raj
