成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一文概覽語音識別中尚未解決的問題

開發(fā) 開發(fā)工具
深度學習應用到語音識別領域之后,詞錯率有了顯著降低。但是語音識別并未達到人類水平,仍然存在多個亟待解決的問題。本文從口音、噪聲、多說話人、語境、部署等多個方面介紹了語音識別中尚未解決的問題。

深度學習被應用在語音識別領域之后,詞錯率有了顯著地降低。然而,盡管你已經(jīng)讀到了很多這類的論文,但是我們?nèi)匀粵]有實現(xiàn)人類水平的語音識別。語音識別器有很多失效的模式。認識到這些問題并且采取措施去解決它們則是語音識別能夠取得進步的關鍵。這是把自動語音識別(ASR)從「在大部分時間對部分人服務」變成「在所有時間對每個人服務」的唯一途徑。

詞錯率

上圖中:詞錯率在 Switchboard 對話語音識別基準上的提升。該測試集于 2000 年收集,包括 40 個電話錄音,每段對話都發(fā)生在隨機抽取的兩個英語母語者之間。

如果說基于 Switchboard 的對話語音識別結果達到了人類水平,這無異于說自動駕駛在陽光明媚、交通順暢的小鎮(zhèn)上達到了人類的駕駛水平。盡管語音識別在對話語音上的進步很明顯。但是認為其達到人類水平的說法終究太寬泛了。以下是語音識別領域仍待提升的一些方面。

口音和噪聲

語音識別最明顯的一個缺陷在于對口音和背景噪聲的處理。最直接的原因就是:絕大多數(shù)訓練數(shù)據(jù)都由具有高信噪比的美式英語組成。例如,Switchboard 對話語音訓練和測試集都是英語母語者(大部分是美國人)在幾乎無噪聲的環(huán)境中錄制的。

但是,更多訓練數(shù)據(jù)本身也沒有克服這個問題。很多語言都是有方言和口音的。對每一種情況都收集足夠多的標注數(shù)據(jù)是不可行的。開發(fā)一款僅僅針對美式英語的語音識別器就需要 5 千多個小時的轉錄音頻數(shù)據(jù)!

不同類型的語音數(shù)據(jù)

上圖中:不同類型的語音數(shù)據(jù)上,百度 Deep Speech 2 模型和人類聽寫員的詞錯率對比。我們注意到在非美國口音的語音上,人類聽寫員表現(xiàn)得要差勁一些。這可能是因為聽寫員大多數(shù)是美國人。我希望在某個區(qū)域的本地聽寫員要有更低的錯誤率。

至于背景噪聲,一輛行駛的汽車內(nèi)的噪聲幾乎不可能有-5dB 那么低。人類在這種環(huán)境中能夠輕易理解彼此所說的話,然而語音識別器的性能則會因為噪聲的存在而急劇下降。從上圖中我們可以發(fā)現(xiàn),人類和模型的詞錯率差距在低信噪比和高信噪比音頻之間存在巨大的差距。

語義錯誤

通常,詞錯率并不是一個語音識別系統(tǒng)的實際目標。我們所關心的是語義錯誤率,即未正確理解含義的話語片段所占的比例。

舉一個例子:如果某人說「let's meet up Tuesday」(周二見),而語音識別器理解成了「let's meet up today」(今天見)。在沒有語義錯誤的情況下也會出現(xiàn)詞錯率。在這個例子中,如果語音識別器丟掉了「up」,將語音識別成了「let's meet Tuesday」,則這個句子的語義并沒有發(fā)生改變。

在使用詞錯率作為標準的時候我們必須謹慎一些。5% 的詞錯率大約對應每 20 個單詞會有一個出錯。如果一個句子共有 20 個單詞(英文句子平均就是這個長度),那么在這種情況下句錯率就是 100%。我們希望出錯的單詞不會改變句子的意思,否則即使詞錯率只有 5%,語音識別器也有可能把整句的意思都弄錯。

將模型與人類相比較的時候,很重要的一點是要去檢查錯誤的本質(zhì),而不是僅僅關注詞錯率(WER)這個結論性的數(shù)字。從我的經(jīng)驗來看,人類轉錄的時候一般會比識別器較少出錯,尤其是嚴重的語義錯誤。

微軟的研究者最近對比了人類和微軟人類級別語音識別器所犯的錯誤 [3]。他們發(fā)現(xiàn)二者的一個差異是:模型比人類更頻繁地混淆「uh」(嗯)和「uh huh」(嗯哼)。這兩個詞組的語義有很大不同:「uh」只是一個語氣填充詞,而「uh huh」表示附和和認同。人類和模型都犯了不少類似的錯誤。

單聲道、多個說話人

Switchboard 對話語音識別任務比較容易,因為每個說話人都使用獨立的麥克風進行錄音。在同一段音頻流中不存在多個說話人的語音重疊。然而,人類即使在多個說話人同時說話的時候也能夠理解說話內(nèi)容。

一個好的對話語音識別器必須能夠根據(jù)正在說話的人(音源)來分割音頻。它還應該理解多個說話人語音重疊的音頻(聲源分離)。這應該在無需給每個說話人嘴邊安裝一個麥克風的情況下實現(xiàn),這樣對話語音識別就能夠在任意位置奏效。

域變化

口音和背景噪聲只是語音識別器增強魯棒性以解決的兩個問題。這里還有其他一些因素:

  • 變化的聲學環(huán)境中的回音
  • 硬件的缺陷
  • 音頻編解碼和壓縮的缺陷
  • 采樣率
  • 說話人的年齡

大多數(shù)人甚至分不清 mp3 文件和 wav 文件的差異。在我們宣稱語音識別器的性能達到人類水平之前,它需要對這些問題足夠魯棒。

語境

你會注意到人類水平的錯誤率在類似于 Switchboard 的基準測試集上實際是很高的。如果在和朋友交談的時候,他在每 20 個詞中誤解一個詞,那么你是很難與他交流下去的。

其中的原因是,這個測評是在不考慮語境的情況下進行的。在現(xiàn)實生活中,有很多其他的線索幫助我們理解某人在說什么。人類使用但是語音識別器不使用的語境包括:

  • 談話的歷史過程和正在討論的話題。
  • 人在說話時的視覺線索,例如面部表情和唇部運動。
  • 對談話對象的了解。

現(xiàn)在,Android 的語音識別器掌握你的通訊錄,所以它能夠準確地識別你朋友的名字。地圖類產(chǎn)品中的語音搜索會使用你的地理定位來縮小你想要導航的位置的范圍。

自動語音識別(ASR)系統(tǒng)的準確度確實在這類信號的幫助下得到了提升。但是,這里我們僅對可以使用的語境類型和如何使用又有一個初步了解。

部署與應用

對話語音識別的***進展都是不可部署的。在思考什么讓一個新的語音識別算法變得可部署的時候,衡量其延遲和所需算力是有幫助的。這二者是有關聯(lián)的,一般情況下,如果一個算法所需要的計算力增加,那么它帶來的延遲也會隨之增加。但是為了簡單起見,我將分開討論它們。

延遲:我所指的「延遲」指從用戶說話結束到轉錄完成所經(jīng)歷的時間。低延遲是 ASR 中的一個常見產(chǎn)品約束。它能夠顯著地影響用戶體驗。ASR 系統(tǒng)中數(shù)十毫秒的延遲需求是很常見的。雖然這聽起來很極端,但是請別忘記,產(chǎn)生轉錄結果通常是一系列昂貴計算中的***步。例如在語音搜索中,實際的網(wǎng)絡規(guī)模搜索必須在語音識別之后才能進行。

雙向循環(huán)層是消除延遲的改進中的很好的例子。所有***的對話語音識別的先進結果都使用了它們。問題在于:在用戶結束語音之前,我們不能用***個雙向層計算任何東西。所以延遲會隨著話語長度的增加而增加。

左圖:出現(xiàn)前向循環(huán)的時候我們可以立即開始轉錄。

右圖:出現(xiàn)雙向循環(huán)的時候,我們必須等待所有語音都到達之后才能開始轉錄。

在語音識別中結合未來信息的有效方式仍待研究和發(fā)現(xiàn)。

計算:轉錄一個話語所需的計算力是一種經(jīng)濟約束。我們必須考慮語音識別器準確率提升的性價比。如果一項改進未能滿足經(jīng)濟閾值,那么它是無法部署的。

下一個五年

語音識別領域仍然存在不少開放性挑戰(zhàn)問題,包括:

  • 將語音識別能力擴展至新的領域、口音,以及遠場、低信噪比的語音中。
  • 在語音識別過程中結合更多的語境信息。
  • 音源和聲源分離。
  • 語義錯誤率和新型的語音識別器評價方法
  • 超低延遲和超高效的推理

我期待語音識別未來五年能夠在這些方面取得進展。

原文:https://awni.github.io/speech-recognition/

【本文是51CTO專欄機構“機器之心”的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】

 

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2017-10-25 19:05:18

深度學習語音分離

2017-11-20 05:08:16

深度學習激活函數(shù)神經(jīng)網(wǎng)絡

2024-04-26 14:18:43

機器學習人工智能

2023-07-26 07:22:32

2020-05-12 15:40:06

MySQ數(shù)據(jù)庫索引

2019-09-17 08:18:19

HTTP網(wǎng)絡協(xié)議狀態(tài)碼

2020-07-07 09:57:24

人臉識別人工智能數(shù)據(jù)

2022-10-28 13:48:24

Notebook數(shù)據(jù)開發(fā)機器學習

2023-07-04 08:56:07

指針類型Golang

2025-01-13 12:00:00

反射Java開發(fā)

2017-03-07 15:13:28

Scala偏函數(shù)函數(shù)

2022-04-20 11:10:17

bias推薦系統(tǒng)debias

2017-12-21 14:48:43

數(shù)據(jù)安全數(shù)據(jù)泄漏檢測技術

2017-12-05 15:32:44

深度學習語音識別

2021-10-28 10:26:35

Javascript 高階函數(shù)前端

2023-05-11 16:19:31

自動駕駛

2021-09-02 10:24:54

JavaScript前端語言

2024-11-19 09:00:00

Pythondatetime模塊

2021-12-29 17:38:17

JavaScripttypeof前端

2022-09-18 21:39:42

自動駕駛識別
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91porn在线观看 | 91免费电影| 中文字幕 视频一区 | 亚洲 欧美 日韩在线 | 97综合在线| 九色av| 美女视频久久 | 亚洲欧洲国产视频 | 黑人巨大精品欧美黑白配亚洲 | 在线观看黄色大片 | 欧洲亚洲精品久久久久 | 亚洲成人一级 | 在线免费观看日本视频 | 日韩一区二区三区视频在线观看 | 日韩成人在线视频 | 国产精品久久 | 日韩欧美在线不卡 | 亚洲电影免费 | 国产1区2区3区 | 精精国产xxxx视频在线野外 | 久久精品1 | 国产一区二区三区久久久久久久久 | 成人h视频在线 | 日本精品一区二区三区在线观看 | 免费一级毛片 | 日本精品一区 | 亚洲一区二区三区在线 | 久久亚洲精品久久国产一区二区 | 黄色毛片免费看 | 精品一区二区三区在线观看 | 黄色网址在线播放 | 国产成人精品一区 | 国产日产精品一区二区三区四区 | 国产精品久久久久久久久久久久久 | 自拍偷拍欧美 | 成人午夜激情 | 国产成人精品免费视频大全最热 | 欧美精品福利视频 | 中文字幕在线一区二区三区 | 欧洲精品久久久久毛片完整版 | 亚洲欧美在线视频 |