IBM宣稱人類語音識別詞錯率實際應為5.1%
去年十月,微軟人工智能與研究部門的一個研究者和工程師團隊報告他們的語音識別系統(tǒng)實現(xiàn)了和專業(yè)速錄員相當甚至更低的詞錯率(WER)——達到了 5.9%。但 IBM 官方博客今日發(fā)文宣稱人類的水平實際上應該是 5.1%,而同時該文章還表示 IBM 的系統(tǒng)的詞錯率已經(jīng)超越了之前微軟報告的***水平,達到了 5.5%。IBM 宣稱這是一個全新的突破,但相關研究論文似乎仍未發(fā)布(我們未能找到),機器之心將繼續(xù)保持關注,期待能在***時間向讀者分享這一成果的技術細節(jié)。
以下內(nèi)容編譯自 IBM 博客:
此篇博客日期與標題
在交談中,人聽到的每 20 個詞之中便會漏聽 1 至 2 個。5 分鐘的對話里,我們有可能漏聽 80 個單詞。但是,這并不妨礙交談。試想一下,這種情況換成計算機會怎樣?
去年,IBM 宣布在會話語音識別方面取得重大進展,把語音識別的詞錯率降至 6.9%。自此之后,詞錯率一降再降,直至今天的 5.5%。
詞錯率的測定來自一個困難的語音識別任務:記錄人們之間日常的諸如買車之類的話題交談。這個被記錄的語料庫稱之為 SWITCHBOARD,20 多年來一直是語音識別系統(tǒng)的檢測標準。
IBM 集中擴展深度學習應用技術終于取得了 5.5% 詞錯率的突破。我們結合了 LSTM 模型和帶有 3 個強聲學模型的 WaveNet 語言模型。這 3 個使用的聲學模型中,前兩個是 6 層雙向 LSTM,其中一個具有多特征輸入,另一個則通過說話者-對抗多任務學習進行訓練。第 3 個模型的獨特之處在于可以從正負兩個樣本中進行學習。因此 IBM 的系統(tǒng)變得越來越聰明,尤其是在相似語音模式重復之處,表現(xiàn)更佳。
達到像人一樣交談的詞錯率,長久以來一直是業(yè)界的最終目標。其中一些宣稱實現(xiàn)了與人持平的 5.9% 的詞錯率。作為今天成就的一部分,我們重新確定了人的實際詞錯率為 5.1%,比之前達到的還要低。
我們的合作者 Appen 提供了語音和搜索技術服務,幫助我們最終確定了人的真實詞錯率。實現(xiàn) 5.5% 的詞錯率是一個大突破,但人類實際詞錯率的確定表明我們還沒有達到最終目標。
作為研究努力的一部分,我們聯(lián)合其他業(yè)界專家獲得了他們的語音數(shù)據(jù)。蒙特利爾大學 MILA 實驗室*** Yoshua Bengio 認為,要達到像人一樣,我們?nèi)匀灰冻龈嗯Γ?/p>
「盡管近些年來有這些了不起的進展,但要在語音識別和目標識別等人工智能任務中實現(xiàn)人類水平的表現(xiàn)仍然是一項***挑戰(zhàn)性的科學難題。實際上,標準基準并不總是可以體現(xiàn)真實數(shù)據(jù)的多樣化和復雜性。比如說,不同的數(shù)據(jù)集可能對一個任務的不同方面有更多或更少的敏感度,而且其結果嚴重依賴于人類表現(xiàn)被評估的方式,比如在語音識別的案例中使用技能嫻熟的轉錄員。」Bengio 說,「IBM 通過將神經(jīng)網(wǎng)絡和深度學習應用于聲學和語言模型,一直在語音識別上取得顯著進展。」
我們還意識到要在整個行業(yè)領域找到一種標準的測試人類表現(xiàn)的方法比預想的要復雜得多。除了 SWITCHBOARD,這個行業(yè)的另一個語料庫 CallHome 提供了另一組可供測試的語言數(shù)據(jù),這個數(shù)據(jù)集是根據(jù)家庭成員在沒有預先固定主題上進行的更加口語化的對話而創(chuàng)建的。比起 SWITCHBOARD,來自 CallHome 數(shù)據(jù)的對話對機器而言更難以轉錄,這使得在其上的突破更難以實現(xiàn)。(在這個語料庫上我們實現(xiàn)了 10.3% 的詞錯率——這是另一個行業(yè)記錄;但同樣,通過 Appen 的幫助,在同樣情形下的人類的準確度是 6.8%)。
此外,在 SWITCHBOARD 測試時,在測試說話者數(shù)據(jù)中一些同樣的人類聲音也被包含在了用于訓練該聲學和語言模型的訓練數(shù)據(jù)集中。因為 CallHome 沒有這樣的重疊,所以其語音識別模型沒有接觸到測試說話者的數(shù)據(jù)。因為這個原因,就沒有重演(repetition),這會導致人類表現(xiàn)和機器表現(xiàn)之間出現(xiàn)更大的差距。隨著我們繼續(xù)努力向人類水平進軍,我們在能夠利用這些重演的深度學習技術上的進展在幫助我們最終攻克這些難題上發(fā)揮了***的重要作用。
哥倫比亞大學計算機科學系教授兼主席 Julia Hirschberg 對一直以來語音識別上的復雜挑戰(zhàn)評論說:
要達到和人類一樣的識別語音的能力是一個持續(xù)性的挑戰(zhàn),因為人類語音,尤其是在自發(fā)性的對話(spontaneous conversation)中的人類語音,是非常復雜的。而且我們也很難定義人類的表現(xiàn),因為人類在理解其他人的語音上的能力會各有不同。當我們將自動識別和人類表現(xiàn)進行比較時,需要考慮兩件很重要的事情:在被評估的同樣的語音上識別器的表現(xiàn)和人類的表現(xiàn)。因此,IBM 最近在 SWIRCHBOARD 和 CallHome 數(shù)據(jù)上的成就是非常了不起的。而且 IBM 一直以來都在努力想要更好地理解人類理解這兩個得到廣泛引用的語料庫的能力,這也讓我印象深刻。這項科學成就在當前 ASR 技術上的表現(xiàn)是很了不起的,也表明我們?nèi)匀挥幸环N讓機器比肩人類語音理解的方法。 |
今天的成就是我們在語音技術上的新里程碑。之前,比如說去年 12 月份,我們?yōu)?Watson 語音轉文本服務增加了語者分類(diarization)功能,這是在區(qū)分對話中的個體方面的一項進步。這些語音進展構建于數(shù)十年的研究的基礎之上,而且實現(xiàn)人類水平的語音識別是一項復雜的任務。我們將繼續(xù)努力創(chuàng)造未來有一天能夠達到人類所聽、所說和所想的復雜度的技術。盡管我們?yōu)槲覀兊倪M展而鼓舞,但我們的工作還依賴于未來的研究——而且更重要的是,要致力于實現(xiàn)可能的***標準的準確度。
原文:https://www.ibm.com/blogs/watson/2017/03/reaching-new-records-in-speech-recognition/
【本文是51CTO專欄機構機器之心的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】