語音輸入四強爭霸 搜狗語音輸入后來居上
隨著智能手機的不斷推廣,越來越多的新輸入技術正在得到長足的發展,而作為最重要的人機接口之一,語音識別技術在近年來發展迅速,相關應用也日趨廣泛。評論認為,在不遠的未來,智能語音接口將有可能促使各種穿戴設備進一步發展成為可攜帶的“服務提供者”和“生活伙伴”。在這樣的趨勢下,語音輸入法市場發展迅猛,僅國內就有多家公司推出了具有中文語音輸入功能的產品,其中訊飛、搜狗、百度、微信四家公司的語音產品具有自主研發的識別技術,在互聯網業界產生的影響也較大。近期,北京郵電大學、重慶郵電大學針對上述幾家公司所開發的語音輸入產品做出了評測報告,展開了一場“四強爭霸賽”。兩所大學的測評參與人員均有200人之多,每名測試者所使用的測評文本總數也達200條,并以細致的分類覆蓋到語音輸入的各種應用場景,使得這場比拼無論從專業性或是客觀程度上,都十分值得業界參考。
識別率之戰,后來者居上
近十年來,對字、句的識別準確率一直都是語音輸入技術研發的主攻方向。這并沒有看上去那么簡單,輸入法不僅要適應不同個體迥異的聲音特征,更要克服外界環境中背景噪音所帶來的各種干擾。如果準確率不足,使用者將被迫對同一輸入信息進行重復識別,或者切換鍵盤輸入,大大影響語音輸入應用的使用體驗。有鑒于此,參與此次評測的兩所大學對輸入法準確率的評估設計可謂細致入微:測試人的性別、地域,不同的環境干擾,均被考慮在內。

數據顯示搜狗在語音輸入的各種場景下表現穩定突出(數值越低越穩定)
從測試的結果來看,4款被測的主流語音輸入法在字識別率上均能超過90%,而在整句準確率方面則仍有14~24%不等的誤差。這其中,搜狗語音輸入法在各項測評中的表現優異,各項測評中差錯率均控制在14%~16%之間,比肩、甚至超過訊飛輸入法,而百度、微信語音輸入的性能較之前者則還存在著一定的差距。值得一提的是,語音識別界早就形成的一大共識是:只有識別技術的整句準確率達到83%以上,產品才能真正具備有實際價值的可用性。
在四款被測產品中,訊飛以語音合成起家;百度從2010年其就開始了語音識別研究;微信依托騰訊研究院,語音技術研發其始于2011年;而搜狗2012年初才開始涉獵語音識別。因此,評測顯示完成自主研發時間最短的搜狗,其產品性能卻優于同類,不能不說是令人意外。
“深度學習”或成點金手
語音輸入不僅需要支持自身產品,還要做到為其他垂直領域(如地圖,搜索和購物等)提供服務輸出,這就要求識別技術具有全面、穩定的性能,除了能夠高效地處理長句,也要準確地識別單詞輸入。從測評結果可以看出,與在整句識別中的高光表現相對的是,訊飛輸入在短詞識別中性能明顯下降。就全面性而言,搜狗則是本次測評中唯一兼具穩定性和高性能的產品。
測評參與人員的分析認為,能夠取得這樣的成績,離不開搜狗語音輸入所應用的“深度神經網絡”(或稱“深度學習”)技術。這一技術***由微軟引入語音識別領域,是最為前沿的識別技術之一。微軟技術報告顯示,深度神經網絡能夠在各種不同的模式識別場景下提供***的準確率,但也指出該技術在實際應用中仍相當具有挑戰性。從中不難看出:搜狗或許是國內語音領域***個吃“深度學習”這只螃蟹的公司,而能夠在此基礎上以如此快的速度形成高度成熟的產品,搜狗技術人員的努力實在令人嘆為觀止。可以說,從開拓創新和擁抱前沿的角度上講,搜狗雖然***起跑,但今天卻已經沖刺到了領先的位置上。
方言識別成技術攻堅重點
整句識別是語音輸入最為重要的應用場景之一。而從本次評測來看盡管技術進步迅速,但幾大語音輸入產品在整句識別方面仍然存在著從一成多到近三成不等的錯誤率,仍有很大的改進空間。不得不說,訊飛作為語音識別領域的資深行家,技術積累從其產品在這一方面的性能上的優勢中可見一斑——目前僅有搜狗語音輸入的性能以微弱地差距緊隨其后,其他產品則尚有較大的差距。
據參與測評的技術人員介紹,除性別差異外,整句識別誤差主要源自于測試人的地方口音差異(這一點也是此測評的一項關鍵設計)。這一結果也確實反映出中文語音識別技術較之其他語言的一個特有難關。在此次測試中,僅訊飛和搜狗兩種語音輸入應用在面對全國各種主要地方口音時均能表現出較好的性能(這其中,訊飛甚至已經將“方言輸入”作為其主要特點之一)。盡管如此,當測試人操較濃重方言時,被測輸入法均只能在背景噪音干擾較低的情況下方能令人滿意地工作。可以預期,如何進一步提高識別方言的能力,將成為語音識別領域接下來的研發重點。
隨著技術的發展,互聯網行業如今已經全面邁入無線時代,移動端產品在產業中的重要性正在不斷提高,可謂是“得無線者得天下”,語音識別技術將更加成熟、應用也會更加廣泛。***數據顯示,搜狗無線業務總體展現出蓬勃發展的勢頭,移動用戶總數和移動搜索份額均穩居行業第二。而從搜狗在語音技術上令人意外的突破上看來,搜狗的確是敏銳而準確地把握住了未來發展的主流趨勢,在移動布局上已經占得先機,而其在語音識別技術上的快速發展也將使其贏得更多。
北郵、重郵完整報告地址:http://openspeech.sogou.com/Sogou/php/intro/report_dowm.php