云知聲梁家恩:智能語音需攻克的難點在哪?
原創【51CTO.com原創稿件】 智能語音技術包括語音降噪、語音識別、聲紋識別、語義理解、對話管理、語音合成等技術,將在物聯網新一代交互中占據重要地位,構建出更加豐富和自然的智能產品應用體驗的基礎。國內智能語音的高速發展,離不開互聯網的強勢推動。云知聲作為國內智能語音創業企業的代表,自2012年創立以來一直受到業界關注。在2017WOTI全球創新技術峰會前夕,51CTO編輯致電訪問云知聲創始人梁家恩先生,針對智能語音技術在國內的發展現狀,以及云知聲的經營之道進行深入溝通。
云知聲CTO梁家恩
梁家恩,云知聲CTO.2001年畢業于中國科技大學,2006年畢業于中國科學院自動化研究所,獲博士學位,并留所負責語音技術創新和產業化;2011年加入盛大語音創新院任高級研究員;2012年創立云知聲;WOTI2017全球創新技術峰會分享嘉賓。
智能語音技術在物聯網中的應用
智能語音的應用從初期的手機助手形態(語音撥號、語音導航、語音搜索、語音聽寫等),發展到今天軟硬一體的遠講降噪、語音喚醒、聲紋識別、語用計算、流式交互等等。
不同于傳統語音技術廠商和大型互聯網企業,云知聲憑借自身的技術研發優勢和新興物聯網市場定位迅速占領了市場。據梁家恩先生介紹,云知聲以智能語音交互技術起家,2014年開始布局物聯網產業化戰略,現已搭建起面向物聯網的"云-端-芯"一體化智能語音交互解決方案。在應用方面,智能語音交互方案在智能家居、醫療、車載、教育等方面有很多令人看好的落地成果,在行業內處于領先地位。
云知聲切入物聯網應用,最早是從樂視超級電視合作開始的,當時實現了LeTV的智能語音控制和音視頻資源搜索。2014年,很多家電廠商也開始尋求家電產品智能化方案,空調是相對比較剛需的,遠講語音控制成為替代傳統遙控器的主要切入點。目前在空調方面,云知聲和美的、格力、長虹等都進行了合作,實現了智能空調的遠講語音控制的規模化量產。此外,智能音箱也是近幾年的熱點,云知聲在今年6月的五周年發布會上,也推出了支持流式交互的智能音箱解決方案--Pandora。
智能語音技術主要面臨的挑戰
從當前的語音識別技術發展看來,基礎理論和技術框架已經基本成熟,目前主要是基于深度神經網絡的識別架構,再加上大規模的真實數據訓練。目前在手機端的近講語音識別錯誤率可以做到3%以內,在電話語音識別錯誤率可以做到6%以內,基本上接近或超過人工識別的水平。語義理解和知識圖譜等認知技術,目前還沒有形成通用的技術框架,主要是針對具體垂直領域進行優化,這部分有待突破性進展。
目前語音交互技術面臨最大的挑戰還是來自產業應用層面:
首先是針對專業領域的優化,比如在醫療領域,通常專用詞匯比較多,讓我們普通人去聽的時候可能都寫不下來,只有經過專業訓練的醫生和護士才能準確記錄;影視節目查詢、商品搜索、路徑導航等方面也同樣需要做針對性的優化。
其次是相對復雜的口音和噪聲環境,包括全國各地的口音和方言、遠講、噪聲、混響等,都是比較復雜的。聲音傳播能量是隨距離平方成反比關系的,傳播距離增加一倍能量就衰減到四分之一,在五米外采集的語音能量,和在一米采集能量相比就相差25倍,但噪聲并沒有因為距離而降低,加上距離遠之后,房間會出現多次反射和疊加,還會形成混響效果,信噪比會下降很多,都會對識別效果造成影響,這些是需要麥克風陣列結合語音聲學模型去解決的問題。
第三是低功耗、低成本、高可靠的問題,智能家電需要滿足綠色環保標準,需要確保24小時誤喚醒低于1次,盡量不出現誤操作,要實現大規模量產出貨,還要降低整體方案的成本。面向物聯網的智能語音交互方案,如果功耗成本下不來就不能普及,智能手表、手環等依賴電池的穿戴設備,功耗和成本問題就更加嚴重。
最后是語音交互設計問題,這是語音技術產品化的重中之重,現在的物聯網設備,大到汽車、空調、機器人,小到玩具、穿戴設備等,有大有小、有帶屏幕和不帶屏幕、涉及不同的應用領域,交互方式差異非常大,需要針對性優化語義理解和知識圖譜。
語音交互是未來物聯網的重要交互手段,這是我們為什么把物聯網列為語音技術落地主戰場的原因。有了智能語音交互基礎之后,我們還要做好精準和個性化的內容和服務,這才是用戶真正想要的。
改變用戶的使用方式
在智能語音最早進入市場時,用戶會覺得比較新奇,當時用戶是需要對著話筒,在近講和安靜情況下比較配合才能使用(最初還需要用戶先念一段話來訓練模型),所以大家覺得語音識別和人工智能技術不靠譜。最近這幾年,隨著深度學習技術和大數據的發展,智能語音技術的進步已經超出了很多用戶的想象,用戶可以無需預先訓練,在真實應用場景下實現相對自然的語音交互。現階段用戶對語音交互的接受度在逐步提升,隨著語音應用和服務的日臻完善,讓用戶會逐漸形成習慣,越來越接受這種交互方式,機器則可以通過后臺數據的不斷快速迭代提高精度,用戶就越來越喜歡用。
云知聲核心技術團隊來自國內外知名企業、高校和研究所,創始團隊80%以上擁有博士學位,并具有超過十年的語音識別研發和應用實戰經驗。核心團隊的穩定、決心和專注,對技術和產業相對獨立的判斷和規劃,這一切都是云知聲對智能語音技術產業化愿景的有力支撐。在未來五年,云知聲將會繼續給業內帶來比現在要成熟和豐富得多技術創新和產業應用。
2017年7月21日-22日,由51CTO主辦的WOTI全球創新技術峰會將在北京富力萬麗酒店隆重舉行。本次峰會將圍繞機器學習、人機交互和智+應用三個大主題展開,數十位專家級嘉賓將帶來多場精彩的技術內容分享。屆時,梁家恩先生將在巔峰論壇主會場與來賓分享"智能交互技術與物聯網應用"主題演講。51CTO誠邀您蒞臨大會,與我們共享技術帶來的喜悅。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】