云知聲梁家恩:智能交互技術與物聯網應用
原創【51CTO.com原創稿件】2017年7月21日-22日,由51CTO主辦的以人工智能為主題的WOTI2017全球創新技術峰會在北京富力萬麗酒店隆重舉行。峰會期間,30+AI明星,數十場圍繞人工智能主題的精彩演講與圓桌論壇緩緩揭開面紗。除了場內的精彩演講,場外還有專門為AI愛好者搭建的動手實驗室和科技體驗區,這一切都讓本次大會亮點十足。
7月21日上午WOTI2017主會場,云知聲CTO梁家恩進行了主題為《智能交互技術與物聯網應用》的精彩演講。以下是演講實錄,讓我們先睹為快!
大家上午好!剛才焦老師從學術層面介紹了很多底層技術算法和演進,應該說今年是人工智能第61年,經過了三代人的研究和努力,到今天為止技術已經逐步成熟,特別是在AlphaGo科普教育情況下,全社會都在關注人工智能,我們再次迎來了比較好的時代。云知聲從成立到現在經歷了五年時間,互聯網環境下有很多創新,今天主要分享這部分內容。
這是一個智聯網的時代,互聯網和人工智能的結合。互聯網不能獨立成為一個產業,要和產業緊密結合才能發揮很大價值,這個時代我們稱為智聯網時代,重新定義IOT。過去說IOT是熱了好幾年的概念,移動互聯之后進入萬物互聯時代,剛好和人工智能結合,未來不斷的把萬物連接起來,而且變得更加智能,有這樣一個愿景。
整個產業發展是兩條線結合的,上面這條線是信息產業發展,最早的圖靈時代一直到信息時代的到來,再加上前面比較熱鬧的十年,2010年之后就迎來了萬物智能時代,這個時代的特點是下面這條線,也是過去大家不太關注的,1956年開始誕生了人工智能這個概念。前面也經歷了兩次寒冬,過去大家認為只要有計算機出現,人工智能問題可能是二十年沒有解決的問題,但二十年之后人類登上月球再回來人工智能所做的承諾都沒有實現,所以第一次浪潮迅速進入寒冬。第二次是在行業初步應用的時候,但應用范圍非常窄,所以導致第二次浪潮的衰落。
前面兩次都是高校研究所在推動這個事情,第三次浪潮,產業的力量在非常強的推動產業發展,包括技術演進,這次浪潮我們認為是在97年深藍擊敗Kasparov,2015年AlphaGo擊敗李世石,我們從業者認為這個離我們所想象的未來人工智能時代還有相當大的距離。這一輪產業化浪潮應該是從06年復興深度學習之后,使得我們從研究階段真正進入產業化時代,變成可以產業化的水平。
云知聲是在2012年6月份成立的,上個月剛剛過完五周年的生日。我們的切入點是語音交互,過去的交互變革從最早的獨立磁帶,點卡開始變成鼠標鍵盤,然后誕生了微軟這樣一家偉大的公司,移動互聯網到來的時候出現了觸控+傳感。現在移動時代誕生了IOT,比如阿里、騰訊,移動互聯時代產品規模也比過去PC時代大了一個數量級,2010年后大家預估IOT時代,交互會對終端的滲透有非常大的影響。過去都是我們要求人去學習,通過學習把機器用好,到現在為止更多我們是需要機器學習人類,懂得我們人類,用人類自然的方式去交互,所以人機交互的發展是不可逆轉的趨勢,讓用戶使用設備的成本變得越來越低。剛才焦教授已經給我們介紹很多了。
人工智能是從知識、規則、模板、符號推理開始的,用機器處理我們的符號,將人類知識賦予機器去解決問題。做了二十年或者三十年后,發現很多實驗都沒有得到預期結果,后來大家想另外的辦法,機器學習方法也不是當前提出來的,前面也有很多科學家研究,聚焦在我們能不能重點解決機器學習的問題,機器很難把我們人的知識裝進去,我們能不能通過數據學習的方法讓它變得越來越聰明,這是比較好的想法。
基礎理論,統計知識在里面包括監督學習、無監督學習,當時得到比較大的發展,主要包括分類問題、回歸問題、聚類和降維的問題,希望我們能用一個函數去描述數學的分布也好,物理機制也好,通過數據把參數估計出來,通過這個方法讓機器變得越來越強大。很多函數,理論上只要你有足夠大的數據,它就可以進行分布。這是比較有前途的研究。
語音識別,上個世紀88年李開復老師讀博士時候的論文,當時用統計的方法,語音識別得到大的推進,是非常令人興奮的方法。但后來又經歷了將近二十多年、三十年的發展,當我們把這個機制用到真實生活里面的時候,發現很多復雜數據仍然沒有辦法解決,復雜場景的應用還是沒有辦法解決,我們的神經網絡就是模擬人腦多層神經元結構來解決問題的。
為什么八十年代打入了冷宮?因為數據量和計算資源都很難支撐深度學習,和傳統方法沒法比,數據基礎是嚴謹扎實的,但深度學習是黑盒子,不知道怎么做的更好,所以到06年的時候不敢再提神經網絡這個詞,因為名聲已經不好了,和二十多年前神經網絡沒有多大區別。最大的特點是大數據的學習,特別是大數據得到爆發,在2010年后在工業界大行其道,現在基本上成為人工智能非常大的一塊。現在如果談人工智能,基本上就等同于談深度學習,我們認為這些方法沒有一個方法是包打天下的,后續期待更多方法演進。
人工智能技術體系我認為可以分成幾個部分,人工智能研究的是人,如何管理人的智能系統,其實很簡單,我們的視覺,我們的聽覺以及我們的嘴巴,前面包括感知部分,還有表達部分,其實最重要的部分,核心部分是所謂認知計算部分,認知科學家也沒有完全解開人是如何實現認知過程的,人的頭腦非常復雜,解剖學也沒辦法研究他在活動狀態的時候怎么工作。
現在從基礎架構來講,有機器學習加上大數據、云計算來推動發展。首先從計算角度來說,機器蹍壓人類是不足為奇的,AlphaGo在圍棋方面能夠蹍壓高手,計算能力已經完美蹍壓人類,感知領域接近人類水平,甚至超過人類水平,不管是圖像還是評測,最大特點是環境適應性方面有待提高,對于表達技術來說有待完善。
語音合成,十年前,甚至更早時間,可以聽到語音播報,聽起來沒有問題,人接收起來沒有問題,但你讓他講一個評書一個笑話或者演話劇,難度比較大。認知是人工智能深水區,從我們掌握的方法來說,沒有辦法產生自主意識,但我們是不是希望產生自主意識呢?不一定,而且把人工智能做好也不一定需要產生自主意識,有人對人工智能有比較深的擔憂,主要是自主意識的誕生。
我認為未來我們可以看到的是整個產業應用有非常大規模的滲透,不管是車載、家居、穿戴、手持設備,這是我們普通用戶能夠感知到的。智能系統更加了解用戶后,可以滿足人類服務這些需求。現在很多智能制造,希望我們所制造的東西能更好滿足用戶,而不是挑來挑去沒有我想要的,都是我們希望能夠實現的零庫存,用戶系統,他需要什么東西,我們生產出來。不管是醫療、教育、金融、交通、安防領域等,主要是政府主導的智慧城市建設,這些方面我們都認為有很大應用空間。
產業升級的需求是非常大的,從用戶到企業到政府來說需求非常大;接下來是整個技術,不管是AI技術突破,不管是大數據包括超級運算能力的普及,都有很大基礎,所以我們對這輪人工智能產業化有非常強的信心,我們認為不會是顆粒無收的狀態。
下面是我們這些年做的智能語音交互,跟大家做個分享。云知聲是專注物聯網人工智能服務,語音和圖像的應用,包括認知計算能力,包括“三駕馬車”也好,三大引擎也好。我們認為核心是認知突破,未來五年要做的,過去五年初見成效。給大家再介紹一下云知聲的來源,我們認為智能是在云端實現的,包括未來很多內容服務都是在云端完成。
知的部分我們認為代表的是認知計算,包括語言也好,知識、思維、推理、規劃能力都是在知來完成;聲是對物聯網交互來說是重要的環節,不一定代替所有的交互模式,但是一個交互方式,對人類來說,語言交互是非常自然和主要的交互方式。云知聲在過去五年,從成立到物聯網產業化落地來說做了非常多的工作,我不會一條條展開。
對人工智能技術來說,它的技術背景非常深,過去有非常強的技術積累能夠在產業里邊有所作為,這個行業有六十年積累,而且基因技術有非常深的數學背景才能做起來。我們經歷了在云端的服務,把深度學習用到里面去,深度學習服務移動互聯網。當語音和一個硬件設備非常緊密結合之后有非常好的體驗,用戶活躍度非常高,和它做交互,所以我們在2014年就開始布局“云端芯”戰略,物聯網未來一定是非常大的用戶場景。不需要手和眼睛就能交互,大家特別依賴觸控,現在滿大街低頭玩手機的,也發生很多事故,所以喚醒技術必不可少,物聯網的接入做了很多工作。
我們也全面升級了這塊技術,不管是語音識別、語義理解、語音合成都在落地,包括車載市場我們也做的非常好。2016年之后越來越多數據積累,比如超算平臺,這些都在支撐我們往這個方向走的。2017年我們更多是推動終端交互方式,后面會展開。
經過五年發展,我們已經建立技術閉環,做交互有很多技術在里面,回聲降噪問題還有喚醒問題,如何把功耗降低下來,未來物聯網不可能帶著很大電池和插電來做,所以功耗問題是我們要解決的,語音識別,聲紋識別,這都是我們需要完成的工作。語音合成,用戶要得到很好的反饋,如果想10%、20%,甚至30%的進步,需要很強大的AI架構,包括計算資源和數據、機器學習方法。這里有幾個關鍵的問題。
首先是遠講和降噪,大家聽的最多的是發現icall(諧音)、八個麥克風,去年Google是兩個麥克風方案,我們主打的是兩個麥克風方案,因為人只需要兩個耳朵就能解決交互問題,辨別方向,同時我們重點聽某一個人的交互。兩個麥克風和多個麥克風,大多數人認為麥克風越多越強大,但其實麥克風越多算法相對比較成熟,但我們要保證麥克風的一致性,同時需要強大的技術支撐能力。但單純從信號角度來講,降噪能力非常差,比較大的優勢在于兩個麥克風安裝非常方便,不管你的設備是什么形狀,把兩個麥克風裝上去是比較簡單的事情,但如果裝八個麥克風或者六個麥克風就比較復雜。
低功耗喚醒更多是嵌入式系統優化,我們最早是在X86上做優化,在2015年我們做了專用芯片上的加速,2017年我們做的是UniOne方案,通過芯片把這些降噪和識別功能加進去,才能做比較好的功耗和內容匹配。下面是垂直方面的應用優化,因為語音識別技術現在發展非常快,不同行業有很多優化的點,包括POI、智能家居,需要做非常多的工作,還有合成技術,技術我就不展開了,請工作人員播放一下這段聲音,大家感受一下。
(播放聲音)
這是我們語音合成的聲音,比過去十年前進步了很多,這里主要針對機器指令,包括聊天、問答、會話式推薦等結合在一起,這個是融合了端到端學習的對話系統、語用計算的框架。語義理解是我們希望一句話能把所有信息都編到里面去,就像最早語音助手的方式。語用計算是讓機器更好的感知用戶是誰,他在什么時間什么地點做交互,通過這個方式就能夠簡化人機交互繁瑣方式,因為人交互的時候不需要把所有信息重新編排進去的。
前面講的是我們智能語音交互技術推進的情況,下面給大家分享的是我們在物聯網應用實踐的結果。講到未來物聯網智聯網愿景,我們人類感知到的是智慧家居、智慧出行和傳感設備,能夠達到這種狀態的話,智能制造和智慧城市為支撐,toC、toB和toG的產業發展。我們要解決問題的挑戰還是非常大的,因為智能交互和過去的交互方式復雜度提升了很多,不像過去觸屏,對于語用我們需要解決很多問題,包括把非常多的AI技術集成起來,這是非常大的難點。
另外,我們要解決完整的交互方案設計,我們即便提供SDK也很難用好,很多開發者發現用SDK,交互很難做到我們想要的效果;還有遠場識別,真實應用場景下,不可能讓用戶用手點再交互,還有內容聚合以及家居控制,我們把它打造成完整的方案,通過這個方案我們才能夠在互聯網里快速應用起來。
產品體系,以整個AI技術為核心,我們打造的是云端加上終端的交互系統,再加上芯片解決方案,這樣的話系統有一個完整方案,加入到產業里面去,讓物聯網能夠快速的把它應用起來。后面是產業落地的案例,左邊是我們批量生產的設備,請工作人員播放一下視頻。
(播放視頻)
這是格力空調的展示,這個產品現在基本上屬于國家領導人去展廳的時候演示的產品之一。云知聲在五周年推出了家居中控方案,Pandora方案,大家可以看一下視頻展示。
(播放視頻)
這里面的展示有幾個點,我們并不需要每一次交互都喚醒,兩個用戶在聊天的時候它不會做任何的互動動作,只有我們說它能夠接收的指令和內容的時候它才會做,還有自定義自己個性聲音,后面還有這些技術都是具備的。下面是一個車載產品,直接看展示吧。
(播放視頻)
還有在醫療領域的應用,去年我們和協和醫院做了這樣一個病例錄入系統,放一下視頻。
(播放視頻)
這里講的都是專業的詞匯,經過專業的訓練,人都記不下來,專家10點半下班,他們每天都要花時間做這個,我們為他們節省了很多的時間。
這是我們未來物聯網產業形態,我們所專注的是前面幾個部分,一個是智慧大腦的部分,“云端芯”產品體系,面向智慧生活和智慧服務,為智能終端產品提供智能服務解決方案。物聯網與人工智能的結合是大勢所趨,智能語音技術迎來產業化機遇和挑戰,語音技術取得突破性進展,但產業化仍面臨噪聲、口音、領域、功耗、成本等挑戰。未來我們認為最大的挑戰在于認知,認知計算是交互和服務升級的關鍵。未來開放的技術、產品、服務生態體系有利于AI產業的快速發展。本次就為大家分享這么多,謝謝。
51CTO記者將持續為您帶來WOTI2017全球創新技術峰會前方精彩報道,敬請期待!
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】