成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

語音識別:對未來人機交互的顛覆與改變

人工智能 語音識別
語音識別正以磅礴之勢占據著一個時代的智能高點

想象一下,當你駕駛一輛奧迪A8L行駛在路上,只需說出幾個簡單的詞語,便可獲得旅途所需的一切,車載MMI 人機交互系統可智能識別語音指令,輕松控制導航,語音通話,娛樂系統等各項功能,汽車也仿佛不再是冰冷的交通工具,而變得更有智慧。電子設備從過去的智能工具,開始成為與人交互的“伙伴”。

語音識別正以磅礴之勢占據著一個時代的智能高點。美國谷歌公司發布的一項調查報告顯示,13歲到18歲之間的青少年中,每天都要使用語音搜索的人數比率約55%,尤其是在每天使用智能手機時間在11小時以上的青少年用戶中,比率激增至75%;而在成年人中,約有56%的人表示使用語音搜索會令他們感覺自己很懂技術。谷歌傳統搜索副總裁斯科特?霍夫曼如此感言:對年輕人而言,使用語音搜索猶如應用社交媒體一樣自然,并且會找到很多創新的使用方法。

隨著大數據、機器學習、云計算、人工智能等技術的發展,語音識別在一步步解放用戶的雙手,語音輸入框也大有取代鼠標、鍵盤之勢。伴隨著智能移動設備的普及,語音交互作為一種新型的人機交互方式,正越來越引起整個IT業界的重視。

業內機構預計,整個人工智能市場可在2018年達到1800億美元的水平,其中的語音識別市場將占到整個大蛋糕中極有分量的一大塊。2015年,全球語音識別市場規模約為61.9億美元,預計到2020年可以接近200億美元。

讓智能語音如何從“聽到”,進化到“聽懂”,實現語音服務的通用化,更多服務于現實生活場景,更好地普惠于移動互聯網用戶,盡管仍有障礙亟待逾越,但這必將是規模工業化的重點突破方向。

在智能語音專家賈磊看來,剝離了諸多衍生服務、僅集中于語音技術的時代已經過去了,未來的規模工業化發展趨勢已然顯現,下一階段的變革之旅正在開啟。

互聯網的“語音”入口

2016年年初,美國麻省理工學院(MIT)主辦的知名科技期刊《麻省理工科技評論》,評選出了“2016年十大突破技術”,語音識別位列第三項,與其他技術一起“到達一個里程碑式的階段或即將到達這一階段。”

語音識別技術,也被稱為自動語音識別,其目標是將人類語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。語音識別的目的就是讓機器賦予人的聽覺特性,聽懂人說什么,并做出相應的動作。

與計算機進行語音交流,并讓其明白用戶在說什么,這是人們長期以來夢寐以求的事情。深度學習、人工神經網絡等技術的發展,讓這一夢想照進現實。百度語音前首席架構師賈磊預測,語音識別技術將在語音搜索領域、O2O領域、傳媒信息等領域發揮巨大作用。

作為人工智能界的技術大咖,賈磊的“技術路線”著實是一條“語音路”。

1993年,賈磊保送進入西北工業大學教育改革班學習,大學期間他就對數學、計算機和聲音信號處理技術產生了濃厚的興趣。此后的20多年,賈磊一路與“語音”結緣。

2003年,在中科院拿到博士學位的賈磊加入松下中國研究開發有限公司,在工業界從事語音技術相關的研究工作,其間成功研發了手機上的英語、日語和漢語的人命數字撥號系統;兩年后,賈磊離開松下,加入IBM中國研究院。在IBM工作期間,賈磊和IBM美國研究部門的同事一起構建了漢語廣播識別系統。

2006年初,賈磊回到松下中國研究開發有限公司,擔任松下語音技術部的高級經理,承擔整合松下內部語音技術的工作,并領導松下中國部門,研發了日語汽車導航系統產品原型;四年后,賈磊回到中科院自動化研究所,主導了中科院自動化所的第一版本的云計算條件下的機器翻譯系統構建工作。

2011年6月,賈磊加入百度,開始擔任百度語音技術部負責人、首席研究員,負責百度語音技術的核心技術研發和互聯網產業化工作。短短的6個月內,賈磊帶領技術團隊,實現了百度完全自主研發的語音搜索系統上線。此后,賈磊的技術團隊又備受矚目地相繼完成了手機語音輸入法系統、智能語音手機助手等系統的研發與上線。

2015年年底,伴隨著“大眾創業、萬眾創新”的熱潮,賈磊離開百度,投身到與人工智能相關的創業領域中。“高技術人才創業是為國家作貢獻的另一種方式,美國硅谷的很多公司都是從創業中誕生的,比如微軟、谷歌,都是從最初的創業公司最終成長為行業巨頭。”賈磊如此描述自己的創業,“在以后的人工智能時代,人類的很多活動或許會被機器替代,但置身這個行業的工作人員,一定要精準掌握制造機器、提升機器的方法。”

[[185870]]

語音識別可規模工業化的未來

過去的20多年,語音識別技術與賈磊們的“技術腦”共同進行著自我進化,而這種進化,也在潛移默化地改變著互聯網、尤其是移動互聯網的形態。

微軟研究院首席研究員俞棟認為,在很多應用場合,語音識別成為一個入口,如果沒有這個入口,大家都會覺得智能機器不夠智能,或者用戶會覺得與智能機器交互有困難。

新興的萬物互聯時代需要新的交互方式,人們將開始從智能手機的觸摸模式轉向智能家居所必需的遠場語音交互,這樣的交互離不開智能語音語言技術作為支撐。阿里云iDST技術總監初敏認為,語音交互將會成為數據智能的第一個爆發點,“下一輪的入口之爭將再次出現”。

從互聯網誕生之日起,搜索框便成為人們進入互聯網的重要入口,但語音識別一經出現,搜索框的地位受到動搖,在未來或將逐步被取代。微軟雷德蒙德研究院副院長杜麥斯認為,深度學習技術將助力2017年的網絡搜索結果,到2027年,搜索框將消失,被無所不在、嵌入式以及具備語境感知能力的搜索取代。

如今,這種“取代”已經開始萌發。11月底,搜狗、百度和科大訊飛三家公司接連召開了三場發布會,向外界展示了自己在語音識別和機器翻譯等方面的最新進展,三家公司均宣布的旗下語音識別系統正確率已達到97%左右,同時有不少智能語音產品支持不同地區的方言識別。

此前,百度研發出了基于多層單向LSTM(長短時記憶模型)的漢語聲韻母整體建模技術,并成功把連接時序分類(CTC)訓練技術嵌入到語音識別傳統技術建模框架中。該技術能夠使機器的語音識別相對錯誤率降低15%,使安靜環境下的普通話語音識別的準確率接近97%,未來將大規模應用在百度語音搜索等產品上。

賈磊表示,語音識別技術特別適合于語音識別大規模工業化,“因為這個技術應用點很多,它不但是解碼速度快,而且對口音、對遠場都有一定的作用,有口音的人識別率會改善很多,距離較遠的時候識別率也會改善很多。”

業內人士判斷,作為信息技術的重要組成部分,向更聰慧的水平進化的智能語音技術,將在人工智能、移動互聯網、智能終端、智能家居、可穿戴設備等領域日益深入運用,并將在更多垂直行業深入發展,帶動智能語音以及相關產業的發展,形成新的業態、新的增長點。

一甲子打磨“語音”利劍

如今的語音識別有多聰明?百度首席科學家吳恩達認為,目前的語音識別已經超過了正常人的語音識別能力。以情感合成為例,基于深度學習和大數據處理技術的語音識別,在數據采集、處理、建模等環節完成了一系列創新,可以實現更富有表現力的自然朗讀效果。

在普通公眾的眼里,語音識別似乎是一項橫空出世的新技術,據 TechCrunch 統計,僅美國至少就有26家公司在開發語音識別技術。但在科學家與工業界人士看來,語音識別并不是一個新興的行業。

早在1952年,美國貝爾實驗室的Davis等人就研制了世界上第一個能識別10個英文數字發音的實驗系統。1960年,英國的Denes等人研制了第一個計算機語音識別系統。發展至今,語音識別技術早已走過了一甲子的歷程。

上世紀50年代,科學家們認為要讓計算機實現語音識別這類只有人才能做的事情,必須先讓其理解自然語言。這使得人類探索語音識別的路線,局限在用電腦模擬人腦上,即讓計算機學習人類學習語言的方式。在這一思路的指引下,此后的20年,科學界在語音識別領域鮮有科研成果出現。

直到1970年后,統計語言學的出現讓語音識別重獲新生。推動這個技術路線轉變的關鍵人物是現代語音識別和自然語言處理研究的先驅、美國工程院院士德里克·賈里尼克和他領導的IBM華生實驗室。IBM采用統計的方法,將當時的語音識別率從70%提升到90%,同時語音識別的規模從幾百單詞上升到幾萬單詞。這使得語音識別有了從實驗室走向實際應用的可能。

此后,隨著研究思路的變化,大規模的語音識別研究得以實現,科學家們在小詞匯量、孤立詞的識別研究方面取得了實質性的進展。20世紀80年代以后,語音識別研究的重點則逐漸轉向大詞匯量、非特定人連續語音識別。

20世紀90年代以后,科學界在語音識別的系統框架方面并沒有什么重大突破,但在語音識別技術的應用及產品化方面出現了很大的進展。始于20世紀70年代的DARPA系統,是由美國國防部遠景研究計劃局資助的一項計劃,旨在支持語言理解系統的研究開發工作,進入90年代, DARPA計劃仍在持續進行中,其研究重點已轉向識別裝置中的自然語言處理部分,識別任務設定為“航空旅行信息檢索”。

在這個時期,英國劍橋大學的HTK系統對語音識別貢獻巨大,為很多從事語音識別的研究單位提供了結構完整、全面的一套軟件基線系統。從此,語音識別研究的門檻大大降低,從而更加有效地推動了語音識別技術的快速發展和相互交流。

90年代以后直到現在,計算機界對于語音識別的研究逐漸地由朗讀式語音轉移到了現實生活中“真實對話語音”。進入21世紀,互聯網得到普及,移動互聯網技術也得到了快速發展,手機上網速度越來越快,這給語音識別技術的發展和應用帶來了新的平臺;硬件設備越來越廉價以及云計算技術的出現,也大大推動了語音識別的研究和應用。

中國的語音識別研究起始于1958年,由中國科學院聲學研究所利用電子管電路識別10個元音,但此后,中國的語音識別研究工作一直處于緩慢發展階段。直至1973年,中國科學院聲學研究所開始了計算機語音識別。

進入80年代以來,隨著計算機應用技術在我國逐漸普及和應用以及數字信號技術的進一步發展,國內許多單位具備了研究語音技術的基本條件。與此同時,國際上語音識別技術在經過多年的沉寂之后重又成為研究熱點。在這種形式下,國內許多單位紛紛投入到這項研究中去。

2011年深度學習技術引入語音識別領域,推進整個工業界的人工智能技術應用進入深度學習時代。隨后的幾年里,CNN(卷積神經網絡)、LSTM(長短時記憶模型)、CNN混合LSTM的建模技術在語音識別工業產品中不斷涌現,并持續提升語音識別產品效果。

[[185871]]

技術難關有待突破

2016年6月2日,被譽為“互聯網女王”的瑪麗·米克爾(Mary Meeker)發布了2016年《互聯網趨勢報告》。報告認為,語音是最有效的計算輸入形式,將成為人機交互的新范式。相比打字,語音交互的優勢明顯,既簡單又方便,一個麥克風即可解決,尤其適合物聯網的場景。

然而,任何一項新技術研發,都避免不了需要逾越和突破更多的障礙。早在2008年,比爾·蓋茨就在多個場合預測“今后5年內,互聯網搜索將更多地通過語音來完成”。到如今,語音搜索方興未艾,但遠沒實現比爾·蓋茨的猜想。瑪麗·米克爾預測,未來的計算界面將從鍵盤進化成麥克風及鍵盤,“不過現在才剛剛上路”。

賈磊認為,目前語音識別技術遇到的主要難度,是對口音、噪音、遠場的識別。其中基于深度學習的個性化識別,是未來語音識別技術全面普及與應用的重大挑戰。

如今在多個大型科技會議現場,主辦方都會安排嘗試各家公司研發的語音速錄系統,這大有取代傳統的實時速錄員之勢。起初,這一高效、吸引眼球的技術著實讓人們眼前一亮,但一旦會場中的演講者帶有口音,語音速錄系統便頻頻犯錯,即使有技術人員現場實時調試,也常常另其呈現在會場大屏幕上的文字語法不通、不知所云。

賈磊認為,人的口音千差萬別,不可能有一個語音識別器識別所有的聲音,一定要實現個性化。而這種基于深度學習的個性化識別,一定需要海量的存儲空間和很大的數據吞吐傳輸能力,而這只有具備大數據和云計算這種服務能力的公司能夠提供。

語音識別歷來是人工智能和機器學習中的十大經典難題之一,該技術面臨著說話人、環境、設備三方面的不確定性難點。

說話人常常來自不同的方言區、有不同的口音,說話時又有不同的方式、運用不同的情感,目前的語音識別往往難以完美識別。此外,真實的語言環境是非常復雜的,會被各種各樣的噪聲環繞,包括汽車喇叭聲、飛機的噪聲、馬路上人的聲音,還有一些會場的回聲;而發言者使用的設備也是五花八門,除了自然發聲,人們可以用手持麥克風、領夾麥克風、耳戴麥克風、近場遠場的麥克風等。

在真實的應用場景下,說話人、環境、設備三個因素疊加在一起,使語音識別的應用場景更加復雜。如何處理這些不確定性,成為擺在研發人員面前的一項重大挑戰。

口語化的識別需要訓練語料,口音的有利信息歸根結底需要大量的口音的數據才能解決。“未來會出現更大規模的語料庫,要訓練更大規模的語音識別系統。”賈磊認為,多種數據源的混合訓練仍然是解決口音、噪音和遠場問題的必要手段。

從嚴格意義上,目前的語音識別系統,顯然還難堪完美。峰瑞資本早期項目負責人朱祎舟認為,盡管各家科技公司根據實驗數據得出的語音識別準確率達到95%甚至更高,但在實際使用時并沒有那么高。

阿里云智能語音技術總監鄢志杰也認為,“夸張”的準確率只可能在非常受限的場景下獲得,“如果在一個熱烈討論的會議室,掏出手機做會議記錄,別說97%,斷斷續續勉強看懂就不錯了”。

“語音識別的準確率遠沒有新聞標題上宣傳的那么高,脫離現實場景去談準確率統統都是耍流氓。”鄢志杰認為,智能語音行業應該更嚴肅去思考,在學術研究上到底取得了哪些實質性的進展,應用上到底在哪些方面實實在在幫助到大眾。

從“聽到”到“聽懂”的進化變革

語音識別、語音搜索,已然成為了移動互聯網時代的“剛需”。互聯網帶來的用戶體驗卻并非人人平等,在互聯網用戶中,仍然有相當一部分人無法暢享互聯網。他們因為技術水平的差異,無法利用電腦和手機,通過“精確的文字”與互聯網時代的產物發生“聯動”。比如讓年邁的父母重新去學習“打字”,著實不易。

智能語音很可能讓以往的不平等體驗趨回平衡。如今,智能客服與智能助理等已經成為互聯網上的典型應用場景。接電話的客服人員,可能要漸次被人工智能和機器人替代,不少科技公司已經使用了語音自動轉接、情感識別與關鍵詞識別、語音識別和關鍵信息提取,還有自動化的全量檢驗;而智能助理則可以采用對話的聲控方式,幫助用戶找餐館、安排行程、點歌、導航、找菜譜等。

為了利用語音交互的新穎和便利模式迅速占領客戶群,互聯網公司紛紛投入人力、物力和財力展開語音識別的研究和應用,但如果讓語音識別更好地服務于諸多的真實生活場景中,顯然還有長路要走。

賈磊認為,想解決口音、噪音的問題,語音識別系統的訓練數據還會繼續加大,現在幾萬個小時訓練數據是工業現狀,在不久的未來一定能達到十萬小時。如果出現這么大的計算量,對計算能力的需求會更加強烈,“大數據和高性能計算,是語音識別發展到目前最明顯和清晰的趨勢”。

“語音識別正處于產業化爆發的邊緣,但機器計算成本是一個很大的瓶頸。如果線上50%的搜索都由語音完成,而計算成本還和過去一樣,那么沒有公司能承擔得起。”賈磊表示,語音服務要想大規模普及、服務大眾,必須降低后臺服務器開銷。

在賈磊看來,作為明顯的行業趨勢,語音識別技術會和語意理解、交互技術等形成一整套語音的解決方案。

讓人工智能系統根據自己被告知的內容回答問題或采取行動,真正的難度在于語義識別。目前的語音識別技術,只是把“聽到”的語音高正確率轉化成文字,這對于未來的需求還遠遠不夠。從“聽到”,到“聽懂”,盡管一字之差,卻考驗重重。

如果讓語音識別系統變得更加聰慧,其突破依賴于計算機硬件的進步。近幾年計算機飛速的發展,特別是通用計算的發展,使人類有了強大的計算能力,使得一些過去不可能實現的人工智能算法成為可能,但如果要實現語音服務的通用化,計算能力還有提升空間。

更重要的是,人使用語音識別的目的,不只是把語音轉成文字,而是使用語音去進行交互,并獲得其所需的服務結果。賈磊認為,“這是未來的工業發展趨勢,單純地脫離了服務、脫離了平臺、脫離了計算能力去做語音技術的時代已經過去了”。

語音識別雖然為現代生活帶來了各種便捷,但距離真正實現精確無誤,自主思考,顯然還有很長一段路要走,只有研究者們不斷執著進取,突破藩籬,才能為語音識別技術的未來帶來真正的顛覆與改變。

責任編輯:武曉燕 來源: 《財經》雜志
相關推薦

2021-04-18 13:50:10

人機交互人工智能

2020-12-08 09:12:22

人機交互智能

2017-09-07 14:04:00

2017-07-19 18:15:08

人工智能人機互動機器學習

2009-12-10 16:13:31

英特爾未來芯片

2022-06-27 15:06:03

元宇宙人工智能區塊鏈

2023-01-18 10:06:07

數字人自然語言生成

2023-03-02 09:27:00

智能

2021-06-18 11:37:28

人工智能交互設計人機交互

2011-03-02 08:35:19

人機交互界面iOS

2020-08-17 17:05:08

人工智能機器學習技術

2024-10-05 12:20:00

2023-05-05 11:27:26

2025-01-17 11:37:46

2022-04-23 17:47:37

MetaCon元宇宙

2010-04-20 09:08:36

2022-06-27 12:20:02

元宇宙人工智能機器學習

2020-06-09 14:57:24

人工智能機器學習技術

2012-03-21 14:29:30

人機交互

2021-08-17 09:54:05

人機交互交互模型國際主流
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲性综合网 | 成人日批视频 | 亚洲激情网站 | 黄网站涩免费蜜桃网站 | 插插插干干干 | 丝袜美腿一区二区三区动态图 | 国产精品久久九九 | 天堂三级 | 欧美在线a | 美女亚洲一区 | 牛牛热在线视频 | 一级毛片播放 | 羞羞在线视频 | 日本久久一区 | 日皮视频免费 | 日韩视频91| www.伊人.com | 亚洲精品电影在线观看 | 999久久久久久久 | 国产免费麻豆视频 | 欧美日韩国产高清 | 精品国产乱码久久久久久闺蜜 | 精品1区2区 | 成人亚洲性情网站www在线观看 | 精品视频网 | 日本精品国产 | 日韩在线一区二区三区 | 欧美日韩精品免费观看 | 日韩精品极品视频在线观看免费 | 国产精品一区二区欧美 | 欧美日在线 | 999久久久免费精品国产 | 在线视频a| 国产精品成人一区 | 亚洲精彩免费视频 | 91日b| 久久99蜜桃综合影院免费观看 | 国产在线精品一区二区 | a在线视频 | 日本高清视频在线播放 | av一级毛片|