厲害了,智能語音時(shí)代!
作為一個(gè)極客,我家里早早安上了能夠用APP控制的智能燈、智能窗簾等。剛安上的時(shí)候,覺得自己很拽很屌,但沒過了多久,就覺得自己挺傻叉的。
早上醒來我要開燈,得經(jīng)過這么幾步:1、迷迷糊糊從床頭柜上摸到手機(jī);2、把手機(jī)用指紋解鎖;3、找到APP;4、點(diǎn)擊開燈按鈕。
于是,得到了太太的嘲笑。她說還不如直接按床頭安的那個(gè)物理開關(guān)方便。被她嘲笑的同時(shí),我也深深認(rèn)可她的觀點(diǎn)。于是,那個(gè)物理開關(guān)的使用頻次又恢復(fù)了。
還有一次,我正在廚房展現(xiàn)刀削面功夫的時(shí)候,看著被削下去的一根根面條,就想起了遠(yuǎn)在山西老家的老母親。那個(gè)時(shí)刻,突然想聽四兄弟的《離家五百里》,雖然我家里有全套的智能音響,但看看自己沾滿面的雙手,不忍玷污手機(jī),只好請?zhí)珟兔Σシ牛抑辉趶N房的音響播放。
這兩個(gè)生活中的場景,因?yàn)槿鄙僬Z音交互,所以顯得不那么“智能”。理想的狀態(tài)應(yīng)該是:早晨醒來時(shí),我只需要說一聲“醒來了”,然后燈自動亮起,窗簾自動打開,音樂自動響起……削面時(shí),我只需要說一聲“只在廚房播放500Miles”,廚房的音響就會循環(huán)播放這首歌……
我根據(jù)人機(jī)交互這個(gè)維度,來劃分了幾個(gè)時(shí)代:
第一個(gè)時(shí)代:Click時(shí)代(點(diǎn)擊時(shí)代)。早年間,網(wǎng)蟲的另類定義就是“看到下劃線就忍不住想去點(diǎn)擊的人”。網(wǎng)蟲的這個(gè)定義可謂是Click時(shí)代的最好注腳。
第二個(gè)時(shí)代:Touch時(shí)代(觸摸時(shí)代)。Touch時(shí)代開始的標(biāo)志,就是2007年喬老爺發(fā)布的iPhone。觸摸屏幕的出現(xiàn)極大的提高了用戶交互的體驗(yàn),容易上手。
Click時(shí)代和Touch時(shí)代共同構(gòu)成了互聯(lián)網(wǎng)的過去和現(xiàn)在。從另外一個(gè)角度說,也可以把Click時(shí)代對應(yīng)于PC互聯(lián)網(wǎng)時(shí)代,把Touch時(shí)代對應(yīng)于移動互聯(lián)網(wǎng)時(shí)代。正是因?yàn)橛脩魪腃lick變成了Touch,從PC轉(zhuǎn)移到了移動終端,互聯(lián)網(wǎng)行業(yè)才發(fā)生了那么多的變化。
這是過去和現(xiàn)在,那未來,交互方式又會如何改變,又將進(jìn)入什么時(shí)代呢?
第三個(gè)時(shí)代:Voice時(shí)代(語音時(shí)代)。“未來,每一部手機(jī)都將能聽會說;未來,每一臺家電都將能聽會說;未來,每一輛汽車都將能聽會說;未來,每一個(gè)玩具都將能聽會說。”這是一個(gè)美好的暢想。
語音時(shí)代,簡單來說,用戶只需要用說話的方式給服務(wù)終端發(fā)布命令,就能得到相應(yīng)的服務(wù)。這一產(chǎn)業(yè)從上世紀(jì)六十年代就已出現(xiàn),但并不為普通消費(fèi)者所熟知,消費(fèi)者對其認(rèn)知度也比較低。近年來,隨著蘋果、亞馬遜、谷歌、微軟等公司先后推出Siri、Echo等智能語音服務(wù),這一服務(wù)以及相關(guān)產(chǎn)業(yè)也開始被普通消費(fèi)者和投資界所關(guān)注。在中國已發(fā)展了20多年的語音技術(shù),也真正進(jìn)入到普通人的生活,開始了一個(gè)前所未有的快速發(fā)展階段。不少中國本土的語音公司迅速崛起,改變了國外公司壟斷中國語音技術(shù)市場的局面。
目前,在一些特定的情境里,語音交互已經(jīng)成為主要的方式了,比如汽車?yán)铮热缂依铩?/p>
簡單地說,世界是由懶人創(chuàng)造的,人機(jī)交互的演進(jìn)也可以認(rèn)為是人們越來越懶的演進(jìn)過程。俗話說得好,“能動口的絕不動手”,就是這個(gè)道理。語音最大的優(yōu)勢是,它是人類最自然的交互方式。
我們進(jìn)一步預(yù)測,Voice時(shí)代之后,又是什么時(shí)代呢?
第四個(gè)時(shí)代:Motion時(shí)代(體感時(shí)代)。體感技術(shù),在于人們可以很直接地使用肢體動作,與周邊的裝置或環(huán)境互動,而無需使用任何復(fù)雜的控制設(shè)備,便可讓人們身歷其境地與內(nèi)容做互動。簡單說,就是一個(gè)手勢、一個(gè)眼神的事兒。
這種技術(shù)目前在游戲領(lǐng)域已經(jīng)有一定的應(yīng)用,可讓人們得到身臨其境的游戲體驗(yàn)。體感游戲?qū)蔀橛螒蛴脩舻男?ldquo;寵兒”,它可以不用任何控制器,用肢體動作就可以控制游戲里的玩家,可以讓用戶更真實(shí)的遨游在游戲的海洋中。
總體來說,Click時(shí)代和Touch時(shí)代共同構(gòu)成了互聯(lián)網(wǎng)時(shí)代,Voice時(shí)代和Motion時(shí)代將一起構(gòu)成互聯(lián)網(wǎng)時(shí)代的下一個(gè)時(shí)代——智能時(shí)代。本文將重點(diǎn)說說Voice時(shí)代。
說到Voice時(shí)代,就必須要提到亞馬遜的Echo智能音箱。Echo已經(jīng)成為Voice時(shí)代的一個(gè)重大創(chuàng)新,成為智能家庭的一個(gè)現(xiàn)象級應(yīng)用。三星電子、蘋果、谷歌等公司都在模仿亞馬遜推出類似的產(chǎn)品,日前,英特爾也加入了這一潮流,宣布將開發(fā)基于亞馬遜語音助手的智能音箱。連英特爾都來湊熱鬧了,這個(gè)領(lǐng)域的火爆可見一斑。
由于Echo尚沒有中文版,所以我們沒有體會到它的熱度,然而在美國,已經(jīng)成為“一款現(xiàn)象級的革命性產(chǎn)品”。從 2014 年 11 月正式發(fā)布到現(xiàn)在,亞馬遜的 Echo 智能音箱超過兩歲了。在這兩年時(shí)間里,它從一開始隨時(shí)可能夭折的“新生兒”,發(fā)展成如今市場上最為火熱的智能家居產(chǎn)品之一。
根據(jù)消費(fèi)者智能研究機(jī)構(gòu) CIRP(Consumer Intelligence ResearchPartners)發(fā)布的最新報(bào)告,截止 2016 年 11 月 21 日,Echo 系列在美國的銷量已經(jīng)達(dá)到了 510 萬臺。其中,從2016 年 4月份以后,Echo 的銷量增加了 200 多萬臺。
在 2016 年 5 月舉行的Google I/O 大會上,Google 發(fā)布了一款名為Google Home 的設(shè)備,從產(chǎn)品的功能和用途來看,Google Home 可以說是 Amazon Echo 的直接競爭對手。前不久,智能音響的鼻祖Sonos也宣布接入了亞馬遜的Alexa系統(tǒng)。在中國,京東聯(lián)合科大訊飛推出了一款與 Echo頗為類似的產(chǎn)品。再加上剛剛公布英特爾,這些都可以看作是對亞馬遜 Echo 的致敬和挑戰(zhàn)。
雖然被稱為“智能音箱”,但是亞馬遜的Echo以及市面上一系列模仿產(chǎn)品,其功能遠(yuǎn)遠(yuǎn)超出了一個(gè)音箱,它可以成為家庭消費(fèi)者用語音進(jìn)行上網(wǎng)的一個(gè)工具,比如點(diǎn)播歌曲、給電視機(jī)點(diǎn)播一個(gè)網(wǎng)絡(luò)視頻,或是了解天氣預(yù)報(bào),它也可以對智能家居設(shè)備進(jìn)行控制,比如打開窗簾、設(shè)置冰箱溫度、提前讓熱水器升溫等。
這一類的產(chǎn)品,從技術(shù)角度看,都是語義理解+大數(shù)據(jù)分析+主動結(jié)果反饋的產(chǎn)品。與機(jī)器進(jìn)行語音交流,讓機(jī)器明白你說什么,這是人們長期以來夢寐以求的事情。語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。
語音識別是一門交叉學(xué)科,語音識別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤和屏幕,通過語音命令進(jìn)行操作,語音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競爭性的新興高技術(shù)產(chǎn)業(yè)。
語音時(shí)代的最大意義在于,真正做到了解放雙手。尤其在汽車?yán)铩⒓依镞@樣的場景,意義非凡。解放了雙手之后,人類與世界的交互,才第一次實(shí)現(xiàn)了隨時(shí)隨地,隨心所欲。
當(dāng)然,語音交互目前還存在很多問題。比如由于空間距離、背景噪音、其他人聲干擾、回聲、混響等多重復(fù)雜因素,進(jìn)而導(dǎo)致的識別距離近、識別率低等明顯痛點(diǎn)。再比如單是中國語系、方言和口音就相當(dāng)多,加上中文的多語義性,所以不同地區(qū)的人使用語音控制識別率差異較大。同時(shí),在語義識別上,也存在上下文的關(guān)聯(lián)帶來識別的學(xué)習(xí)難、定位難和建立模型難等問題。
但是,我一直在強(qiáng)調(diào),技術(shù)的障礙永遠(yuǎn)不是障礙。所以,那么多的巨頭前仆后繼。
科技讓生活更智能,語音讓交互更便捷。厲害了,Voice時(shí)代,智能語音時(shí)代!