科大訊飛江濤:2013 年上半年語音技術(shù)得到普及
在今天上午一場關(guān)于“訊飛語點(diǎn)”的溝通會(huì)上,科大訊飛副總裁江濤談到自己對(duì)手機(jī)語音交互技術(shù)的展望:
我相信,隨著今年 9、10 月份下一代 iPhone 正式發(fā)布,Google 開始推動(dòng)語音云技術(shù);加上百度、騰訊等互聯(lián)網(wǎng)廠商推出相關(guān)產(chǎn)品,用戶教育過程會(huì)很快。到明年上半年,最遲明年年中,哪個(gè)手機(jī)沒有語音交互的功能,就會(huì)很奇怪了。語音交互將由激勵(lì)因素變?yōu)楸=∫蛩亍,F(xiàn)在一個(gè)手機(jī)有語音技術(shù),大家會(huì)覺得很有趣;到那時(shí)如果沒有語音,會(huì)說這個(gè)手機(jī)怎么這么落后。
訊飛語點(diǎn)
科大訊飛對(duì)于這一趨勢(shì)的把握,是推出被稱為“中文版 Siri”的“訊飛語點(diǎn)”應(yīng)用。今年 3 月 22 日語音開發(fā)者大會(huì)上,科大訊飛 CEO 劉慶峰以“One more thing…”的方式發(fā)布了訊飛語點(diǎn)。當(dāng)時(shí)現(xiàn)場演示的效果很不錯(cuò),識(shí)別率和智能性都達(dá)到了比較高的水平,只是由于網(wǎng)絡(luò)狀況出現(xiàn)幾次錯(cuò)誤,引來現(xiàn)場笑聲。
在溝通會(huì)上,江濤介紹說 3 月發(fā)布會(huì)之后產(chǎn)品團(tuán)隊(duì)對(duì)語音云的網(wǎng)絡(luò)適配能力作了改進(jìn),“我們馬上要發(fā)布的新版訊飛語點(diǎn)對(duì)網(wǎng)絡(luò)流量的最低要求降到 7.3 kbps,3G/Wi-Fi 網(wǎng)絡(luò)也只是 20 多 Kb——訊飛語點(diǎn)會(huì)自動(dòng)根據(jù)網(wǎng)絡(luò)環(huán)境對(duì)傳輸進(jìn)行自適應(yīng),但即使 2G 網(wǎng)絡(luò)下,用戶也可流暢地使用訊飛語點(diǎn)服務(wù),對(duì)識(shí)別準(zhǔn)確性影響不大(只比 3G/Wi-Fi 環(huán)境低 0.3%)”。江濤說,他們測試 Siri 后,發(fā)現(xiàn)它對(duì)網(wǎng)絡(luò)帶寬的要求是 60-70 kbps 左右,這種網(wǎng)絡(luò)要求在 2G 網(wǎng)絡(luò)下基本無法使用。此外,訊飛語點(diǎn)打電話、發(fā)短信功能可以在離線情況下使用,而 Siri 全部功能需要聯(lián)網(wǎng)。
“美國法律規(guī)定通過云計(jì)算的語音不能傳出美國,目前在中國用 Siri 語音是傳回美國的”,江濤還說到“國家安全”這個(gè)因素,“每個(gè)人用多(語音交互)之后生物特征是可以被辨別的,可以通過移動(dòng)終端定位什么人在什么地方,甚至干什么,這是很大的危險(xiǎn)”。江濤說訊飛語點(diǎn)采用的是“語音特征壓縮技術(shù)”,不是把聲音傳到云端,而是對(duì)語音特征進(jìn)行(可被識(shí)別的)編碼,這既可以保證安全性,又可以降低訊飛的數(shù)據(jù)量。
訊飛語點(diǎn)推出至今,“在基本沒做宣傳的情況下”,目前已經(jīng)有超過 100 萬的用戶。這些用戶全部來自 Android 陣營——iPhone 版訊飛語點(diǎn)在 6 月 21 日上傳到 App Store,目前還處于審核狀態(tài)。應(yīng)用上傳當(dāng)天江濤即在微博上說“蘋果審核周期一般是 7-10 天”,相當(dāng)于將了 App Store 審核部門一軍,等待其在期限內(nèi)審核完畢。其后“訊飛語點(diǎn)”微博賬號(hào)也發(fā)了多條倒計(jì)時(shí)微博,不過“等待審核”了 14 天,今天中午才等來“In Review”(此前為 Waiting For Review),這一速度顯然超出正常審核周期。
布局 iOS,“等待審核”
江濤對(duì)于這一狀況非常著急,在今天的媒體溝通會(huì)上多次提到“不能因?yàn)橛嶏w做得比 Siri 好就不讓通過吧”。當(dāng)我問到如果 App Store 最終無法通過,訊飛語點(diǎn)會(huì)不會(huì)與 Android 捆綁,直接與 Siri 進(jìn)行競爭時(shí),江濤回答說“不想站隊(duì),想做一個(gè)開放的平臺(tái)”。他說訊飛語點(diǎn)會(huì)支持全平臺(tái),將來也會(huì)做 Windows Phone 產(chǎn)品。
事實(shí)上,江濤對(duì)于越獄也持保留態(tài)度。“隨著 iOS 用戶的增長,小白用戶會(huì)越來越多,越獄的相對(duì)比例會(huì)越來越小,我們不會(huì)囿于越獄這個(gè)范疇。”雖然把非越獄用戶等同于小白用戶有失妥當(dāng)(非越獄用戶中不乏正版支持者,越獄用戶也不乏非極客的貪圖免費(fèi)應(yīng)用的人),但無疑如果訊飛語點(diǎn)最終無法“登堂入室”,對(duì)于擴(kuò)展用戶基數(shù)非常不利:訊飛語點(diǎn)將無法追隨 iPhone 的擴(kuò)張步伐,得到 iPhone 市場容量的相同增速——江濤說有統(tǒng)計(jì)表明 iOS 設(shè)備目前在國內(nèi)智能終端的比例已超過 10%,明年會(huì)進(jìn)一步增加,可能達(dá)到 20%。另外,局限于越獄用戶對(duì)于“上市公司”這一形象非常不利。
不過,把“越獄”作為一種手段,借越獄用戶的呼聲來施壓 App Store 無疑是高明的決策。7 月 3 日,江濤在微博上說,“訊飛語點(diǎn) iPhone 版 28 號(hào)傍晚推出后,在未做任何宣傳情況下,三天內(nèi)激活量即突破 10 萬”,他把這個(gè)情況稱為“群眾的呼聲”。當(dāng)然,在這條微博中,江濤剛?cè)岵?jì):“iPhone 有最好的手機(jī)硬件,‘好馬配好鞍’,希望蘋果能夠盡快讓更多iPhone用戶用上便捷的語音交互”。
在今天溝通會(huì)伊始,訊飛特意制作了一段 Siri 與訊飛語點(diǎn)正面 PK 的視頻,視頻中無論是打開網(wǎng)站、查詢地圖,還是撥打電話、添加聯(lián)系人,中文 Siri 都“弱爆了”。從這一點(diǎn)來看,訊飛語點(diǎn)稱得上“好鞍”。
硬件廠商合作計(jì)劃
江濤在溝通會(huì)上還提到訊飛語點(diǎn)與硬件廠商的合作情況。目前金立手機(jī)已經(jīng)預(yù)置了訊飛語點(diǎn),其他廠商方面,他說時(shí)間表“不方便透露”,只是說下半年“很多廠商都會(huì)有類似的東西出來”。
所謂“類似的東西”,是指各大廠商的定制化產(chǎn)品。江濤說“今年下半年,各大手機(jī)廠商會(huì)把語音技術(shù)作為差別化的賣點(diǎn)來推”。但由于“定制”比“預(yù)置”的周期要長,金立沿著它自己的“語音王”路子走下來,就成了使用訊飛語點(diǎn)的第一家手機(jī)廠商。
訊飛與電視廠商的合作也在推進(jìn)。今年 5 月,康佳發(fā)布所謂“同步云電視”,就采用了訊飛的技術(shù),實(shí)現(xiàn)語音控制、語音識(shí)別、語音搜索、語音輸入等功能。與汽車廠商方面,訊飛去年 11 月與上汽榮威 350 等車型發(fā)布“語音云駕駛系統(tǒng)”iVoka,駕駛者只需摁方向盤上的 M 鍵即可以使用訊飛的語音云(汽車內(nèi)建聯(lián)通 3G 網(wǎng)絡(luò))。不過雖然訊飛與汽車廠商的合作早于蘋果,顯然今年 6 月 WWDC 上 Siri 與汽車廠商合作的消息更加吸引眼球。
雖然各方合作正在推進(jìn),但江濤坦言培養(yǎng)用戶習(xí)慣是推廣語音技術(shù)過程中遇到的最大的困難。“用戶要‘說出來’是有習(xí)慣培養(yǎng)過程的,需要手機(jī)廠商(比如蘋果)、平臺(tái)廠商(比如 Google)、應(yīng)用廠商來培養(yǎng)市場”。但文章開頭的那段話,說明科大訊飛對(duì)于語音技術(shù)的未來充滿信心。在溝通會(huì)過程中,江濤多次表達(dá)把訊飛做成“大事業(yè)”的想法:比如對(duì)三四線城市的覆蓋(原話:“中國三、四城市的老百姓可能不理解 3G、不理解微博,但是拿一個(gè)手機(jī),打電話、發(fā)短信‘一句話’就能搞定,他一定能感到震憾,這改變了他使用手機(jī)的習(xí)慣”),比如之前提到的對(duì)越獄策略的保留態(tài)度,等等。為了把事情做大,由 B2B 轉(zhuǎn)向 B2B2C,我猜測他們要擴(kuò)張市場推廣人員,以擴(kuò)大訊飛品牌在消費(fèi)者中的認(rèn)知度。這個(gè)猜測得到江濤的證實(shí):“我們正在籌劃把市場推廣人員搬遷到北京來,目前這個(gè)團(tuán)隊(duì)規(guī)模只有 8、9 個(gè)人,慶峰總(劉慶峰)對(duì)這個(gè)團(tuán)隊(duì)的規(guī)模沒有上限的限制。”事實(shí)上,這個(gè)團(tuán)隊(duì)的負(fù)責(zé)人章繼東也是剛剛從產(chǎn)品團(tuán)隊(duì)調(diào)派過來,他發(fā)給我的名片上印著的是“產(chǎn)品總監(jiān)”頭銜。
文章最后,我替曾經(jīng)報(bào)道過的蟲洞團(tuán)隊(duì)提了一個(gè)問題——蟲洞采用訊飛的語音識(shí)別技術(shù),但做出的產(chǎn)品“蟲洞語音助手”與訊飛語點(diǎn)存在競爭關(guān)系。我問江濤怎么看待訊飛語點(diǎn)與第三方同為使用訊飛技術(shù)的競爭產(chǎn)品的關(guān)系,是否會(huì)考慮“極端選項(xiàng)”關(guān)閉 API,江濤首先否定了第二個(gè)猜測,回答如下:
云交互的語音助理剛剛起步,訊飛也才過 100 萬用戶。將來會(huì)成幾分天下的格局:一是來自手機(jī)廠商的產(chǎn)品,比如 Siri;二是擁有核心技術(shù)的,比如訊飛;三是在自然語言理解和人機(jī)交互方面有獨(dú)特優(yōu)勢(shì)的,比如蟲洞。蟲洞的交互做得還是很好的。它原來有積累,人機(jī)問答的積累。如果在這些環(huán)節(jié)中(語音技術(shù)分為語音識(shí)別、語義理解、語音合成三個(gè)環(huán)節(jié)),你都沒有獨(dú)特價(jià)值,將來可能很難生存;要是一個(gè)環(huán)節(jié)有獨(dú)特價(jià)值,可能你就能夠(生存下來);如果多幾個(gè)環(huán)節(jié)有獨(dú)特價(jià)值,這樣的權(quán)重就會(huì)比較大。蟲洞我們還是比較支持他的……總的來說我們是很 Open 的,希望更多的人來關(guān)注語音,用語音做出東西,培養(yǎng)和教育市場。