科勝訊Conexant:語音交互重在提升應(yīng)用體驗(yàn)
原創(chuàng)【51CTO.com原創(chuàng)稿件】或許,很多朋友都沒有聽說過科勝訊Conexant這家公司,筆者在收到采訪邀請之前,也完全不了解它們。不過,這家專業(yè)的音視頻高科技公司,已經(jīng)在語音交互領(lǐng)域取得了不俗的成績。憑借優(yōu)秀的軟硬件產(chǎn)品解決方案和聲學(xué)積累獲取了一大批的合作客戶,像百度、騰訊、亞馬遜這些科技巨頭,在人工智能等相關(guān)產(chǎn)品上均采用了科勝訊公司的語音交互解決方案。
市場占有率***的語音交互解決方案廠商
科勝訊Conexant總部位于美國加州爾灣,主要有音頻和成像兩個(gè)事業(yè)部組成。其中,音頻事業(yè)部又有兩個(gè)業(yè)務(wù)部門組成,一個(gè)是語音交互業(yè)務(wù),一個(gè)是數(shù)字耳機(jī)業(yè)務(wù)。此次筆者采訪的重點(diǎn)為語音交互方面的內(nèi)容。
據(jù)了解,五年之前科勝訊開始進(jìn)入語音交互領(lǐng)域,在產(chǎn)品研發(fā)上投入了大量的經(jīng)費(fèi),積累了豐富的經(jīng)驗(yàn)。可以說,它是***家涉及遠(yuǎn)場語音交互的公司。根據(jù)科勝訊的介紹,科勝訊語音交互產(chǎn)品解決方案即包括DSP硬件,又集成了優(yōu)秀的軟件算法,并積累了大量的聲學(xué)設(shè)計(jì)經(jīng)驗(yàn)。
筆者獲悉,科勝訊AudioSmart DSP實(shí)際上是一個(gè)系統(tǒng)芯片,除了DSP之外還集成了微控制器, 模擬數(shù)字轉(zhuǎn)換器并嵌入了科勝訊的專有Smart Source Pickup 和 Smart Source Locator算法??苿儆嵄硎?,之所以采用這樣的設(shè)計(jì),主要是考慮到原廠需求。原廠需要接入高性能的麥克風(fēng),所以在設(shè)計(jì)之初它就是一個(gè)功能強(qiáng)大的系統(tǒng)芯片。
科勝訊表示,基于優(yōu)秀的軟硬件組合和對客戶喚醒詞和語音識(shí)別的聲學(xué)優(yōu)化和設(shè)計(jì)經(jīng)驗(yàn),科勝訊語音交互產(chǎn)品成為當(dāng)前市場中占有率最多的解決方案。在國內(nèi)市場,百度DuerOS產(chǎn)品開發(fā)套件和參考設(shè)計(jì)均采用了科勝訊方案,騰訊小微也列科勝訊作為重要的合作伙伴。在國際市場,科勝訊與亞馬遜建立了非常密切的合作關(guān)系,并成為亞馬遜官方承認(rèn)的、給第三方開發(fā)者提供語音解決方案的***雙麥克風(fēng)和4麥克風(fēng)指定廠商。
雙麥克風(fēng)仍是當(dāng)前最彈性的解決方案
當(dāng)市場主要推廣6個(gè)麥克風(fēng)或7個(gè)麥克風(fēng)的語音交互解決方案的時(shí)候,科勝訊卻推出了雙麥克風(fēng)和四麥克風(fēng)兩種不同的語音交互解決方案,針對不同應(yīng)用場景需求, 以滿足不同行業(yè)與領(lǐng)域客戶的需求。談到兩種方案的應(yīng)用場景優(yōu)缺點(diǎn),Conexant表示,兩個(gè)麥克風(fēng)是目前性價(jià)比***的解決方案,其***的優(yōu)點(diǎn)是能夠用在任何產(chǎn)品上,沒有太多設(shè)計(jì)上的限制并提供出色的語音拾音。例如智能音箱、智能溫度控制器、智能燈泡、智能電視、智能機(jī)頂盒和其他智能家電產(chǎn)品上,大都采用兩個(gè)麥克風(fēng)的解決方案,并且性能和效果都非常好。
相比較兩個(gè)麥克風(fēng)的方案,四個(gè)麥克風(fēng)的解決方案***的特點(diǎn)在于其提供了聲源定位功能,因此性能更強(qiáng)。在科勝訊看來,聲源定位是具有潛力的功能,在具備聲源定位的未來產(chǎn)品上加裝攝像頭,即可以實(shí)現(xiàn)更多更豐富的應(yīng)用。例如人類與機(jī)器人的交互,機(jī)器人能夠通過聲源定位來確定人的位置,并完成一系列的指令,如拍照、遞咖啡等,這是與兩個(gè)麥克風(fēng)方案***的差別。
因?yàn)閾碛袑S械乃惴ê透叨葍?yōu)化的硬件, 科勝訊的兩個(gè)麥克風(fēng)和4個(gè)麥克風(fēng)解決方案甚至能夠?qū)崿F(xiàn)比其他更多麥克風(fēng)的解決方案更好的性能. 由于兩個(gè)麥克風(fēng)的方案設(shè)計(jì)出的產(chǎn)品可以掛在墻上、天花板上,無論如何擺放,都能夠完成360度拾音,應(yīng)用場景非常豐富,因此兩個(gè)麥克風(fēng)方案仍然是當(dāng)前最常見、最為彈性且最多被采用的方案。
語音交互的重點(diǎn)在于應(yīng)用體驗(yàn)
語音交互需要解決各種各樣的難題,例如喚醒率, 語音識(shí)別率、誤喚醒率等等,特別是面對各種復(fù)雜和不可預(yù)測的應(yīng)用環(huán)境,如何有效解決這些問題,給用戶***的應(yīng)用體驗(yàn),給語音交互提出了很高的要求。
由于采用了自已研發(fā)的芯片、算法,并且積累了大量的聲學(xué)經(jīng)驗(yàn),因此在音頻處理方面科勝訊已經(jīng)有了非常成熟的解決方案。Conexant表示,不管面對什么樣的機(jī)器,手機(jī)、電視或是任何一個(gè)終端產(chǎn)品,重要的是能夠在各個(gè)不同環(huán)境下準(zhǔn)確識(shí)別聲音,將語音傳到AI引擎上面去,如百度DuerOS、騰訊云小微, 亞馬遜Alexa等。在語音識(shí)別上,噪音、回聲、混響是遠(yuǎn)場語音交互面對的***挑戰(zhàn)。對于科勝訊而言,這些困難都已經(jīng)攻克,現(xiàn)在重點(diǎn)是如何幫助AI供應(yīng)商和制造商開發(fā)良好用戶體驗(yàn)的產(chǎn)品。
據(jù)了解,目前市場中80-90%用到的四個(gè)麥克風(fēng)以上方案都是基于Beamforming降噪技術(shù),Beamforming降噪技術(shù)的入門門檻較低,從根本上講,性能將隨著麥克風(fēng)的增加而提高??苿儆崉t采用了自己獨(dú)有的Smart Source Pickup技術(shù),其***的優(yōu)勢在于360度拾音時(shí),采用了獨(dú)特的算法來分辨人聲與噪聲、回音,純粹用演算方法來區(qū)分實(shí)現(xiàn)。此外,當(dāng)聲波束傳送過來時(shí),Beamforming技術(shù)不能準(zhǔn)確分辨在同一位置的人聲和噪聲,但Smart Source Pickup技術(shù)不存在這個(gè)問題,不管聲音在什么地方,人在什么地方,噪音在什么地方,都能夠把人聲抓出來。Smart Source Pickup技術(shù)用的是性噪比,是聲音跟噪音的比例,而不是噪音跟人聲的位置,區(qū)別非常大。
“語音交互的準(zhǔn)確率高不高,誤喚醒率是否降到很低,這些特性都會(huì)影響到用戶對產(chǎn)品的使用體驗(yàn)。如果用戶能夠更自然的與產(chǎn)品講話,更自然的問各種問題,并不是一定要聽固定的詞語,能夠很正常的像人與人之間交互一樣回答你的問題,這才是語音交互的最終目標(biāo)。只有用戶體驗(yàn)好,產(chǎn)品才會(huì)繼續(xù)向著更好的方向發(fā)展。”Conexant如是說。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】