語音接口 我們已站到下一個交互時代的邊緣
隨著計算機處理、語音識別、移動通信、云計算、神經網絡等技術的發展日趨成熟,語音接口技術迎來了飛躍,虛擬語音助理業務的發展迎來了變革時期。
你或許聽過這樣一個故事。1979年,年輕的史蒂夫喬布斯造訪了位于位于加利福尼亞州帕洛阿圖市的施樂帕克研究中心(Xerox PARC),并見證了帕克研發的計算機圖形用戶界面。一位PARC的工程師使用鼠標原型對計算機進行了相關操作,下拉菜單、點擊互相重疊的計算機窗口。在整個演示過程中,喬布斯所看到的操作方式與以前完全不同。喬布斯后來說,“不到十分鐘,我就清楚有一天所有計算機都會以這種方式運行。”
傳說中喬布斯帶領蘋果的團隊復制了PARC的用戶圖形界面。在隨后的近四十年內,個人計算機技術開始以***的速度向前發展,從***臺Macintosh一路發展至***的iPhone手機。計算機的用戶圖形界面克服了命令行以及文字界面的缺點,將更多的普通人帶進計算機世界,使更多的人能夠使用計算機,他們所需要的技能僅僅是操作鼠標指向、單擊或拖動。
在并不遙遠的未來,我們依舊會因PARC創造的用戶圖形界面和其因決策失誤而導致錯過個人電腦發展黃金時期而唏噓不已。但在喬布斯造訪PARC的時候,而另外一個獨立團隊正在研究關于人機交互的全新模式,也就是今天所說的會話用戶界面。這些科學家設想了這樣一個世界,在幾十年后的電腦功能時如此強大,需要用戶記住關于計算機操作的每一個命令是完全不切實際的。科學家想到用戶會倒退回來,用一種蛻變的方式與計算機協同工作,而這種方式的接口就是普通人類語言。
在研究會話用戶界面的團隊中,有一位名為羅恩·卡普蘭(Ron Kaplan)的科學家。他長相粗壯,說話卻細聲細語,留著山羊胡子,但有頭發稀疏。卡普蘭是一位語言學家,同時也是一位心理學家和計算機專家,其將著名語言學家諾姆·喬姆斯基的理論用于人機交互語言的重構。卡普蘭指出,在上世紀70年代,他的團隊所開發的會話用戶界面離實際應用還有相當的距離。他們勉強開發出一個會話用戶系統,用戶可以使用標準英語來預定機票。但是這種技術無法用于大規模的系統性工作,因此也就無法普及。卡普蘭表示,“當時這種技術的成本過高,大概要達到每個用戶一百萬美元。”事實上,這種技術需要更快處理速度,更為智能、更高效的分布式處理電腦。卡普蘭當時估計需要15年的時間。
卡普蘭現在稱,“四十年后,我們終于準備好了。”
現在,卡普蘭是語音識別軟件公司Nuance Communications的***科學家以及副總裁。該公司是世界上***的語音接口業務公司之一。該公司為福特開發了車內語音系統Sync system,對蘋果Siri的開發也至關重要,其與各行業均有良好的合作關系。但最近,Nuance發現很多公司都在涌入語音接口市常從亞馬遜、Intel到微軟谷歌,幾乎每一個大科技公司都在研發會話用戶接口,此外還有數十個初創企業也在從事相關研究。我們正處于語音接口技術的變革之中。這些公司相信,不久之后,用戶能夠跟自己的設備如同和朋友談話一樣交互。用戶的設備能夠聽到用戶在說什么、表達什么意思。
你或許以及過驚嘆于現在社會的技術發展,但這些新的工具和接口將進一步拓展你的數字生活,克服圖形用戶界面在安全、友好、易用性方面的缺點。更貼近自然語言的會話接口將會進一步拉近你和技術之間的關系,更貼心,更友好,更富于個性化。
這種技術的重大轉變不僅有利于硅谷,更使得普羅大眾受益。史蒂夫·喬布斯在1979年就看到了圖形用戶界面的重要性,清楚其是拓展計算機市場的重要方式。但即便是圖形用戶界面,依舊把大量受眾拒在賽博空間的大門之外。它依舊需要用戶去學習計算機語言。而現在,隨著語音技術的發展,電腦最終將學會如何直接與人類對話。在不斷學習和完善中,人類將打通通向科技世界的通天塔。
但我們也要清楚,雖然語音技術已經存在多年,但迄今為止依舊不夠成熟。當然,你可以舉例說現在的電話自動應答系統還算不錯(打進電話付款,說“支付”便可調用相應功能)。事實上,現在的語音接口都依賴于固定化的語言,而在某些情況下還不具備自然語言的功能。譬如你可以問Google Now紐約市人口數量,它對答如流;你問帝國大廈的位置,它也能應對。但倘若你問其包括帝國大廈在內的紐約市人口數量,它就會不知所云。同樣,蘋果語音助手Siri也一貫如此,其最主要的本領就是幫你調用谷歌搜索。現在的語音接口,與電影中描述的場景差距還很明顯。
然而,當你徜徉在硅谷,和人們談及關于語音接口的相關技術,他們的回答如出一轍:現在不同了。
在六月初的一天,語音識別技術公司SoundHound***執行官凱文·莫哈耶爾(Keyvan Mohajer)向我展示了公司耗費近十年時間研發出的應用程序原型。SoundHound此前曾發布了一款應用,可以通過語音識別并搜索流行音樂。當用戶對著手機哼唱一首曲子時,該應用可以識別并搜索出所哼唱的曲子名稱。事實證明,該應用僅僅是莫哈耶爾夢想的一部分:開發世界上***進的、基于語音的人工智能技術。
莫哈耶爾向我展示的這款應用原型名為Hound。莫哈耶爾手持一款智能手機Nexus 5,點擊了一個麥克風圖標打開程序,開始向Hound提問。開始只是一些簡單的問題,諸如柏林當地時間或是日本的人口,應用程序都給出了正確的答案。隨即莫哈耶爾話峰一轉,問“那么它們之間的距離是多少?”
Hound通過理解之前的對話,很快給出了答案——“大約5536英里”。
這種問題開始接二連三出現,但Hound都對答如流。莫哈耶爾要求Hound根據要求的利率及條件計算出貸款一百萬美元的情況下每月所還按揭,Hound也很快計算出是4270.84美元。
莫哈耶爾又問,“Space Needle所在國首都人口是多少?”
Hound指出莫哈耶爾所問的就是華盛頓的人口,并隨即給出了答案。“日本和中國人口都有多少?首都在哪里?它們的國土面積有多少平方英里?有多少平方公里?有多少人住在印度?還有德國、意大利以及法國的區號是多少?”莫哈耶爾問出了一連串的問題,但Hound都作出了正確的回答。
Hound目前還處于測試階段,但它可能是迄今為止識別速度最快,功能最為強大的語音識別系統。它可以同時進行語音識別以及自然語言處理,符合現在的技術以及市場需求。事實上,各種語音識別系統的飛速發展只是時間問題。
畢竟在當前,語音接口技術的基礎技術——卡普蘭所稱的“門控技術”已經趨于成熟,成本也可接受。這是關于技術融合的經典:計算機處理、語音識別、移動通信、云計算、神經網絡等技術的發展都已經成熟,成本也達到可以接受的水平,可以使得會話用戶接口市場化。
更進一步,不僅僅是相關技術的成熟推動了會話用戶接口的研發,而客觀的市場需求也是推動其發展的重要因素。隨著越來越多的無顯示設備連入網絡,諸如你家中的燈具、煙霧報警器,我們也需要一種可行的方式與設備進行交互,這種交互不需要按鈕、菜單或是圖標。
在另一方面,圖形用戶界面已經接近其自然限制。程序的功能越來越多,在圖形用戶界面中充斥的菜單和圖標選項也越來越復雜。你可以想象一下Photoshop或者是Excel,功能強大,但有著大量的菜單項,或者需要記住各種快捷鍵的使用方式。即便是裁剪一張照片也要從各色工具欄中找出正確選項。卡普蘭指出,“圖形用戶界面已經到達極限,現在它已經處于超載的邊緣。”
這就是即將到來的虛擬語音助理市場,當你被淹沒在紛繁復雜的界面窗口、工具欄以及菜單選項時來拯救你,在你和設備之間建立便捷、高效的聯系。
也許目前我們與虛擬語音助理的關系尚不緊密,但很快這一狀況就會改病埃今年秋季,隨著一批新款智能手機的上市,很快相應的會話用戶接口發展也將出現一次飛躍。當你升級到iOS 9、Andriod 6或是Windows 10時,你會發現直接使用內置應用的頻率會越來越少,更多的是使用蘋果Siri或是谷歌的Google Now以及微軟的Cortana。而在不遠的將來,數十億的Facebook用戶將可以打開一個聊天窗口,通過智能語音助手調用各項功能。語音接口將不再是輔助的方式,而將成為主流和***選擇。甚至于在某些情況下,它將是用戶的唯一選擇。譬如在蘋果的HomeKit系統中,確保一切設備關閉的唯一可行操作就是對蘋果的語音助手說“晚安,Siri”。
這些虛擬語音助理研發的初衷是將復雜簡單化。對于現在的用戶來講,頻繁的下拉菜單操作過于復雜,調用一個功能需要按步驟操作,流程過于繁瑣。相比于此,虛擬語音助手清楚手機內每一個程序以及每一項功能,你可以通過說話來調用這些功能。同時隨著時間的推移,這種人工智能將知曉一切。
需要指明的是,語音技術并不會完全取代觸控屏,甚至是鼠標和鍵盤。如果你需要使用臺式機,肯定會保留這些人機交互方式。雖然更多時間你可能會問虛擬語音助理如何調用功能,譬如“裁剪工具在哪里?”
但是,對于某些特定群體的人來說,會話用戶接口技術的發展將會在很大程度上取代其對圖形用戶界面的使用。諸如一些年輕人都通過麥克風輸入文本而不是通過鍵盤。語音消息應用Cord創始人以及***執行官托馬斯格諾(Thomas Gayno)指出,“他們只是不打字。”而對于更大一部分人來說,圖形用戶界面完全不適合其使用。那些視障者、老年人在圖形用戶界面前都受到了這種障礙的影響。因此,有些人稱現代計算機接口為“直覺”并不十分準確。
克里斯·莫里(Chris Maury)對此深有體會。2010年夏季,這位24歲的企業家在攻讀博士學位的過程中輟學轉而創業。但長時間的熬夜使得其視力逐步下降,一位醫生診斷其患上了斯特格氏癥,這種病癥會使視力逐步退化甚至完全失明。
作為一名技術人士,莫里不得不考慮如何應對無法看到電腦屏幕的狀況。但在整個美國,對于2000萬視障人士來說,除了屏幕閱讀器別無選擇。
要使用屏幕閱讀器,用戶需要通過鍵盤移動光標,選中需要閱讀的屏幕文字,將其轉換成一長串的URL,通過機器語言讀出來。這種相關的設備高達數千美元,并且需要幾十個小時的培訓。隨著數字環境越來越復雜,屏幕閱讀器的使用越來越不方便。莫里表示,“即便是打開一個谷歌搜索也需要很多步驟,這太可怕了。”
當莫里視力開始退化時,他經常訪問Blind Twitter去了解情況。莫里開始明白視障人士迫切需要一種技術。他意識到語音接口對于某些特定用戶更為便捷,而幾乎在同一時間,相關的語音技術也風行整個硅谷。
因此,莫里開始著手為視障人士開發相關技術。他創辦了一家名為Conversant Labs的公司研發語音接口技術。公司推出的***個產品是一個名為SayShopping的iPhone應用,其可以完全通過語音從Target.com上購買東西。但莫里有更大的想法,公司將于今年年底發布語音接口框架,為iOS的應用開發者提供會話接口。莫里還希望能夠開發一款完全基于語音技術的計算機應用環境,同時也可通過頭部運動來下達指令。莫里指出,“這些實現都是有可能的,只是需要創建。”
2014年秋季,亞馬遜發布來名為Echo的新產品,這款智能控制設備內置了名為Alexa的虛擬語音助理,其廣告語是“喚醒話語”。Echo采用了遠場語音識別技術,甚至在嘈雜房間也可準確識別話語。此外它還具有監聽功能,你可以在家中隨時和其對話。
當我開始使用Alexa時,它可以告訴我天氣,回答基本的問題,在智能手機上顯示購物清單或者是播放音樂,并沒有過多特別之處。但是隨著時間推移,Alexa更聰明也更完善,它熟悉我的聲音、會開玩笑、能同時運行多個計時器。測試版發布七個月后,2015年其公開版最終上線,Alexa的可用性越來越強。我了解了它,而它也在了解我。
這也是關于會話科技的深層次道理:你只有在與語音助理的深入交互中才會發現其功能。同行業的諸多公司都認識到這一點,都在努力使其語音助手達到個性化和適應性的平衡,使他們更加討人喜歡,易于接受。譬如微軟在開發語音助手Cortana時,其名稱取材自游戲《光暈(Halo)》中的重要角色。Cortana工程團隊主管Mike Calcagno表示,“Cortana代表了機智和堅韌”。的確,在產品早期即便其可靠性低,益處少,也會引起人們注意。
這種方式也有策略方面的考量。在微軟、Nuance等公司的研究中,當語音助理無處不在、當它了解你的習慣你的環境、了解你的喜好你的生活時,它就是不可或缺的存在。通過這種人工智能控制所有應用程序和設備的方式自然也就成為必然。
為此,無論是亞馬遜、谷歌、微軟,還是Nuance或者SoundHound,都在致力于會話平臺技術的研發。這些公司清楚,用戶會選擇最了解他們的語音助理。讓我們做好迎接虛擬語音助理的準備。更重要的是,一旦選擇了其中之一,你就不會再輕易放手。