“AI”向你發起了視頻通話,接還是不接?
在一年一度的超級碗決賽之前,Amazon又發布了“Alexa新形態”的重磅廣告。在廣告中,一位女演員把自己對邁克爾·喬丹的崇拜傾注在Alexa語音助手身上,徹底惹毛了自己的丈夫。毫無疑問,大多數觀眾都不會把Amazon設計的這段新廣告太當真;但事實上,能像人一樣與我們流暢交通的AI也并沒那么遙遠。
如今,AI化身——即使用數字形體及/或面部渲染出的AI形象——還遠遠不像喬丹那么有人格魅力,甚至看起來還有點恐怖。研究表明,人類確實很喜歡開發這種具有類人功能的機器人,但一旦機器的“類人性”超過某個閾值,反而會讓人感到可怕——這就是著名的“恐怖谷”理論。創造這個詞的機器人專家Masahiro Mori預計,終有一天會出現能夠以假亂真的機器人,讓我們徹底失去分辨能力。至少在對話層面,這樣的AI已經有望實現,徹底打破舊有圖靈測試的束縛。
在最近與傳奇營銷天才Guy Kawasaki的遠程視頻中,我大膽做出預測:未來兩年以內,Guy就將無法區分我本人和我們打造的對話型AI方案Kuki。Guy明顯不以為然,但我也沒有動搖,打算一步步做出論證。
結合這次對話,我打算向大家公開匯報,說說自己為什么對這樣的預測有信心。在本質上,要想在視頻通話中實現與人類相信的表現,AI必須獲得五大關鍵實時技術:
- 類人化身
- 類人語音
- 類人情感
- 類人行為
- 類人對話
隨著動作捕捉技術(MoCap)與生成對抗神經網絡(GAN,也是Deep Fake所依賴的底層機器學習技術)的廣泛普及與成本下降,化身方案近年來取得了長足發展。早期動作捕捉要求演員穿上特殊的服裝,但整個拍攝與調整過程成本高昂,只有《阿凡達》這類鴻篇巨制才負擔得起。但如今,單靠iPhone X與免費游戲引擎軟件就足以讓動作捕捉“走進尋常百姓家”。眾多在線Web服務讓創建低分辨率Deep Fake圖像與視頻變得輕而易舉,快速推動這項技術的大眾化步伐。但如果不加限制,這項技術也有可能給人類社會造成巨大沖擊。事實上,這種進步還催生出新的產業,很多主播開始將自己的面部與表情實時轉化為動物形象,甚至出現了“Lil’Miquela”等AI意見領袖。就在上周,Epic Games(〈堡壘之夜〉與虛幻引擎的開發商)公布了MetaHuman創作器,很快每個人都能夠免費創造出無限接近于真人的“假臉”。
生成類人語音的技術同樣在迅速發展。Amazon、微軟與谷歌都提供可靈活消費的云文本到語音轉換(TTS)API,以神經網絡為基礎生成越來越逼真的語音效果。此外,我們還能輕松獲取多種自定義語音風格工具,這些工具由人類演員根據一定數量的示例語句建模而成。與現在的高精度語音識別類似,語音合成也將隨著算力與訓練數據的增強而不斷改善。
單有令人信服的AI語音與人臉,還不足以產生價值——必須有生動的表情與之匹配。事實證明,只需要配合前置攝像頭,計算機視覺技術就足以分析并生成豐富的面部表情。目前已經有多種API可供您分析文本內容并理解相應的情感。NTT Data等實驗室甚至展示了能夠實時模仿人類手勢與表情的方案;Magic Leap的MICA則能夠提供令人印象深刻的非語言化身表情。當然,現有AI還很難摸索出真正自主的精神與情感狀態,這方面仍有很長的研究道路要走。
為了避免“恐怖谷”問題,AI必須能夠展示出與面部乃至肢體動作相一致的“態度”,并根據對話進程動態觸發。南加州大學ICT實驗室的Shaprio項目以及眾多語音圖像初創企業的探索,已經在為游戲角色提供同步口型與面部表情等方面取得了開創性成果。這類系統能夠通過化身轉換文字表達、分析情感,并通過既定規則調用庫內的適當動畫,同時結合真實人類活動的視頻持續進行機器學習訓練。隨著研發推進與機器學習發展,這類程序動畫有望在兩年之后全面實現無縫運作。
類人對話中最生澀、也是最困難的部分,在于大多數聊天機器人仍然掙扎在進行基本對話的及格線上。到目前為止,相較于語音合成及計算機視覺等大獲成功的領域,深度學習+更多數據+更強算力的模式還沒能在自然語言理解方面取得有意義的突破。
類人AI這個思路極具吸引力,目前已經吸引到3.2億風險投資;但至少在未來幾年當中,除非其中的核心要素得以“解決”,否則一切恐怕仍只是個幻想。隨著化身技術真正邁出前進的步伐,人們的期望也會越來越高;而當虛擬助手的仿真面孔無法匹配靈活的大腦與情商表達時,失望之情也會與日俱增。因此,現在預測聊天機器人什么時候能夠達到真人水平還為時過早。再說點喪氣話:如今的機器智能甚至連基于純文本的圖靈測試都還無法通過。
也許更重要的問題應該是:我們有必要弄出這種類人形式的AI嗎?這類成果在媒體交互角色、AI醫療助手、培訓乃至教育領域帶來的收益,真的比潛在風險更大嗎?類人AI必然要無限趨近于人,還是應該像很多業內人士們的觀點,盡量避開類人這個坑以消除“恐怖谷”效應?