人工智能翻譯可以讓你無障礙地和外國人談戀愛
在人工智能語音翻譯領域,噪音是必須要面對的主要挑戰之一。設備或許能夠識別出實驗室或會議室里的語音,但在日本京都站與我(本文作者馬利克·科恩(Marek Kohn))交談的懷貝爾教授(Professor Waibel)周圍,我仍能聽到那種背景噪音。我正努力用英語跟上他的思路,但潦草的線條提醒我,我們相距近1萬公里,即使我們說的是同一種語言,這段距離仍然成為交流的重大障礙。
畢竟,我們還沒有實現科幻小說中描述的那種無縫交流。在這些描述中,懷貝爾教授可以用其母語德語作出解釋,而我聽到的卻是英語。或許,他也可以不用手就能與周圍的日本人進行無縫交談,即使所有人都在用母語,也不影響他們之間的對話。
懷貝爾是德國卡爾斯魯厄理工學院的計算機科學教授,他和同事們已經可以用德語授課,學生們則可以通過電子翻譯器用英語聽課。該系統生成學生可以在筆記本電腦或手機上閱讀的文本,因此這個過程有點類似于字幕。不過,這有助于講師將課程講得更清楚,不需要擔心背景差異。
人工智能語音翻譯的想法由來已久。
懷貝爾同時也是美國卡內基梅隆大學的計算機科學教授,他甚至可以被稱之為人工語音翻譯的創造者。1978年,他在麻省理工學院(MIT)提出了這個想法。道格拉斯·亞當斯(Douglas Adams)差不多也是在同一時期想到了這個主意。
《銀河系漫游指南》(The Hitchhiker’s Guide to the Galaxy)中有一種名為“巴別塔魚”(Babel)的生命形式,當把它放在耳朵里時,聽者能夠聽懂宇宙中的任何生命種族的語言。這代表了一種技術愛好者渴望已久的設備,比如便攜式語音通信設備和可以掛在墻上的平板電視,這是一種早就應該存在的東西,且總有一天會成為現實。
1991年,懷貝爾構建了頭一個語音翻譯系統,該系統擁有500個單詞的詞匯量,可以在大型工作站上運行,需要幾分鐘來處理所聽到的內容。他承認:“當時還沒有為迎接語音翻譯的黃金時代做好準備。”如今,隨著人工翻譯和語音識別技術的不斷進步,類似于巴別塔魚的原型設備已經開始出現。
谷歌使用Google Translate,在Pixel耳機中加入了翻譯功能,它還可以通過智能手機應用進行語音翻譯。Skype有Translator功能,可以處理10種語言。有些規模較小的公司,如總部位于紐約布魯克林的初創公司韋弗利實驗室(Waverly Labs),已經開發出了耳機翻譯器??萍济襟w上的評論可以被合理地總結為“實際上還不錯”。
目前可用的系統已經證明了這一概念,但在現階段,它們似乎被視為引人注目的新奇事物,而不是朝著懷貝爾所稱的“建立語言透明社會”的方向邁進。推動人工語音翻譯的一個主要發展趨勢是,鼓勵人們使用該技術進行交流。Google Translate的產品總監巴拉克·圖羅夫斯基(Barak Turovsky)表示:“我們通常在語音設備的范例中處于非常早期的階段,但它發展得非常迅速,翻譯將是這段旅程的關鍵部分之一。”
上個月,谷歌為其家庭設備引入了解釋器模式,只要說:“嘿,谷歌,做我的法語翻譯器”,就能激活語音,并在智能顯示屏上進行文本翻譯。谷歌建議將酒店登記作為可能的用例。這可能是個明顯的例子,它可以充當“旅行者英語”,無論是以英語作為母語還是其他語言的人都可使用。
如果你的手機上有翻譯軟件,你已經可以這么做了,盡管它的屏幕和揚聲器都很小。這種簡單的公共互動在很大程度上利用了這款應用的對話功能。但是另一個流行的用例是圖羅夫斯基所謂的“浪漫”。數據日志揭示了“我愛你”和“你有一雙美麗的眼睛”等語句的受歡迎程度。其中很多可能并不代表什么新東西。畢竟,幾十年來,搭訕語始終是標準常用語手冊中的內容。
韋弗利實驗室利用聊天功能為其在Indiegogo上的融資活動做宣傳。該公司創始人兼CEO安德魯·奧喬亞(Andrew Ochoa)在一段視頻中講述了自己的靈感來源:當時他在度假時遇到了一名法國女性,但無法與她很好地溝通,于是他產生了做翻譯的想法。嘗試使用翻譯應用讓人產生“可怕的體驗”。手機會礙手礙腳,但耳機不會擋住臉。這段視頻展示了可能的情況:他向法國女人展示耳機,然后他們一起去喝咖啡、觀光。演示非常成功的,奧喬亞籌集到440萬美元資金,是其最初目標的30倍。

韋弗利實驗室的Pilot耳機(紅色和白色)與谷歌的Pixel耳機(黑色)
一位顧客說,韋弗利實驗室的Pilot耳機使他能夠頭一次和女朋友的母親通話。有些人甚至說,這使他們能夠與配偶交談。奧喬亞指出說:“每隔一段時間,我們就會收到有些人發來的電子郵件,說他們正在用這種設備和講西班牙語的妻子交談。我真搞不懂他們當初是怎么走到一起的!”我們可能會猜測,他們是通過互聯網和婚介機構相識相戀的。奧喬亞承認,“在你通過耳機找到真愛之前,這項技術還需要進一步改進,但距離目標已經不再遙遠。”
許多早期的采用者將Pilot耳機用于完全不夠浪漫的用途,并將其用于組織機構中。韋弗利實驗室現在正在為專業用例開發新的模型,該模型需要在語音識別、翻譯準確性和提供譯文時間方面提高性能。奧喬亞稱:“職場人士在談話中往往不太有耐心。”
新版本還將對衛生設計進行改進,以克服Pilot耳機最缺乏吸引力的地方。談話時,雙方都需要佩戴Pilot耳機。奧喬亞說:“我們發現,在與陌生人共用耳機時存在障礙。”這可能并不出人意料之外。如果耳機翻譯變得足夠普及,陌生人的耳朵里可能已經有了自己的耳機,那么這個問題就會得到解決。這種情況是否會發生,以及多快發生,可能并不完全取決于耳機本身,而是取決于語音控制設備和人工翻譯的普及程度。
在這方面,主要推動力似乎是進入亞洲新興市場。谷歌估計,互聯網上50%的內容是英語,但世界上只有20%的人說英語。圖羅夫斯基說:“如果你看看互聯網使用率增長迅猛的地區,比如亞洲國家,那里的大多數人根本不懂英語。因此,打破語言障礙對每個人來說都是一個重要的目標,顯然對谷歌來說也是如此。這就是為什么谷歌在翻譯系統上投入這么多資源的原因。”
懷貝爾也強調了亞洲的重要性,指出語音翻譯在日本和中國已經真正起步。不過,還有很長的路要走。翻譯需要同步進行,就像電視上的同聲傳譯翻譯需要與外國政客講話時的步調一致,而不是讓發言者每說幾句話就要停頓一下,等著翻譯表現。在無法上網的情況下,它需要能脫機工作,并解決人們對云端積累的私有語音數據量的擔憂,這些數據已被發送到服務器進行處理。
懷貝爾建議,系統不僅需要應對諸如噪音等物理方面的挑戰,還需要具有社會意識,比如了解人們的舉止,并恰當地與人交談。當我頭一次給懷貝爾發電子郵件時,我意識到他是一位德國教授,而且歐洲大陸的傳統要求對學術地位給予嚴肅的尊重,我犯了個偏頗的錯誤,稱他為“親愛的懷貝爾教授”。
正如我所料,他用國際標準英語回答:“你好,馬利克。”對禮儀敏感的人工翻譯可以讓人們不再需要了解不同的文化規范,它們將促進交流,同時減少誤解。與此同時,它們可能有助于保護當地的風俗習慣,減緩與國際英語相關的習慣的傳播。
不過,教授和其他人不會將語言意識外包給軟件。如果這項技術成熟到無縫、無所不在的程度——簡而言之,就像巴別塔魚,那它實際上會增加語言技能的價值。自動翻譯將提供一種商品,即基本的、實用的信息,幫助人們購買東西或找到目的地。它是否會幫助人們管理家庭生活或戀愛關系,這是個有待探討的問題。但這是值得注意的一種可能,它可能會克服移民后幾代人之間經常出現的語言障礙,那使得孩子和祖父母沒有共同的語言。
然而,無論如何使用人工智能語音翻譯技術,它永遠不會像真正的巴別塔魚那么好。即使語音變形技術能模擬說話人的聲音,但它們的嘴唇動作不會匹配,而且看起來就像在配音電影里。這種對比將強調共享語言的價值,以及學習它們的價值。
努力學習別人的語言是一種承諾,是被視為值得信賴的象征。分享一門語言還可以促進歸屬感和社區意識,就像與那些把英語作為通用語的國際科學家一樣,而他們的前輩曾使用拉丁語。學習顧客語言的移民店主不僅使銷售更容易,他們還顯示出希望與客戶所在社區拉近距離的意愿,并禮貌地宣稱自己已經融入其中。
當機器翻譯成為一種無處不在的商品時,人類的語言技能將會受到重視。掌握多門語言的人總是比那些依賴于設備的人更有優勢,就像那些有數字頭腦的人比那些需要使用計算器的人有優勢一樣。雖然對一種通用語言的實際需求將會減少,但分享這種語言的社會價值將會持續存在。軟件永遠不會取代語言知識所帶來的那種微妙而重要的理解體驗。畢竟,要從紛擾中找出細微差別,總是需要這些知識。