專訪字節(jié)跳動王明軒：機(jī)器翻譯和人工翻譯實(shí)質(zhì)是兩個(gè)賽道 | T前線

作者：千山 2022-08-09 18:53:02

聊一聊機(jī)器翻譯的那些年，這些事

技術(shù)的進(jìn)步，往往意味著行業(yè)的進(jìn)化發(fā)現(xiàn)了新的方向。翻譯行業(yè)也不例外。隨著全球化進(jìn)程不斷加快，人們在進(jìn)行涉外活動時(shí)都離不開跨語言的交流。機(jī)器翻譯的出現(xiàn)極大地?cái)U(kuò)充了翻譯的應(yīng)用場景，固然它還遠(yuǎn)遠(yuǎn)稱不上完善，但卻在人類挑戰(zhàn)巴別塔的路上跨出了堅(jiān)實(shí)的一步。51CTO特邀字節(jié)跳動AI Lab機(jī)器翻譯負(fù)責(zé)人王明軒，聊一聊機(jī)器翻譯發(fā)展的這些年、那些事。

從基于規(guī)則，到基于統(tǒng)計(jì)模型，再到基于神經(jīng)網(wǎng)絡(luò)

機(jī)器翻譯的發(fā)展與計(jì)算機(jī)技術(shù)、信息論、語言學(xué)等學(xué)科的發(fā)展緊密相關(guān)。進(jìn)入21世紀(jì)以后，隨著硬件能力的提升和算法的優(yōu)化，機(jī)器翻譯技術(shù)迎來了空前的躍進(jìn)，并成功邁出象牙塔，走上了普惠之路。

51CTO：縱觀歷史，機(jī)器翻譯經(jīng)歷了哪些重要的發(fā)展節(jié)點(diǎn)？

王明軒：機(jī)器翻譯實(shí)質(zhì)是一個(gè)非常古老的問題，機(jī)器翻譯的歷史可以追溯到17世紀(jì)笛卡爾、萊布尼茨等哲學(xué)家提出的「通用語言」。1946年等計(jì)算機(jī)正式誕生后，人們期望計(jì)算機(jī)能將一種語言翻譯成另一種語言。美國科學(xué)家瓦倫·韋弗在《翻譯備忘錄》中正式定義了機(jī)器翻譯的概念和思想。這一時(shí)期，在冷戰(zhàn)背景下，美蘇兩國也基于搜集信息的需要，投入了大量資金用于機(jī)器翻譯相關(guān)研究。

一開始大家相對較樂觀，覺得這事很快就可以搞定了。第一版的翻譯系統(tǒng)非常簡單，主要是基于詞典，比如把“太陽”翻譯為“sun”，但這種詞對詞的翻譯很快遇到了瓶頸，因?yàn)橐辉~多義的現(xiàn)象比較多，比如“bank”，既可以是“銀行”，也可以是“河岸”，具體語境中會面臨很多選詞的困境。結(jié)合語言學(xué)家制定的語義規(guī)則可以解決一部分歧義，但發(fā)展到后期，規(guī)則越多，沖突的地方也會越多，系統(tǒng)會越來越復(fù)雜，依然無法解決問題。

1966年美國公布了報(bào)告《語言與機(jī)器》，全面否定了機(jī)器翻譯的可行性，并建議停止對機(jī)器翻譯項(xiàng)目的資金支持。受此影響，機(jī)器翻譯陷入低潮期。

直到90年代，IBM提出基于詞對齊的翻譯模型，標(biāo)志著現(xiàn)代統(tǒng)計(jì)機(jī)器翻譯方法的誕生。基于統(tǒng)計(jì)的機(jī)器翻譯原理很簡單，比如要在語境中判斷bank應(yīng)該翻譯成“銀行”還是“河岸”，那就進(jìn)行大量的相關(guān)語料統(tǒng)計(jì)，會發(fā)現(xiàn)上下文里有“錢”相關(guān)的，那就更有可能翻譯成“銀行”，上下文里提到“河流”，那更可能對應(yīng)的是“河岸”。如此一來，不用詞典與文法規(guī)則，而是按照概率來判斷具體場景下的語義。這是劃時(shí)代的變化，機(jī)器翻譯的質(zhì)量得到了巨大的提升。很快，機(jī)器翻譯開始在很多實(shí)用場景落地。

從1993到2014年基本都屬于統(tǒng)計(jì)的時(shí)代，但雖說是基于統(tǒng)計(jì)，還是需要人工去定義很多特征、模板，再進(jìn)一步設(shè)計(jì)細(xì)節(jié)，因而也不是非常靈活，模型的能量也不是很強(qiáng)大。

而后到了神經(jīng)網(wǎng)絡(luò)時(shí)代，神經(jīng)網(wǎng)絡(luò)翻譯從模型上說主要包含編碼器和解碼器。編碼器把源語言經(jīng)過一系列神經(jīng)網(wǎng)絡(luò)變換后表示成一個(gè)高維向量，解碼器負(fù)責(zé)把這個(gè)高維向量重新解碼成目標(biāo)語言。2014年Seq2Seq的提出，讓神經(jīng)網(wǎng)絡(luò)翻譯慢慢開始比統(tǒng)計(jì)機(jī)器翻譯做得更好。

到2017年時(shí)，谷歌提出Transformer，模型更大、結(jié)構(gòu)更靈活、并行化程度更高，這進(jìn)一步提升了翻譯質(zhì)量。同年，AlphaGo的勝利也讓大家對人工智能的信心更充分。也正是在2017年之后，機(jī)器翻譯的產(chǎn)業(yè)化迎來了爆發(fā)期，直到現(xiàn)在，整體大框架沒有發(fā)生太大變化，但小細(xì)節(jié)上出現(xiàn)了很多創(chuàng)新。

挑戰(zhàn)“巴別塔”

從詞典匹配，到結(jié)合語言學(xué)專家知識的規(guī)則翻譯，再到基于語料庫的統(tǒng)計(jì)機(jī)器翻譯，以及目前主流的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯，相比之前，機(jī)器翻譯的質(zhì)量有了飛躍式的提升，但依舊面臨著重重挑戰(zhàn)。

51CTO：目前機(jī)器翻譯面臨的主要挑戰(zhàn)在哪里？

王明軒：挑戰(zhàn)其實(shí)還比較多。

第一，如何做稀缺語種的機(jī)器翻譯。這是機(jī)器翻譯從誕生以來一直就面臨的問題。語種越小，數(shù)據(jù)量越少，語料的稀缺會是長期的挑戰(zhàn)。

第二，如何做多模態(tài)的機(jī)器翻譯。近年來，我們經(jīng)常需要做語音翻譯、視頻翻譯，事實(shí)上這類翻譯需要AI做一些前處理之后再做翻譯。如果AI處理錯(cuò)了，翻譯就可能出現(xiàn)錯(cuò)誤。再比如，在同聲傳譯的場景，通常是邊說邊翻，拿不到完整的上下文信息。這在多模態(tài)翻譯中都是常見問題。

第三，最為本質(zhì)的問題在于，目前的機(jī)器翻譯還是基于數(shù)據(jù)驅(qū)動，并沒有在理解層面做得更為深入。模型的學(xué)習(xí)依舊是依靠語言的貢獻(xiàn)，而非真正地理解語義。這一點(diǎn)極大地局限了機(jī)器翻譯的上限。

51CTO：火山翻譯作為字節(jié)跳動旗下機(jī)器翻譯品牌，如何應(yīng)對語料稀疏問題？

王明軒：有兩個(gè)比較直接的方法。

第一種是擴(kuò)充語料，努力讓稀缺語料“不再稀缺”。這種思路是，通過一些模型，盡可能從互聯(lián)網(wǎng)上獲取語料。比如冰島語，我們能收集大量冰島語的單語語料，在互聯(lián)網(wǎng)上就可以去收集與單語語料相近的英文文本，我們?nèi)フ疫@種可能對齊的語料，形成雙語去對。當(dāng)然我們有時(shí)也用人工標(biāo)注，但更多的是靠智能的方法自行增加。

第二種是利用語言的共性。大家生活在同一個(gè)星球，雖然使用的語言不同，但其實(shí)在描述同一個(gè)世界，因此語言在高層次上是有很多共性的。我們會借助一些遷移學(xué)習(xí)或者預(yù)訓(xùn)練的方法來解決這類問題，比如讓英語的模型去幫助法語的模型，或者讓德語的模型幫助法語的模型。主要就是這兩個(gè)思路。

51CTO：在多模態(tài)的機(jī)器翻譯中，要減少噪聲干擾的話，火山翻譯采取了哪些應(yīng)對策略？

王明軒：應(yīng)對噪聲干擾的話，首先，進(jìn)行了多種模態(tài)的聯(lián)合建模。我們會拿語音信號和文本信號一起去做下游的任務(wù)，這樣一來，錯(cuò)誤傳遞會減少很多。當(dāng)前，構(gòu)建多模態(tài)的統(tǒng)一語義在學(xué)術(shù)界也是非常火熱的話題，所以我們也會吸收其他領(lǐng)域的很多東西。

其次，我們在文本這塊也會做很多魯棒性訓(xùn)練，盡量讓模型在有錯(cuò)誤輸入的情況下，還能保證正確的輸出，或者不擴(kuò)大這種錯(cuò)誤，相當(dāng)于把自動糾錯(cuò)和機(jī)器翻譯做到了一個(gè)模型里面。因?yàn)槿似鋵?shí)是有這種自動糾錯(cuò)能力的，比如人工譯員在聽到錯(cuò)誤的信息時(shí)，會進(jìn)行自動糾正，所以我們在模型里面也會考慮這些信息。

51CTO：同聲傳譯對延時(shí)的要求很高。但是如果沒有結(jié)合上下文的語境或者聽完完整的語義，準(zhǔn)確率又很難保證。機(jī)器翻譯如何平衡這兩者之間的矛盾？

王明軒：這一點(diǎn)在工業(yè)界很有挑戰(zhàn)性，因?yàn)椴粌H關(guān)乎延時(shí)和準(zhǔn)確率的trade off，實(shí)際上需要優(yōu)化的地方更多。

比如在某些會議場景中，翻譯字幕需要展示在大屏幕上，觀眾接受字幕的速度也是關(guān)鍵問題之一，包括每次字幕展示的長度、字幕彈出的頻率，都關(guān)系到如何讀起來更舒服。其中有很多細(xì)節(jié)需要我們反復(fù)和產(chǎn)品經(jīng)理溝通，深入用戶調(diào)研來看整體滿意度。因此，這不僅僅是準(zhǔn)確率的問題，要把用戶的實(shí)際使用體驗(yàn)都作為要素考慮進(jìn)去，再來調(diào)整模型。

此外，延時(shí)可能是用戶滿意度的指標(biāo)之一，但延時(shí)也并非越短越好。通常有個(gè)合適的gap反而更好。因?yàn)檠訒r(shí)很短的話，字幕彈出的速度也會很快，用戶的接受效果反而不太好。在這方面，我們也會借鑒業(yè)界的很多成熟做法，比如動態(tài)控制字幕翻譯的間隔。總體而言，這是一個(gè)非常工程化、產(chǎn)品化的問題。

未來趨向

機(jī)器翻譯仍然不是完美的，但從業(yè)者們正在努力讓其變得質(zhì)量更高，可用性更強(qiáng)，適用性更廣。讓我們來觀察一下它的發(fā)展趨勢，尤其是當(dāng)機(jī)器翻譯與專業(yè)譯員發(fā)生“碰撞”時(shí)，翻譯服務(wù)場景又會產(chǎn)生哪些化學(xué)反應(yīng)。

51CTO：隨著技術(shù)的發(fā)展，機(jī)器翻譯是否會衍生出更多有趣的應(yīng)用場景？

王明軒：之前我們推出的火山翻譯AR眼鏡就是類似的嘗試。今年谷歌I/O大會上壓軸發(fā)布的AR翻譯眼鏡也是很有意思的應(yīng)用，使用者佩戴后可以實(shí)時(shí)看到對話者的譯文，類比字幕效果。

這其實(shí)都反映出了一種比較樸素的理想：我們希望大家能生活在一個(gè)溝通無障礙的世界。比如：出國旅游時(shí)，戴上眼鏡就可以理解任何語言的文字提示，你看到的路牌是德語的，而顯示在眼鏡上的是中文。日常交流時(shí)，別人跟你說話，對話信息自動變成你所理解的文字，顯示在眼鏡下方。這都是能更有效地獲取信息的場景。

51CTO：長遠(yuǎn)來看，機(jī)器翻譯將如何發(fā)展？

王明軒：應(yīng)用方面，我覺得機(jī)器翻譯可能會和多模態(tài)應(yīng)用結(jié)合得更為緊密，比如視頻內(nèi)容、音頻內(nèi)容的翻譯需求會越來越多。另外，機(jī)器翻譯可能會更多地與業(yè)務(wù)出海、文化出海聯(lián)系在一起。因?yàn)閲鴥?nèi)很多公司都在積極地進(jìn)行海外業(yè)務(wù)的擴(kuò)張，我認(rèn)為這個(gè)領(lǐng)域會對機(jī)器翻譯的發(fā)展起到很大幫助。

技術(shù)方面，我能看到的已經(jīng)在發(fā)生的趨勢是：一是大數(shù)據(jù)和大模型的訓(xùn)練。從事這一領(lǐng)域的人越來越多，模型越來越大，數(shù)據(jù)量也越來越大，很多人認(rèn)為這種變化有可能會給機(jī)器翻譯的能力帶來質(zhì)變。二是翻譯和模態(tài)的結(jié)合。不止在翻譯方面，業(yè)界很多人都在試圖構(gòu)建不同模態(tài)的統(tǒng)一語義表示，之前幾年，不同模態(tài)之間界限還比較分明，大家交流相對也少。如今，模型越來越一致。未來可能出現(xiàn)一個(gè)模型，既能做文本翻譯，也能做語音翻譯，甚至能做視頻翻譯。

51CTO：未來，機(jī)器翻譯是否有可能在特定場景中完全取代人工翻譯？

王明軒：按目前這種做法肯定是取代不了人工的。不過我覺得機(jī)器翻譯和人工翻譯可能不屬于一個(gè)賽道。

機(jī)器翻譯的特點(diǎn)，一是速度非常快，二是可以規(guī)模化，所以它適合處理的是海量且需要及時(shí)處理的信息。舉個(gè)例子，如果現(xiàn)在有一千萬個(gè)視頻要從英語翻譯成法語，那么純靠人工是不太能做到的，但是機(jī)器可以做。這一點(diǎn)就可以讓機(jī)器在它的賽道里發(fā)揮很重要的作用，長期看來是大有裨益的，因?yàn)樗_闊了整個(gè)市場，讓跨語言的市場變得更大。

但是對于很精細(xì)的翻譯場景，機(jī)器翻譯可能就力有不逮。就像有人提到的，機(jī)器翻譯能翻得了《紅樓夢》嗎？我認(rèn)為，這就不屬于機(jī)器翻譯的任務(wù)范疇。小說或詩歌之類的翻譯，這一類型的翻譯必須要依仗專家。還有規(guī)格很高的會議同傳，也肯定需要專業(yè)譯員擔(dān)任，而不可能是機(jī)器。但在一些重要性不是很高的會議上，機(jī)器翻譯的成本優(yōu)勢就會展現(xiàn)出來。

機(jī)器翻譯跟專業(yè)譯員，兩者隸屬賽道不同，區(qū)分還是很鮮明的。不過某種程度上，兩者也存在互幫互助的關(guān)系。這體現(xiàn)在：一方面，機(jī)器翻譯需要的語料就是專業(yè)譯員生產(chǎn)的。專業(yè)譯員在工作過程中不斷地生產(chǎn)大量的語料，這些語料能夠持續(xù)幫助機(jī)器翻譯去提升能力。另一方面，機(jī)器翻譯也可以幫人減輕負(fù)擔(dān)，處理要求沒有那么高的任務(wù)。現(xiàn)在也有很多譯員在做譯后編輯，很多翻譯公司讓機(jī)器先做翻譯，譯員再做編輯，效率也能因此大幅提升。

嘉賓介紹

王明軒，字節(jié)跳動AI-Lab機(jī)器翻譯團(tuán)隊(duì)負(fù)責(zé)人，研究方向主要為機(jī)器翻譯和自然語言處理。在機(jī)器翻譯領(lǐng)域，發(fā)表包括 ACL、EMNLP 等頂級會議論文超過40 篇，多次拿到 WMT等國際翻譯評測比賽第一。同時(shí)還擔(dān)任EMNLP2022贊助主席，和NeurIPS 2022、NLPCC 2022、AACL2022 等會議領(lǐng)域主席。

欄目介紹

“T前線”是51CTO內(nèi)容中心專為技術(shù)人物開設(shè)的深度訪談欄目之一，通過邀請技術(shù)界內(nèi)的業(yè)務(wù)負(fù)責(zé)人、資深架構(gòu)師、資深技術(shù)專家等對當(dāng)下的技術(shù)熱點(diǎn)、技術(shù)實(shí)踐和技術(shù)趨勢進(jìn)行深度的解讀和洞察，推動前沿科技的傳播與發(fā)展。

責(zé)任編輯：張潔來源： 51CTO技術(shù)棧