技術(shù)的進(jìn)步,往往意味著行業(yè)的進(jìn)化發(fā)現(xiàn)了新的方向。翻譯行業(yè)也不例外。隨著全球化進(jìn)程不斷加快,人們在進(jìn)行涉外活動時(shí)都離不開跨語言的交流。機(jī)器翻譯的出現(xiàn)極大地?cái)U(kuò)充了翻譯的應(yīng)用場景,固然它還遠(yuǎn)遠(yuǎn)稱不上完善,但卻在人類挑戰(zhàn)巴別塔的路上跨出了堅(jiān)實(shí)的一步。51CTO特邀字節(jié)跳動AI Lab機(jī)器翻譯負(fù)責(zé)人王明軒,聊一聊機(jī)器翻譯發(fā)展的這些年、那些事。
從基于規(guī)則,到基于統(tǒng)計(jì)模型,再到基于神經(jīng)網(wǎng)絡(luò)
機(jī)器翻譯的發(fā)展與計(jì)算機(jī)技術(shù)、信息論、語言學(xué)等學(xué)科的發(fā)展緊密相關(guān)。進(jìn)入21世紀(jì)以后,隨著硬件能力的提升和算法的優(yōu)化,機(jī)器翻譯技術(shù)迎來了空前的躍進(jìn),并成功邁出象牙塔,走上了普惠之路。
51CTO:縱觀歷史,機(jī)器翻譯經(jīng)歷了哪些重要的發(fā)展節(jié)點(diǎn)?
王明軒:機(jī)器翻譯實(shí)質(zhì)是一個(gè)非常古老的問題,機(jī)器翻譯的歷史可以追溯到17世紀(jì)笛卡爾、萊布尼茨等哲學(xué)家提出的「通用語言」。1946年等計(jì)算機(jī)正式誕生后,人們期望計(jì)算機(jī)能將一種語言翻譯成另一種語言。美國科學(xué)家瓦倫·韋弗在《翻譯備忘錄》中正式定義了機(jī)器翻譯的概念和思想。這一時(shí)期,在冷戰(zhàn)背景下,美蘇兩國也基于搜集信息的需要,投入了大量資金用于機(jī)器翻譯相關(guān)研究。
一開始大家相對較樂觀,覺得這事很快就可以搞定了。第一版的翻譯系統(tǒng)非常簡單,主要是基于詞典,比如把“太陽”翻譯為“sun”,但這種詞對詞的翻譯很快遇到了瓶頸,因?yàn)橐辉~多義的現(xiàn)象比較多,比如“bank”,既可以是“銀行”,也可以是“河岸”,具體語境中會面臨很多選詞的困境。結(jié)合語言學(xué)家制定的語義規(guī)則可以解決一部分歧義,但發(fā)展到后期,規(guī)則越多,沖突的地方也會越多,系統(tǒng)會越來越復(fù)雜,依然無法解決問題。
1966年美國公布了報(bào)告《語言與機(jī)器》,全面否定了機(jī)器翻譯的可行性,并建議停止對機(jī)器翻譯項(xiàng)目的資金支持。受此影響,機(jī)器翻譯陷入低潮期。
直到90年代,IBM提出基于詞對齊的翻譯模型,標(biāo)志著現(xiàn)代統(tǒng)計(jì)機(jī)器翻譯方法的誕生。基于統(tǒng)計(jì)的機(jī)器翻譯原理很簡單,比如要在語境中判斷bank應(yīng)該翻譯成“銀行”還是“河岸”,那就進(jìn)行大量的相關(guān)語料統(tǒng)計(jì),會發(fā)現(xiàn)上下文里有“錢”相關(guān)的,那就更有可能翻譯成“銀行”,上下文里提到“河流”,那更可能對應(yīng)的是“河岸”。如此一來,不用詞典與文法規(guī)則,而是按照概率來判斷具體場景下的語義。這是劃時(shí)代的變化,機(jī)器翻譯的質(zhì)量得到了巨大的提升。很快,機(jī)器翻譯開始在很多實(shí)用場景落地。
從1993到2014年基本都屬于統(tǒng)計(jì)的時(shí)代,但雖說是基于統(tǒng)計(jì),還是需要人工去定義很多特征、模板,再進(jìn)一步設(shè)計(jì)細(xì)節(jié),因而也不是非常靈活,模型的能量也不是很強(qiáng)大。
而后到了神經(jīng)網(wǎng)絡(luò)時(shí)代,神經(jīng)網(wǎng)絡(luò)翻譯從模型上說主要包含編碼器和解碼器。編碼器把源語言經(jīng)過一系列神經(jīng)網(wǎng)絡(luò)變換后表示成一個(gè)高維向量,解碼器負(fù)責(zé)把這個(gè)高維向量重新解碼成目標(biāo)語言。2014年Seq2Seq的提出,讓神經(jīng)網(wǎng)絡(luò)翻譯慢慢開始比統(tǒng)計(jì)機(jī)器翻譯做得更好。
到2017年時(shí),谷歌提出Transformer,模型更大、結(jié)構(gòu)更靈活、并行化程度更高,這進(jìn)一步提升了翻譯質(zhì)量。同年,AlphaGo的勝利也讓大家對人工智能的信心更充分。也正是在2017年之后,機(jī)器翻譯的產(chǎn)業(yè)化迎來了爆發(fā)期,直到現(xiàn)在,整體大框架沒有發(fā)生太大變化,但小細(xì)節(jié)上出現(xiàn)了很多創(chuàng)新。
挑戰(zhàn)“巴別塔”
從詞典匹配,到結(jié)合語言學(xué)專家知識的規(guī)則翻譯,再到基于語料庫的統(tǒng)計(jì)機(jī)器翻譯,以及目前主流的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯,相比之前,機(jī)器翻譯的質(zhì)量有了飛躍式的提升,但依舊面臨著重重挑戰(zhàn)。
51CTO:目前機(jī)器翻譯面臨的主要挑戰(zhàn)在哪里?
王明軒:挑戰(zhàn)其實(shí)還比較多。
第一,如何做稀缺語種的機(jī)器翻譯。這是機(jī)器翻譯從誕生以來一直就面臨的問題。語種越小,數(shù)據(jù)量越少,語料的稀缺會是長期的挑戰(zhàn)。
第二,如何做多模態(tài)的機(jī)器翻譯。近年來,我們經(jīng)常需要做語音翻譯、視頻翻譯,事實(shí)上這類翻譯需要AI做一些前處理之后再做翻譯。如果AI處理錯(cuò)了,翻譯就可能出現(xiàn)錯(cuò)誤。再比如,在同聲傳譯的場景,通常是邊說邊翻,拿不到完整的上下文信息。這在多模態(tài)翻譯中都是常見問題。
第三,最為本質(zhì)的問題在于,目前的機(jī)器翻譯還是基于數(shù)據(jù)驅(qū)動,并沒有在理解層面做得更為深入。模型的學(xué)習(xí)依舊是依靠語言的貢獻(xiàn),而非真正地理解語義。這一點(diǎn)極大地局限了機(jī)器翻譯的上限。
51CTO:火山翻譯作為字節(jié)跳動旗下機(jī)器翻譯品牌,如何應(yīng)對語料稀疏問題?
王明軒:有兩個(gè)比較直接的方法。
第一種是擴(kuò)充語料,努力讓稀缺語料“不再稀缺”。這種思路是,通過一些模型,盡可能從互聯(lián)網(wǎng)上獲取語料。比如冰島語,我們能收集大量冰島語的單語語料,在互聯(lián)網(wǎng)上就可以去收集與單語語料相近的英文文本,我們?nèi)フ疫@種可能對齊的語料,形成雙語去對。當(dāng)然我們有時(shí)也用人工標(biāo)注,但更多的是靠智能的方法自行增加。
第二種是利用語言的共性。大家生活在同一個(gè)星球,雖然使用的語言不同,但其實(shí)在描述同一個(gè)世界,因此語言在高層次上是有很多共性的。我們會借助一些遷移學(xué)習(xí)或者預(yù)訓(xùn)練的方法來解決這類問題,比如讓英語的模型去幫助法語的模型,或者讓德語的模型幫助法語的模型。主要就是這兩個(gè)思路。
51CTO:在多模態(tài)的機(jī)器翻譯中,要減少噪聲干擾的話,火山翻譯采取了哪些應(yīng)對策略?
王明軒:應(yīng)對噪聲干擾的話,首先,進(jìn)行了多種模態(tài)的聯(lián)合建模。我們會拿語音信號和文本信號一起去做下游的任務(wù),這樣一來,錯(cuò)誤傳遞會減少很多。當(dāng)前,構(gòu)建多模態(tài)的統(tǒng)一語義在學(xué)術(shù)界也是非常火熱的話題,所以我們也會吸收其他領(lǐng)域的很多東西。
其次,我們在文本這塊也會做很多魯棒性訓(xùn)練,盡量讓模型在有錯(cuò)誤輸入的情況下,還能保證正確的輸出,或者不擴(kuò)大這種錯(cuò)誤,相當(dāng)于把自動糾錯(cuò)和機(jī)器翻譯做到了一個(gè)模型里面。因?yàn)槿似鋵?shí)是有這種自動糾錯(cuò)能力的,比如人工譯員在聽到錯(cuò)誤的信息時(shí),會進(jìn)行自動糾正,所以我們在模型里面也會考慮這些信息。
51CTO:同聲傳譯對延時(shí)的要求很高。但是如果沒有結(jié)合上下文的語境或者聽完完整的語義,準(zhǔn)確率又很難保證。機(jī)器翻譯如何平衡這兩者之間的矛盾?
王明軒:這一點(diǎn)在工業(yè)界很有挑戰(zhàn)性,因?yàn)椴粌H關(guān)乎延時(shí)和準(zhǔn)確率的trade off,實(shí)際上需要優(yōu)化的地方更多。
比如在某些會議場景中,翻譯字幕需要展示在大屏幕上,觀眾接受字幕的速度也是關(guān)鍵問題之一,包括每次字幕展示的長度、字幕彈出的頻率,都關(guān)系到如何讀起來更舒服。其中有很多細(xì)節(jié)需要我們反復(fù)和產(chǎn)品經(jīng)理溝通,深入用戶調(diào)研來看整體滿意度。因此,這不僅僅是準(zhǔn)確率的問題,要把用戶的實(shí)際使用體驗(yàn)都作為要素考慮進(jìn)去,再來調(diào)整模型。
此外,延時(shí)可能是用戶滿意度的指標(biāo)之一,但延時(shí)也并非越短越好。通常有個(gè)合適的gap反而更好。因?yàn)檠訒r(shí)很短的話,字幕彈出的速度也會很快,用戶的接受效果反而不太好。在這方面,我們也會借鑒業(yè)界的很多成熟做法,比如動態(tài)控制字幕翻譯的間隔。總體而言,這是一個(gè)非常工程化、產(chǎn)品化的問題。
未來趨向
機(jī)器翻譯仍然不是完美的,但從業(yè)者們正在努力讓其變得質(zhì)量更高,可用性更強(qiáng),適用性更廣。讓我們來觀察一下它的發(fā)展趨勢,尤其是當(dāng)機(jī)器翻譯與專業(yè)譯員發(fā)生“碰撞”時(shí),翻譯服務(wù)場景又會產(chǎn)生哪些化學(xué)反應(yīng)。
51CTO:隨著技術(shù)的發(fā)展,機(jī)器翻譯是否會衍生出更多有趣的應(yīng)用場景?
王明軒:之前我們推出的火山翻譯AR眼鏡就是類似的嘗試。今年谷歌I/O大會上壓軸發(fā)布的AR翻譯眼鏡也是很有意思的應(yīng)用,使用者佩戴后可以實(shí)時(shí)看到對話者的譯文,類比字幕效果。
這其實(shí)都反映出了一種比較樸素的理想:我們希望大家能生活在一個(gè)溝通無障礙的世界。比如:出國旅游時(shí),戴上眼鏡就可以理解任何語言的文字提示,你看到的路牌是德語的,而顯示在眼鏡上的是中文。日常交流時(shí),別人跟你說話,對話信息自動變成你所理解的文字,顯示在眼鏡下方。這都是能更有效地獲取信息的場景。
51CTO:長遠(yuǎn)來看,機(jī)器翻譯將如何發(fā)展?
王明軒:應(yīng)用方面,我覺得機(jī)器翻譯可能會和多模態(tài)應(yīng)用結(jié)合得更為緊密,比如視頻內(nèi)容、音頻內(nèi)容的翻譯需求會越來越多。另外,機(jī)器翻譯可能會更多地與業(yè)務(wù)出海、文化出海聯(lián)系在一起。因?yàn)閲鴥?nèi)很多公司都在積極地進(jìn)行海外業(yè)務(wù)的擴(kuò)張,我認(rèn)為這個(gè)領(lǐng)域會對機(jī)器翻譯的發(fā)展起到很大幫助。
技術(shù)方面,我能看到的已經(jīng)在發(fā)生的趨勢是:一是大數(shù)據(jù)和大模型的訓(xùn)練。從事這一領(lǐng)域的人越來越多,模型越來越大,數(shù)據(jù)量也越來越大,很多人認(rèn)為這種變化有可能會給機(jī)器翻譯的能力帶來質(zhì)變。二是翻譯和模態(tài)的結(jié)合。不止在翻譯方面,業(yè)界很多人都在試圖構(gòu)建不同模態(tài)的統(tǒng)一語義表示,之前幾年,不同模態(tài)之間界限還比較分明,大家交流相對也少。如今,模型越來越一致。未來可能出現(xiàn)一個(gè)模型,既能做文本翻譯,也能做語音翻譯,甚至能做視頻翻譯。
51CTO:未來,機(jī)器翻譯是否有可能在特定場景中完全取代人工翻譯?
王明軒:按目前這種做法肯定是取代不了人工的。不過我覺得機(jī)器翻譯和人工翻譯可能不屬于一個(gè)賽道。
機(jī)器翻譯的特點(diǎn),一是速度非常快,二是可以規(guī)模化,所以它適合處理的是海量且需要及時(shí)處理的信息。舉個(gè)例子,如果現(xiàn)在有一千萬個(gè)視頻要從英語翻譯成法語,那么純靠人工是不太能做到的,但是機(jī)器可以做。這一點(diǎn)就可以讓機(jī)器在它的賽道里發(fā)揮很重要的作用,長期看來是大有裨益的,因?yàn)樗_闊了整個(gè)市場,讓跨語言的市場變得更大。
但是對于很精細(xì)的翻譯場景,機(jī)器翻譯可能就力有不逮。就像有人提到的,機(jī)器翻譯能翻得了《紅樓夢》嗎?我認(rèn)為,這就不屬于機(jī)器翻譯的任務(wù)范疇。小說或詩歌之類的翻譯,這一類型的翻譯必須要依仗專家。還有規(guī)格很高的會議同傳,也肯定需要專業(yè)譯員擔(dān)任,而不可能是機(jī)器。但在一些重要性不是很高的會議上,機(jī)器翻譯的成本優(yōu)勢就會展現(xiàn)出來。
機(jī)器翻譯跟專業(yè)譯員,兩者隸屬賽道不同,區(qū)分還是很鮮明的。不過某種程度上,兩者也存在互幫互助的關(guān)系。這體現(xiàn)在:一方面,機(jī)器翻譯需要的語料就是專業(yè)譯員生產(chǎn)的。專業(yè)譯員在工作過程中不斷地生產(chǎn)大量的語料,這些語料能夠持續(xù)幫助機(jī)器翻譯去提升能力。另一方面,機(jī)器翻譯也可以幫人減輕負(fù)擔(dān),處理要求沒有那么高的任務(wù)。現(xiàn)在也有很多譯員在做譯后編輯,很多翻譯公司讓機(jī)器先做翻譯,譯員再做編輯,效率也能因此大幅提升。
嘉賓介紹
王明軒,字節(jié)跳動AI-Lab機(jī)器翻譯團(tuán)隊(duì)負(fù)責(zé)人,研究方向主要為機(jī)器翻譯和自然語言處理。在機(jī)器翻譯領(lǐng)域,發(fā)表包括 ACL、EMNLP 等頂級會議論文超過40 篇,多次拿到 WMT等國際翻譯評測比賽第一。同時(shí)還擔(dān)任EMNLP2022贊助主席,和NeurIPS 2022、NLPCC 2022、AACL2022 等會議領(lǐng)域主席。
欄目介紹
“T前線”是51CTO內(nèi)容中心專為技術(shù)人物開設(shè)的深度訪談欄目之一,通過邀請技術(shù)界內(nèi)的業(yè)務(wù)負(fù)責(zé)人、資深架構(gòu)師、資深技術(shù)專家等對當(dāng)下的技術(shù)熱點(diǎn)、技術(shù)實(shí)踐和技術(shù)趨勢進(jìn)行深度的解讀和洞察,推動前沿科技的傳播與發(fā)展。