成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

專訪字節(jié)跳動王明軒:機(jī)器翻譯和人工翻譯實(shí)質(zhì)是兩個(gè)賽道 | T前線

原創(chuàng) 精選
人工智能 機(jī)器學(xué)習(xí)
聊一聊機(jī)器翻譯的那些年,這些事

技術(shù)的進(jìn)步,往往意味著行業(yè)的進(jìn)化發(fā)現(xiàn)了新的方向。翻譯行業(yè)也不例外。隨著全球化進(jìn)程不斷加快,人們在進(jìn)行涉外活動時(shí)都離不開跨語言的交流。機(jī)器翻譯的出現(xiàn)極大地?cái)U(kuò)充了翻譯的應(yīng)用場景,固然它還遠(yuǎn)遠(yuǎn)稱不上完善,但卻在人類挑戰(zhàn)巴別塔的路上跨出了堅(jiān)實(shí)的一步。51CTO特邀字節(jié)跳動AI Lab機(jī)器翻譯負(fù)責(zé)人王明軒,聊一聊機(jī)器翻譯發(fā)展的這些年、那些事。

從基于規(guī)則,到基于統(tǒng)計(jì)模型,再到基于神經(jīng)網(wǎng)絡(luò)

機(jī)器翻譯的發(fā)展與計(jì)算機(jī)技術(shù)、信息論、語言學(xué)等學(xué)科的發(fā)展緊密相關(guān)。進(jìn)入21世紀(jì)以后,隨著硬件能力的提升和算法的優(yōu)化,機(jī)器翻譯技術(shù)迎來了空前的躍進(jìn),并成功邁出象牙塔,走上了普惠之路。

51CTO:縱觀歷史,機(jī)器翻譯經(jīng)歷了哪些重要的發(fā)展節(jié)點(diǎn)?

王明軒:機(jī)器翻譯實(shí)質(zhì)是一個(gè)非常古老的問題,機(jī)器翻譯的歷史可以追溯到17世紀(jì)笛卡爾、萊布尼茨等哲學(xué)家提出的「通用語言」。1946年等計(jì)算機(jī)正式誕生后,人們期望計(jì)算機(jī)能將一種語言翻譯成另一種語言。美國科學(xué)家瓦倫·韋弗在《翻譯備忘錄》中正式定義了機(jī)器翻譯的概念和思想。這一時(shí)期,在冷戰(zhàn)背景下,美蘇兩國也基于搜集信息的需要,投入了大量資金用于機(jī)器翻譯相關(guān)研究。

一開始大家相對較樂觀,覺得這事很快就可以搞定了。第一版的翻譯系統(tǒng)非常簡單,主要是基于詞典,比如把“太陽”翻譯為“sun”,但這種詞對詞的翻譯很快遇到了瓶頸,因?yàn)橐辉~多義的現(xiàn)象比較多,比如“bank”,既可以是“銀行”,也可以是“河岸”,具體語境中會面臨很多選詞的困境。結(jié)合語言學(xué)家制定的語義規(guī)則可以解決一部分歧義,但發(fā)展到后期,規(guī)則越多,沖突的地方也會越多,系統(tǒng)會越來越復(fù)雜,依然無法解決問題。

1966年美國公布了報(bào)告《語言與機(jī)器》,全面否定了機(jī)器翻譯的可行性,并建議停止對機(jī)器翻譯項(xiàng)目的資金支持。受此影響,機(jī)器翻譯陷入低潮期。

直到90年代,IBM提出基于詞對齊的翻譯模型,標(biāo)志著現(xiàn)代統(tǒng)計(jì)機(jī)器翻譯方法的誕生。基于統(tǒng)計(jì)的機(jī)器翻譯原理很簡單,比如要在語境中判斷bank應(yīng)該翻譯成“銀行”還是“河岸”,那就進(jìn)行大量的相關(guān)語料統(tǒng)計(jì),會發(fā)現(xiàn)上下文里有“錢”相關(guān)的,那就更有可能翻譯成“銀行”,上下文里提到“河流”,那更可能對應(yīng)的是“河岸”。如此一來,不用詞典與文法規(guī)則,而是按照概率來判斷具體場景下的語義。這是劃時(shí)代的變化,機(jī)器翻譯的質(zhì)量得到了巨大的提升。很快,機(jī)器翻譯開始在很多實(shí)用場景落地。

從1993到2014年基本都屬于統(tǒng)計(jì)的時(shí)代,但雖說是基于統(tǒng)計(jì),還是需要人工去定義很多特征、模板,再進(jìn)一步設(shè)計(jì)細(xì)節(jié),因而也不是非常靈活,模型的能量也不是很強(qiáng)大。

而后到了神經(jīng)網(wǎng)絡(luò)時(shí)代,神經(jīng)網(wǎng)絡(luò)翻譯從模型上說主要包含編碼器和解碼器。編碼器把源語言經(jīng)過一系列神經(jīng)網(wǎng)絡(luò)變換后表示成一個(gè)高維向量,解碼器負(fù)責(zé)把這個(gè)高維向量重新解碼成目標(biāo)語言。2014年Seq2Seq的提出,讓神經(jīng)網(wǎng)絡(luò)翻譯慢慢開始比統(tǒng)計(jì)機(jī)器翻譯做得更好。

到2017年時(shí),谷歌提出Transformer,模型更大、結(jié)構(gòu)更靈活、并行化程度更高,這進(jìn)一步提升了翻譯質(zhì)量。同年,AlphaGo的勝利也讓大家對人工智能的信心更充分。也正是在2017年之后,機(jī)器翻譯的產(chǎn)業(yè)化迎來了爆發(fā)期,直到現(xiàn)在,整體大框架沒有發(fā)生太大變化,但小細(xì)節(jié)上出現(xiàn)了很多創(chuàng)新。

挑戰(zhàn)“巴別塔”

從詞典匹配,到結(jié)合語言學(xué)專家知識的規(guī)則翻譯,再到基于語料庫的統(tǒng)計(jì)機(jī)器翻譯,以及目前主流的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯,相比之前,機(jī)器翻譯的質(zhì)量有了飛躍式的提升,但依舊面臨著重重挑戰(zhàn)。

51CTO:目前機(jī)器翻譯面臨的主要挑戰(zhàn)在哪里?

王明軒:挑戰(zhàn)其實(shí)還比較多。

第一,如何做稀缺語種的機(jī)器翻譯。這是機(jī)器翻譯從誕生以來一直就面臨的問題。語種越小,數(shù)據(jù)量越少,語料的稀缺會是長期的挑戰(zhàn)。

第二,如何做多模態(tài)的機(jī)器翻譯。近年來,我們經(jīng)常需要做語音翻譯、視頻翻譯,事實(shí)上這類翻譯需要AI做一些前處理之后再做翻譯。如果AI處理錯(cuò)了,翻譯就可能出現(xiàn)錯(cuò)誤。再比如,在同聲傳譯的場景,通常是邊說邊翻,拿不到完整的上下文信息。這在多模態(tài)翻譯中都是常見問題。

第三,最為本質(zhì)的問題在于,目前的機(jī)器翻譯還是基于數(shù)據(jù)驅(qū)動,并沒有在理解層面做得更為深入。模型的學(xué)習(xí)依舊是依靠語言的貢獻(xiàn),而非真正地理解語義。這一點(diǎn)極大地局限了機(jī)器翻譯的上限。

51CTO:火山翻譯作為字節(jié)跳動旗下機(jī)器翻譯品牌,如何應(yīng)對語料稀疏問題?

王明軒:有兩個(gè)比較直接的方法。

第一種是擴(kuò)充語料,努力讓稀缺語料“不再稀缺”。這種思路是,通過一些模型,盡可能從互聯(lián)網(wǎng)上獲取語料。比如冰島語,我們能收集大量冰島語的單語語料,在互聯(lián)網(wǎng)上就可以去收集與單語語料相近的英文文本,我們?nèi)フ疫@種可能對齊的語料,形成雙語去對。當(dāng)然我們有時(shí)也用人工標(biāo)注,但更多的是靠智能的方法自行增加。

第二種是利用語言的共性。大家生活在同一個(gè)星球,雖然使用的語言不同,但其實(shí)在描述同一個(gè)世界,因此語言在高層次上是有很多共性的。我們會借助一些遷移學(xué)習(xí)或者預(yù)訓(xùn)練的方法來解決這類問題,比如讓英語的模型去幫助法語的模型,或者讓德語的模型幫助法語的模型。主要就是這兩個(gè)思路。

51CTO:在多模態(tài)的機(jī)器翻譯中,要減少噪聲干擾的話,火山翻譯采取了哪些應(yīng)對策略?

王明軒:應(yīng)對噪聲干擾的話,首先,進(jìn)行了多種模態(tài)的聯(lián)合建模。我們會拿語音信號和文本信號一起去做下游的任務(wù),這樣一來,錯(cuò)誤傳遞會減少很多。當(dāng)前,構(gòu)建多模態(tài)的統(tǒng)一語義在學(xué)術(shù)界也是非常火熱的話題,所以我們也會吸收其他領(lǐng)域的很多東西。

其次,我們在文本這塊也會做很多魯棒性訓(xùn)練,盡量讓模型在有錯(cuò)誤輸入的情況下,還能保證正確的輸出,或者不擴(kuò)大這種錯(cuò)誤,相當(dāng)于把自動糾錯(cuò)和機(jī)器翻譯做到了一個(gè)模型里面。因?yàn)槿似鋵?shí)是有這種自動糾錯(cuò)能力的,比如人工譯員在聽到錯(cuò)誤的信息時(shí),會進(jìn)行自動糾正,所以我們在模型里面也會考慮這些信息。

51CTO:同聲傳譯對延時(shí)的要求很高。但是如果沒有結(jié)合上下文的語境或者聽完完整的語義,準(zhǔn)確率又很難保證。機(jī)器翻譯如何平衡這兩者之間的矛盾?

王明軒:這一點(diǎn)在工業(yè)界很有挑戰(zhàn)性,因?yàn)椴粌H關(guān)乎延時(shí)和準(zhǔn)確率的trade off,實(shí)際上需要優(yōu)化的地方更多。

比如在某些會議場景中,翻譯字幕需要展示在大屏幕上,觀眾接受字幕的速度也是關(guān)鍵問題之一,包括每次字幕展示的長度、字幕彈出的頻率,都關(guān)系到如何讀起來更舒服。其中有很多細(xì)節(jié)需要我們反復(fù)和產(chǎn)品經(jīng)理溝通,深入用戶調(diào)研來看整體滿意度。因此,這不僅僅是準(zhǔn)確率的問題,要把用戶的實(shí)際使用體驗(yàn)都作為要素考慮進(jìn)去,再來調(diào)整模型。

此外,延時(shí)可能是用戶滿意度的指標(biāo)之一,但延時(shí)也并非越短越好。通常有個(gè)合適的gap反而更好。因?yàn)檠訒r(shí)很短的話,字幕彈出的速度也會很快,用戶的接受效果反而不太好。在這方面,我們也會借鑒業(yè)界的很多成熟做法,比如動態(tài)控制字幕翻譯的間隔。總體而言,這是一個(gè)非常工程化、產(chǎn)品化的問題。

未來趨向

機(jī)器翻譯仍然不是完美的,但從業(yè)者們正在努力讓其變得質(zhì)量更高,可用性更強(qiáng),適用性更廣。讓我們來觀察一下它的發(fā)展趨勢,尤其是當(dāng)機(jī)器翻譯與專業(yè)譯員發(fā)生“碰撞”時(shí),翻譯服務(wù)場景又會產(chǎn)生哪些化學(xué)反應(yīng)。

51CTO:隨著技術(shù)的發(fā)展,機(jī)器翻譯是否會衍生出更多有趣的應(yīng)用場景?

王明軒:之前我們推出的火山翻譯AR眼鏡就是類似的嘗試。今年谷歌I/O大會上壓軸發(fā)布的AR翻譯眼鏡也是很有意思的應(yīng)用,使用者佩戴后可以實(shí)時(shí)看到對話者的譯文,類比字幕效果。

這其實(shí)都反映出了一種比較樸素的理想:我們希望大家能生活在一個(gè)溝通無障礙的世界。比如:出國旅游時(shí),戴上眼鏡就可以理解任何語言的文字提示,你看到的路牌是德語的,而顯示在眼鏡上的是中文。日常交流時(shí),別人跟你說話,對話信息自動變成你所理解的文字,顯示在眼鏡下方。這都是能更有效地獲取信息的場景。

51CTO:長遠(yuǎn)來看,機(jī)器翻譯將如何發(fā)展?

王明軒:應(yīng)用方面,我覺得機(jī)器翻譯可能會和多模態(tài)應(yīng)用結(jié)合得更為緊密,比如視頻內(nèi)容、音頻內(nèi)容的翻譯需求會越來越多。另外,機(jī)器翻譯可能會更多地與業(yè)務(wù)出海、文化出海聯(lián)系在一起。因?yàn)閲鴥?nèi)很多公司都在積極地進(jìn)行海外業(yè)務(wù)的擴(kuò)張,我認(rèn)為這個(gè)領(lǐng)域會對機(jī)器翻譯的發(fā)展起到很大幫助。

技術(shù)方面,我能看到的已經(jīng)在發(fā)生的趨勢是:一是大數(shù)據(jù)和大模型的訓(xùn)練。從事這一領(lǐng)域的人越來越多,模型越來越大,數(shù)據(jù)量也越來越大,很多人認(rèn)為這種變化有可能會給機(jī)器翻譯的能力帶來質(zhì)變。二是翻譯和模態(tài)的結(jié)合。不止在翻譯方面,業(yè)界很多人都在試圖構(gòu)建不同模態(tài)的統(tǒng)一語義表示,之前幾年,不同模態(tài)之間界限還比較分明,大家交流相對也少。如今,模型越來越一致。未來可能出現(xiàn)一個(gè)模型,既能做文本翻譯,也能做語音翻譯,甚至能做視頻翻譯。

51CTO:未來,機(jī)器翻譯是否有可能在特定場景中完全取代人工翻譯?

王明軒:按目前這種做法肯定是取代不了人工的。不過我覺得機(jī)器翻譯和人工翻譯可能不屬于一個(gè)賽道。

機(jī)器翻譯的特點(diǎn),一是速度非常快,二是可以規(guī)模化,所以它適合處理的是海量且需要及時(shí)處理的信息。舉個(gè)例子,如果現(xiàn)在有一千萬個(gè)視頻要從英語翻譯成法語,那么純靠人工是不太能做到的,但是機(jī)器可以做。這一點(diǎn)就可以讓機(jī)器在它的賽道里發(fā)揮很重要的作用,長期看來是大有裨益的,因?yàn)樗_闊了整個(gè)市場,讓跨語言的市場變得更大。

但是對于很精細(xì)的翻譯場景,機(jī)器翻譯可能就力有不逮。就像有人提到的,機(jī)器翻譯能翻得了《紅樓夢》嗎?我認(rèn)為,這就不屬于機(jī)器翻譯的任務(wù)范疇。小說或詩歌之類的翻譯,這一類型的翻譯必須要依仗專家。還有規(guī)格很高的會議同傳,也肯定需要專業(yè)譯員擔(dān)任,而不可能是機(jī)器。但在一些重要性不是很高的會議上,機(jī)器翻譯的成本優(yōu)勢就會展現(xiàn)出來。

機(jī)器翻譯跟專業(yè)譯員,兩者隸屬賽道不同,區(qū)分還是很鮮明的。不過某種程度上,兩者也存在互幫互助的關(guān)系。這體現(xiàn)在:一方面,機(jī)器翻譯需要的語料就是專業(yè)譯員生產(chǎn)的。專業(yè)譯員在工作過程中不斷地生產(chǎn)大量的語料,這些語料能夠持續(xù)幫助機(jī)器翻譯去提升能力。另一方面,機(jī)器翻譯也可以幫人減輕負(fù)擔(dān),處理要求沒有那么高的任務(wù)。現(xiàn)在也有很多譯員在做譯后編輯,很多翻譯公司讓機(jī)器先做翻譯,譯員再做編輯,效率也能因此大幅提升。

嘉賓介紹

王明軒,字節(jié)跳動AI-Lab機(jī)器翻譯團(tuán)隊(duì)負(fù)責(zé)人,研究方向主要為機(jī)器翻譯和自然語言處理。在機(jī)器翻譯領(lǐng)域,發(fā)表包括 ACL、EMNLP 等頂級會議論文超過40 篇,多次拿到 WMT等國際翻譯評測比賽第一。同時(shí)還擔(dān)任EMNLP2022贊助主席,和NeurIPS 2022、NLPCC 2022、AACL2022 等會議領(lǐng)域主席。

欄目介紹

“T前線”是51CTO內(nèi)容中心專為技術(shù)人物開設(shè)的深度訪談欄目之一,通過邀請技術(shù)界內(nèi)的業(yè)務(wù)負(fù)責(zé)人、資深架構(gòu)師、資深技術(shù)專家等對當(dāng)下的技術(shù)熱點(diǎn)、技術(shù)實(shí)踐和技術(shù)趨勢進(jìn)行深度的解讀和洞察,推動前沿科技的傳播與發(fā)展。

責(zé)任編輯:張潔 來源: 51CTO技術(shù)棧
相關(guān)推薦

2021-10-13 18:59:42

AI

2020-10-11 22:05:22

機(jī)器翻譯谷歌AI

2017-03-22 12:39:33

人工智能機(jī)器翻譯

2021-10-28 17:52:51

機(jī)器翻譯人工智能AI

2021-10-13 18:57:59

AI

2017-08-21 16:00:14

機(jī)器學(xué)習(xí)機(jī)器翻譯

2021-10-21 13:13:57

數(shù)字化

2017-09-05 14:23:22

人工智能機(jī)器翻譯神經(jīng)網(wǎng)絡(luò)

2020-04-27 10:37:53

機(jī)器翻譯腦機(jī)接口腦波

2019-10-25 16:18:34

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2012-02-09 09:49:48

2018-07-10 15:46:57

機(jī)器翻譯語言翻譯

2023-02-28 12:38:22

谷歌數(shù)據(jù)集機(jī)器翻譯

2018-03-22 08:51:38

分音塔AI技術(shù)跨語言溝通

2024-06-13 09:05:36

2020-10-27 14:34:42

算法MIT機(jī)器翻譯

2021-06-22 18:50:00

機(jī)器翻譯人工智能計(jì)算機(jī)

2020-05-27 09:53:19

大數(shù)據(jù)機(jī)器翻譯冠狀病毒

2017-11-03 15:58:08

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产色在线 | 国产欧美精品一区二区色综合朱莉 | 亚洲www啪成人一区二区麻豆 | www亚洲精品 | 欧美日韩视频在线播放 | 亚洲综合色婷婷 | 午夜欧美一区二区三区在线播放 | 成人在线免费视频观看 | 国产激情免费视频 | 精品欧美一区二区三区久久久 | 免费观看的av毛片的网站 | 最近中文字幕在线视频1 | 日韩午夜在线播放 | 国产日韩一区 | .国产精品成人自产拍在线观看6 | 亚洲精品国产第一综合99久久 | 精品伊人久久 | 欧美日韩亚洲一区 | 欧美一区二区在线 | 中文字幕精品一区久久久久 | 午夜免费视频 | 精品欧美一区二区三区 | 亚洲成人一级 | 免费久久精品视频 | 殴美黄色录像 | 久久久九九九九 | 三级成人在线观看 | 成人午夜精品一区二区三区 | 久久久久久国产精品三区 | 欧美视频在线播放 | 国产成人99久久亚洲综合精品 | 国产精品综合色区在线观看 | 三级特黄特色视频 | 亚洲欧美一区二区三区在线 | 99久久精品国产一区二区三区 | 免费成人高清在线视频 | 三级黄色片在线观看 | 中文字幕乱码一区二区三区 | 亚洲毛片在线 | 国产精品自拍视频 | 亚洲导航深夜福利涩涩屋 |