成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟翻譯又添新語言 —— 文言文

新聞
最近微軟亞洲研究院的研究員們將 AI 技術應用在文言文/古文與現代漢語之間的雙向互譯,并已集成于微軟 Azure 認知服務以及多個微軟產品中,用戶可以一鍵將文言文翻譯成現代漢語,以及微軟翻譯服務支持的其他90多種語言和方言。

編者按:每當面對美好的時節、迷人的風景、優美的事物時,或許你也禁不住想借古抒懷,然而卻發現自己的古文詞庫有些匱乏。不過,最近微軟亞洲研究院的研究員們將 AI 技術應用在文言文/古文與現代漢語之間的雙向互譯,并已集成于微軟 Azure 認知服務以及多個微軟產品中,用戶可以一鍵將文言文翻譯成現代漢語,以及微軟翻譯服務支持的其他90多種語言和方言。

在閱讀古詩詞時,我們常常驚嘆于古人攜風月入墨,落筆如畫,仿佛世間最美的風景,都在古詩詞和文言文中。比如,我們可以在“落霞與孤鶩齊飛,秋水共長天一色”中享受絕美,在“大漠孤煙直,長河落日圓”里體會蒼涼,在“氣蒸云夢澤,波撼岳陽城”中感受壯闊。古代文人對人、事、物、景的諸多描寫,為我們留下了燦爛的文化瑰寶。

然而,當我們讀到北宋詞人柳永筆下描繪的清明節旖旎春色和社會風情——“拆桐花爛熳,乍疏雨、洗清明。正艷杏燒林,緗桃繡野,芳景如屏。傾城,盡尋勝去,驟雕鞍紺幰出郊坰(zhòu diāo ān gàn xiǎn chū jiāo jiōng)。風暖繁弦脆管,萬家競奏新聲”,這些略顯拗口的古文,對于大多數人來說理解起來不免有些困難,很難完全體會出詩人所表達的意境。 

圖1:圖片出自明代沈周《西山觀雨圖》,圖中配詩為北宋柳永《木蘭花慢·拆桐花爛漫》 

為了解決這個問題,微軟亞洲研究院的研究員們通過采用最新的神經網絡機器翻譯模型和訓練框架,實現了文言文/古文與現代漢語之間的雙向互譯,以及文言文與微軟翻譯支持的其他90多種語言和方言的互譯。目前,文言文翻譯已經集成到了微軟翻譯應用、Azure 認知服務的翻譯工具 API,以及微軟翻譯服務支持的包括 Office 在內的多個微軟產品中。 

讓更多人領略中華傳統文化的魅力

不少人與文言文的上一次“親密接觸”大概還停留在學生時代,有些甚至早已遺忘。近年來,無論是漢服文化的流行,還是九大博物館聯手讓國寶活起來的《國家寶藏》,以現代音樂奏響經典詩詞的《經典詠流傳》,聚焦文化典籍的《典籍里的中國》等等,全新的展示形式讓越來越多的人重新關注中華傳統文化的魅力。

文言文是中華傳統文化的重要載體。卷帙浩繁的古書、古文記錄了中華五千年來博大精深的文化,其中沉淀、蘊含的思想和智慧,值得不斷地探索與思考。因此,文言文對于傳承和傳播中華文化至關重要,正如想理解西方文化的精髓要從讀懂莎士比亞開始一樣。

有了機器翻譯的幫助,游客們在游山玩水時可以看懂古建筑、古碑文上的古文和詩詞,學生們在進行大語文學習時多了一個通過實踐舉一反三的工具,對于古籍的整理和翻譯研究工作來說,也可以提升效率、事半功倍。

“從技術角度上,文言文可以看作是一個單獨的語種,當文言文與現代漢語實現自由互譯后,文言文與英語、法語、德語等語言的互譯也就水到渠成,”微軟亞洲研究院高級研究員張冬冬說道。屆時,國際友人在閱讀中國經典古籍時也能瞬間秒懂,了解更加原汁原味的中華傳統文化。

文言文翻譯 AI 模型的最大難關:訓練數據少

人工智能模型訓練最關鍵的要素是數據,數據體量足夠大、質量足夠高,才能訓練出更加精準的模型。在機器翻譯中,模型的訓練更是需要雙語數據:原文數據和目標語言數據。由于文言文翻譯極為特殊,它并非日常用語,所以與其他語種的翻譯相比,文言文翻譯的訓練數據非常少,并不利于機器翻譯模型的訓練。

盡管微軟亞洲研究院的研究員們前期收集了不少公開的古今漢語數據,但原始數據卻無法直接使用,需要通過數據清洗,對數據的不同源頭、多樣的格式以及標點符號、全角/半角等進行標準化的統一,盡可能減少無效數據對模型訓練的干擾。這樣下來,切實可用的高質量數據又進一步減少。據微軟亞洲研究院研究員馬樹銘介紹,為了解決數據少的問題,研究員們做了大量的數據合成和增強工作,包括:

首先,共用字符對齊、擴展,擴大數據量。與英文、法文、俄文等其他語言的翻譯不同,文言文與現代文有相同、共通的字符。利用這個特點,微軟亞洲研究院的研究員們通過創新算法,讓機器翻譯通過對共同字符進行召回、自然對齊,再進一步擴展到詞語、短語、短句,從而合成了大量可用的數據。

其次,句式變形,提升機器翻譯的魯棒性。針對句子、詩文不同的斷句,研究員們增加了多種變形,讓機器在古詩文學習方面更全面,例如,古詩《尋隱者不遇》,一般的斷句方式是“松下問童子,言師采藥去”。但對于人來說,即使是“言師采藥去,只在此山中”這樣非正常斷句,看見時也知道它的上下句關系和意思。但對于沒見過如此斷句的翻譯模型來說,就會“懵”,因此,通過數據格式的變形不僅能擴大訓練的數據量,也能提升訓練模型翻譯的魯棒性。

第三,繁簡字互譯訓練,增加模型適應性。漢語言中,無論是文言文還是現代文,都存在繁體字。因此,為了提升模型的適應性,研究員們在訓練翻譯模型時,不僅有簡體中文的訓練,還加入了繁體中文的數據,以及繁簡字夾雜的數據,讓翻譯模型都能看懂,翻譯也就更精準。

第四,增加集外詞訓練,提升翻譯準確度。在現代語言向文言文翻譯時,還會出現一些集外詞,也就是古漢語中從未出現過的新名詞,如微軟、電腦、高鐵等近現代才出現的實體詞。針對這樣的“意外”,研究員們訓練了一個小模型來識別實體,先將實體之外的意思翻譯完成,再把實體填寫回去,以確保機器對集外詞處理的準確性。

此外,針對非正式文體,如博客、論壇、微博等非正規的文體,該機器翻譯模型也都進行了針對性的訓練,進一步提升了現代漢語與文言文之間翻譯的魯棒性。

張冬冬表示,“基于當前的翻譯系統,我們還將在豐富數據集、改進模型訓練方法上不斷精進,使方法變得更加魯棒、通用,未來或許不只是在文言文翻譯中能夠使用,還可以擴展到更多應用場景中。” 

圖2:文言文翻譯流程 

創新技術助力文化遺產的保護與傳承

中華文明上下五千年的歷史,由于時間和空間的限制,能夠傳承下來,又被后人了解和記錄的內容很有限。多年來,微軟亞洲研究院一直致力于將最前沿的技術和研究成果應用于歷史、文化、考古等方面的保護和傳承,讓文化遺產以更直觀、互動的方式展現在人們面前。

自2005年起,微軟亞洲研究院就基于自然語言處理、機器學習等人工智能技術研發了微軟對聯系統,并逐漸增加了微軟字謎和微軟絕句。2010年,微軟亞洲研究院與故宮博物院和北京大學三方合作完成了“走進清明上河圖”沉浸式數字音畫展示項目的研發,獨創性的三維布局恢復算法和虛擬環境組織方法,讓觀眾可以身臨其境地欣賞畫中的每個細節,不僅以新方式保護和傳承了書畫類歷史文物,也給傳統博物館在新技術時代的發展帶來啟示。2011年,微軟亞洲研究院向敦煌研究院捐贈了專門為敦煌莫高窟量身定制的“飛天號”十億級像素數字相機系統,突破性地解決了敦煌壁畫和佛龕數字化拍攝過程中的難題。

微軟亞洲研究院還在積極探索與文言文專業研究機構的溝通與合作,期待從技術角度提升文言文翻譯系統準確性的同時,也能夠獲得專業性的意見和建議。

最后,讓我們來測試一下你的文言文底蘊到底有多深。請選出以下文言文語句的正確意思:

1《陳情表》:詔書特下,拜臣郎中,尋蒙國恩,除臣洗馬。

  • A:專門下達詔書,授予我郎中的官職;不久又蒙受國家恩典,讓我去給太子洗馬。
  • B:朝廷又特地下了詔書,任命我為郎中,不久又蒙受國家恩命,任命我為太子的侍從。

2《鴻門宴》:臣死且不避,卮酒安足辭?

  • A:我死都不怕,一杯酒有什么可推辭的?
  • B:我喝死都不怕,一杯酒怎么夠呢?

 

責任編輯:未麗燕 來源: 微軟研究院AI頭條
相關推薦

2020-02-02 17:21:18

語言編程文言文

2019-12-18 15:28:05

編程語言PythonJava

2020-03-12 13:50:59

編程語言PythonJava

2024-11-06 09:11:33

編程語言程序員

2024-07-25 12:31:06

2021-04-02 15:02:42

開源技術 工具

2012-04-09 09:24:23

微軟虛擬化UE-V

2012-04-09 09:42:38

虛擬化微軟虛擬化UE-V

2020-02-05 15:23:00

語言編程文言文

2021-03-29 09:24:28

編程技能開發

2020-02-06 15:20:21

編程語言PythonJava

2021-06-10 12:50:02

編程語言PythonJava

2010-04-10 16:56:20

云安全掃描工具惡意攻擊

2011-08-22 20:18:39

江民科技網警

2021-10-13 10:13:03

微信青少年模式移動應用

2012-07-18 14:10:52

天天電話華為

2011-11-08 10:30:05

Eclipse

2013-06-07 10:41:22

微軟Bing Tansla
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 爱爱小视频| 伊人久久伊人 | 精品国产一区久久 | 永久精品 | 视频一区在线 | 高清欧美性猛交xxxx黑人猛交 | 精品国产一区二区三区成人影院 | 在线色网 | 中文字幕精品一区 | 亚洲精品9999 | 午夜电影网站 | 性高湖久久久久久久久3小时 | a在线视频 | 中文字幕黄色大片 | 成人免费看黄 | 国产午夜精品一区二区三区嫩草 | 国产在线观 | 亚洲第一网站 | 91精品国产综合久久香蕉麻豆 | 成人免费视频播放 | 亚洲国产一区二区在线 | 国产精品视频网 | 国产精品视频播放 | 巨大黑人极品videos精品 | 欧美国产一区二区 | 国产精品久久久久久久久久99 | 精品国产1区2区3区 在线国产视频 | 国产三区在线观看视频 | 精品自拍视频在线观看 | 国产精品美女久久久久久久网站 | 三级在线观看 | 国产精品日韩一区二区 | 亚洲午夜三级 | 一区二区免费在线观看 | 天天草草草 | 亚洲日本一区二区三区四区 | 九九久久在线看 | 免费黄色在线观看 | 伊人伊人伊人 | 精品国产一区二区三区成人影院 | 99视频在线免费观看 |