同時(shí)讀懂40種語言人工智能助力跨語言交流

作者：思牧 2021-11-04 23:17:50

一段包含中文、英語、韓語、日語、阿拉伯語、越南語等40種語言的文字如何理解？大多數(shù)人做不到的事情，經(jīng)過訓(xùn)練的人工智能機(jī)器卻能做到。

在近日舉辦的世界權(quán)威多語言理解評(píng)測XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)中，哈工大訊飛聯(lián)合實(shí)驗(yàn)室(HFL)團(tuán)隊(duì)以總平均分84.1位列榜首，刷新世界記錄。

[[433407]]

XTREME評(píng)測旨在全面考察模型的多語言理解與跨語言遷移能力。與以往單語言自然語言理解評(píng)測任務(wù)不同的是，XTREME中的每一個(gè)任務(wù)都覆蓋了多種語言，并且包含句對(duì)分類、序列標(biāo)注、閱讀理解、句子檢索賽道，共四大類九個(gè)任務(wù)。

那么，機(jī)器是如何做到多語言理解的?比賽負(fù)責(zé)人、哈工大訊飛聯(lián)合實(shí)驗(yàn)室核心技術(shù)研究員楊子清介紹，他們通過自主研發(fā)的跨語言對(duì)比學(xué)習(xí)技術(shù)，利用知識(shí)蒸餾技術(shù)進(jìn)行自監(jiān)督學(xué)習(xí)和知識(shí)遷移，鼓勵(lì)模型學(xué)習(xí)不同語言中的語義相似性，與此同時(shí)，還創(chuàng)新性地融入了細(xì)粒度的語言學(xué)特征，幫助模型克服訓(xùn)練不足的困難，解決低資源語言學(xué)習(xí)不充分的問題，同時(shí)使之適應(yīng)不同語言的形態(tài)學(xué)特點(diǎn)。

“這就意味著，通過本土語言學(xué)習(xí)，機(jī)器可以在少量其他語言語料的情況下，通過類比學(xué)會(huì)這門語言，減少了收集語料、語音標(biāo)注等大量工作。”楊子清補(bǔ)充解釋。

除了多語言，科大訊飛還在少數(shù)民族語言處理方面推出了預(yù)訓(xùn)練模型CINO(Chinese mINOrity pre-trained language model)。

楊子清介紹，“少數(shù)民族語言處理是中文信息處理中不可缺少的一環(huán)，也是中文信息處理多樣性的一種體現(xiàn)。這項(xiàng)技術(shù)的進(jìn)步將極大改善我國少數(shù)民族語言學(xué)習(xí)問題。”

國內(nèi)少數(shù)民族語言語料稀缺、獲取難度大等原因，相關(guān)技術(shù)研究相對(duì)匱乏，而主流的多語言模型也無法很好地處理國內(nèi)少數(shù)民族語言文字。“希望未來能夠進(jìn)一步促進(jìn)業(yè)內(nèi)少數(shù)民族語言相關(guān)的技術(shù)研究，推動(dòng)少數(shù)民族語言相關(guān)技術(shù)的應(yīng)用落地。未來支持各少數(shù)民族語言的多語言搜索引擎等文字應(yīng)用工具或?qū)⒊蔀榭赡堋?rdquo;楊子清說。

責(zé)任編輯：華軒來源：光明網(wǎng)

人工智能自然語言技術(shù)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

同時(shí)讀懂40種語言 人工智能助力跨語言交流

同時(shí)讀懂40種語言人工智能助力跨語言交流