AI能讀懂40種語言，15個語種拿22項第一，背后是中國團隊22年堅守

作者：佚名 2021-11-25 19:51:12

新聞人工智能

怎樣才叫打破語言界的天花板？一次拿下15個語種22項第一，還讓機器讀懂40多種語言。能夠在多語種語音語言領(lǐng)域制霸的背后是中國團隊22年對頂天立地這一理念的堅守。

一次拿下15個語種22項第一！

不，還有更厲害的：40多種語言全能讀懂，簡直打破語言界的天花板。

2次獲獎，科大訊飛在多語種方向上取得了大滿貫成績。

[[436730]]

先是在世界權(quán)威多語言理解評測XTREME中，哈工大訊飛聯(lián)合實驗室（HFL）團隊以總平均分84.1分位列榜首，刷新世界紀錄。

后是在國際低資源多語種語音識別競賽OpenASR中，科大訊飛-中科大聯(lián)合團隊參加了所有15個語種受限賽道和7個語種非受限賽道，全部拿下了第一。

這一切得益于訊飛背后深深扎根的技術(shù)，還有其始終如一堅持頂天立地的初心，才能讓訊飛在多語種語音語言領(lǐng)域制霸。

第一的背后

那么，現(xiàn)在機器的多語種理解能做到什么程度了？

就比如下面這段夾雜著英語、德語、西班牙語的句子吧。

The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen Fällen ist die Wärmequelle ein Atomreaktor, Erdwärme, Solarenergie oder Abwärme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.

翻譯過來就是：

讓水沸騰以提供蒸汽所需熱量有多種來源，最常見的是在封閉空間（別稱有燃燒室、火箱）中供應(yīng)適量空氣來燃燒可燃材料。在某些情況下，熱源是核反應(yīng)堆、地熱能、太陽能或來自內(nèi)燃機或工業(yè)過程的廢氣。如果是模型或玩具蒸汽發(fā)動機，還可以將電加熱元件作為熱源。

說到多語種的自然語言理解，谷歌舉辦的XTREME（Cross-Lingual Transfer Evaluation of Multilingual Encoders）評測可謂是十分具有代表性的。

https://arxiv.org/pdf/2003.11080.pdf

與以往單語言自然語言理解評測任務(wù)不同的是，XTREME中的每一個任務(wù)都覆蓋了多種語言，其中許多都缺乏相關(guān)研究，如達羅毗荼語系的泰米爾語、泰盧固語系和馬拉雅拉姆語，以及非洲的尼日爾-剛果語系的斯瓦希里語和約魯巴語。

而評測的成績則是模型在多種語言上的理解能力平均指標，因此對系統(tǒng)模型的多語言理解與跨語言遷移能力要求大大提高。

具體而言，XTREME涵蓋了12個語系的40種語言，包括對不同層次的語法或語義進行推理的4大類9個任務(wù)：

句對分類：XNLI、PAWS-X（自然語言推斷）
序列標注：UDPOS（詞性標注）、PANX （命名實體識別）
閱讀理解：XQuAD、MLQA、TyDiQA（片段抽取型閱讀理解）
句子檢索：BUCC、Tatoeba（跨語言文本檢索）

今年9月，微軟憑借最新的圖靈通用語言表示模型（T-ULRv5），成功刷新了XTREME榜單總分和4個單項任務(wù)的SOTA。

為了達到這一最新成就，微軟在大規(guī)模的多語言數(shù)據(jù)集上對模型進行了平行文本語料的訓練，并同時結(jié)合了最新的XLM-E研究和XTune微調(diào)技術(shù)。

由此誕生的T-ULRv5 XL有48個transformer層，隱藏維度大小為1536，24個注意力頭，多語言詞匯量為50萬個，總參數(shù)量達到22億，并且能夠處理94種不同的語言。

不過，在上個月的最新排名中，哈工大訊飛聯(lián)合實驗室（HFL）團隊以總平均分84.1分的成績再次刷新了這個記錄。

HFL的CoFe模型在四項任務(wù)中，有三項都超過了微軟T-ULRv5 XL模型創(chuàng)造的記錄，另外一項則與其持平。

對此，哈工大訊飛聯(lián)合實驗室提出了三項技術(shù)，從而讓模型具有多語言理解與跨語言遷移能力。

第一，加入了自主研發(fā)的跨語言對比學習技術(shù)，鼓勵模型學習不同語言中的語義相似性。

CoFe利用多語言的同義句對作為正樣本，易混淆與反義句對作為高難度負樣本，以對比學習和分類任務(wù)為訓練目標，讓模型比較與學習不同語言文本背后的語義。

在上圖的例子中，對于源語言（中文）中的句子A「所有人都看著他」，以英文中的同義句B「All eyes turned to him」為正樣本，法語中的反義句C「Il n'a pas attiré l'attention」為高難度負樣本，其他句子作為普通負樣本訓練模型，達到讓模型習得跨語言理解句子語義的目的。

第二，利用知識蒸餾技術(shù)進行自監(jiān)督學習和知識遷移，進一步提升了模型在各個語言上效果的穩(wěn)定性。

知識蒸餾技術(shù)除了可以用于模型壓縮與加速，對提升模型的性能與穩(wěn)定性也有很大幫助。因此，CoFe從多個角度對其進行了開發(fā)利用：

通過自監(jiān)督訓練，讓模型自我蒸餾，提升穩(wěn)定性；
多語-單語的多到一知識遷移。所謂三人行必有我?guī)煟尪嗾Z言學生模型從多個單語言教師模型學習知識，博采眾長；
多語言多模型蒸餾。將多個多語言教師蒸餾至單一模型，從而提供更優(yōu)的教師指導信號。

第三，融入細粒度的語言學特征，幫助模型克服訓練不足的困難，解決低資源語言學習不充分的問題，同時使之適應(yīng)不同語言的形態(tài)學特點。

例如對于一些書寫系統(tǒng)比較特殊的低資源語言，CoFe中引入了額外的分詞系統(tǒng)，以幫助模型在少量數(shù)據(jù)精調(diào)下更迅速地掌握理解該語言的能力。

從而讓機器可以在少量其他語言語料的情況下，通過「類比」學會這門語言，減少了收集語料、語音標注等大量工作。

在另一個更加關(guān)注小語種語音技術(shù)的OpenASR比賽中，科大訊飛-中科大語音及語言信息處理國家工程實驗室（USTC-NELSLIP）聯(lián)合團隊參加了所有15個語種受限賽道和7個語種非受限賽道，并全部取得第一名的成績。

小語種語音數(shù)據(jù)難以獲取不僅表現(xiàn)在語音的數(shù)據(jù)量上，更表現(xiàn)在語料豐富性，發(fā)音詞典大小以及標注準確度上。對于許多低資源語種，姑且不說上萬小時語音數(shù)據(jù)，就連100小時標注數(shù)據(jù)的獲取也舉步維艱。

為此，世界語音學術(shù)領(lǐng)域的權(quán)威組織美國國家標準與技術(shù)研究院NIST（National Institute of Standards and Technology）在2020年底，舉辦了OpenASR (Open Automatic Speech Recognition) 比賽。

今年更是將語言增加到了15個語種，涵蓋受限賽道（Constrained condition）、受限附加賽道（Constrained Plus）和非受限賽道（Unconstrained Condition）。

此外，比賽中各個語種數(shù)據(jù)主要來自電話信道，口語化特征十分明顯，對話風格非常自由，也使得語音識別難上加難。

語言	語言	語言
粵語	普什圖語	他加祿語
瓜拉尼語	索馬里語	格魯吉亞語
爪哇語	泰米爾語	哈薩克語
庫爾德語	越南語	阿姆哈拉語
蒙古語	斯瓦西里語	波斯語

團隊在比賽中提出了基于語音和文本統(tǒng)一空間表達的半監(jiān)督語音識別框架（Unified Spatial Representation Semi-supervised ASR，USRS-ASR），獲此佳績也驗證了該算法良好的推廣性。

受限賽道15個語種的成績

在受限賽道上，由于每個語種只有10小時語音數(shù)據(jù)，如何使用少量文本數(shù)據(jù)，利用無監(jiān)督的方法增加語音訓練數(shù)據(jù)的多樣性至關(guān)重要。

團隊運用Flow-TTS語音合成進行訓練數(shù)據(jù)擴增，并使用語音屬性解耦技術(shù)保證合成語音的多樣性。

結(jié)果顯示，使用上述無監(jiān)督數(shù)據(jù)擴增方案，能夠穩(wěn)定、顯著地提升低資源語音識別任務(wù)的效果。

非受限賽道7個語種的成績

而在非受限賽道上，雖然可以利用公開的語音數(shù)據(jù)，但數(shù)據(jù)總量仍只有數(shù)百小時，而且語音數(shù)據(jù)和文本數(shù)據(jù)的量級差距十分明顯，這對于端到端識別框架來說，弊端更為明顯。

為了在端到端統(tǒng)一框架下，充分使用少量語音數(shù)據(jù)和海量文本數(shù)據(jù)，團隊提出了基于語音和文本統(tǒng)一空間表達的半監(jiān)督語音識別框架USRS-ASR：

文本掩碼語言模型任務(wù)、合成數(shù)據(jù)語音識別兩個目標，兩個任務(wù)聯(lián)合訓練以充分利用海量無監(jiān)督文本；
共享語言解碼模塊，實現(xiàn)了語音和文本隱層表達空間的統(tǒng)一，大大緩解了低資源語種的數(shù)據(jù)稀疏問題。

頂天立地，22年堅守

讓機器能聽會說，能理解會思考的這條路上，科大訊飛一直攀登22年之久。

一次拿下15個語種22項第一，讓機器可以讀懂40種語言等重大成果，都體現(xiàn)了訊飛在人工智能領(lǐng)域一直有著頂天立地的追求和堅守。

那么，科大訊飛為什么擔起這個角色？

人工智能的發(fā)展不在僅限于如何讓AI的一項技能訓練到爐火純青的境界，而在于如何讓其更智能，也就是能夠抵達通用人工智能。

而當前，人機交互是大勢所趨。萬物互聯(lián)，語音便成為人機交互關(guān)鍵入口，包括語音輸入、語音搜索、語音交互等技術(shù)已經(jīng)成為手機、車載、玩具等智能產(chǎn)品的標配。

據(jù)統(tǒng)計，2020年即便在疫情情況下，我國電子及汽車類出口總額也超過了3000億美元，這些出口的智能設(shè)備對多語種技術(shù)有著強烈的需求。

此外，「一帶一路」的建設(shè)依賴語言互通，多語種翻譯技術(shù)價值凸顯。

近年來，多語種語音語言技術(shù)涉及國家安全信心等重大方向，成為Nuance、谷歌等科技巨頭競相布局的關(guān)鍵技術(shù)方向。

再加上國際形勢不確定，技術(shù)競爭十分激烈，因此亟待解決國內(nèi)自主研發(fā)問題，打破多語種技術(shù)被卡脖子問題。

在這樣背景下，科大訊飛擔起了這個重任，在大規(guī)模多語種語音語言技術(shù)的研發(fā)上投入大量精力，期望能夠破解多語種技術(shù)難題。

近一年來，訊飛在重點語種上進行不斷的迭代演進，并在語音識別，語音合成，圖文識別，機器翻譯這些方面取得了一系列新的進展。

比如，24個語種的合成自然度MOS分超過4.0，35個語種聽寫場景語音識別正確率超過90%，18個語種文檔拍照場景正確率大于90%，36個語種口語場景人工分忠實度大于4.0。

領(lǐng)先的多語種語音語言技術(shù)有力支撐了科大訊飛智能硬件產(chǎn)品創(chuàng)新及應(yīng)用。

就拿多語種翻譯來說，2016年發(fā)布的訊飛翻譯機開創(chuàng)了AI翻譯機新品類，先后推出了4代，覆蓋全球近200個國家和地區(qū)，2019年提供的翻譯服務(wù)超過5億人次。

今年5月份又發(fā)布了雙屏翻譯機，可以做到精準實時的翻譯，而且有很多語種選擇。

它光是中外互譯就多達60種，還有5種中文方言與英語互譯，2種難懂的民族語言（藏語和維吾爾語）也能與普通話互譯。

用戶可以一邊說另一邊就能翻譯，只需按下時說話，松開即可翻譯，能做到0.5秒疾速響應(yīng)。

此外，訊飛的智能錄音筆，也可以支持10個語種的語音轉(zhuǎn)寫和分離。

就拿SR302來說，不僅支持粵語、重慶話、貴州話等12種方言轉(zhuǎn)寫，同時還可進行英語、日語、法語等10大語種的轉(zhuǎn)寫。

在多語種語言服務(wù)方面，訊飛聽見同傳系統(tǒng)已經(jīng)能夠支持9個語種的實時轉(zhuǎn)寫和翻譯字幕上屏。

前段時間，在中國駐歐盟使團與歐盟農(nóng)業(yè)總司共同舉辦中歐地理標志產(chǎn)品推廣視頻交流會上，訊飛聽見同傳全程提供轉(zhuǎn)寫技術(shù)服務(wù)，展現(xiàn)了其不俗實力。

目前，科大訊飛在多語種技術(shù)及應(yīng)用，也獲得國家領(lǐng)導和社會業(yè)界的廣泛認可。

并成為北京2022年冬奧會和冬殘奧會官方自動語音轉(zhuǎn)換與翻譯獨家供應(yīng)商，助力打造人類歷史上首個信息溝通無障礙的奧運會。

一路走來，正是對源頭技術(shù)的不懈攻堅，讓訊飛在語音合成、語音識別、機器閱讀理解等多項國際核心技術(shù)賽事上獲得冠軍，并樹立了人工智能發(fā)展史上的多個里程碑。

正如科大訊飛董事長劉慶峰所說，人工智能發(fā)展要頂天立地。

現(xiàn)在，訊飛不斷踐行這一「頂天立地」理念，未來還有很長的路要走，還有更高的山峰等著攀登。

責任編輯：張燕妮來源：新智元

AI 數(shù)據(jù)人工智能

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI能讀懂40種語言，15個語種拿22項第一，背后是中國團隊22年堅守

第一的背后

頂天立地，22年堅守