Meta新模型NLLB獲Nature盛贊,200種瀕危語言高質量翻譯,「不讓任何語言掉隊」
Meta AI剛剛在社交媒體X上宣傳自家的大模型NLLB,全稱為No Language Left Behind,這個AI模型能夠翻譯200種語言,包括資源匱乏的語言。
更重要的是,NLLB模型可以免費提供給非商業用途。
這項研究刊登在了本周的Nature上,題為「Scalling neural machine translations to 200 languages」。
論文地址:https://www.nature.com/articles/s41586-024-07335-x
No Language Left Behind,意為「不讓任何一門語言掉隊」,是非常有人文關懷的技術描述。
Nature的社論也著重強調了這一點,發表了評論文章,稱贊Meta的這次發布。
縮小語言之間的數字鴻溝
在全世界使用的近7000種語言中,大約有一半被認為面臨滅絕的危險,一項研究預測,語言消亡的速度可能會在40年內增加兩倍。
少數語言在互聯網上占據主導地位,據統計,一半以上的網站都是英文的,前十種語言占據了80%以上的互聯網內容。
NLLB模型最大的價值在于,它提供了一種擴大「資源匱乏」型語言機器翻譯規模的方法,這些資源匱乏的語言幾乎沒有可獲取的數字資源。
通過艱辛的努力,Meta技術人員開墾了大片「無人區」——在它現在可以互翻的200多種語言中,許多語言是第一次被機器翻譯。
包括南非的茨瓦納語、達里語,阿富汗所使用的一種波斯語,波利尼亞的薩摩亞語等等。
這是非常有建設性的事業,因為這有助于縮小這些被忽視的語言與在線的更流行的語言(例如英語、法語和俄語)之間的數字鴻溝。
它可以讓資源匱乏語言的使用者能夠用他們的母語在線獲取知識,并可能通過引導這些語言進入數字時代來避免它們的滅絕。
人類專家助力NLLB
NLLB模型的研發團隊來自Meta AI、加州大學伯克利分校和約翰霍普金斯大學。
這些出色的科學家們共同開展了這個「不讓任何一門語言掉隊」計劃,他們選取了維基百科文章中出現的語言,但在線可用的示例翻譯句子不足100萬個。
這項工作將之前迭代的語言數量增加了一倍,并提高了翻譯質量。
NLLB團隊聘用了專業譯員和審校人員,創建了39種語言的「種子」數據集,并開發了一種技術,使他們能夠挖掘網絡數據,創建其余語言的并行數據集。
他們還為每種語言生成了一個包含約200個「有毒」詞匯的列表,以識別可能構成仇恨言論的翻譯。
人類專家的參與既耗時又昂貴,但卻至關重要。如果沒有他們,算法將只能使用AI生成的低質量數據進行訓練,然后在迭代過程中重復這些低質量和錯誤內容,進一步降低模型表現。
沒有參與Meta AI計劃的英國愛丁堡大學民族學/語言學教授William Lamb表示,這種情況已經發生在蘇格蘭蓋爾語中,這個語言的大多數在線內容都是由人工智能生成的。
William Lamb
蘇格蘭蓋爾語是Meta計劃中資源較少的語言之一,好在其內容都是經過專業翻譯的。
對于缺乏某些詞匯的語言來說,人類的專業知識也很重要。
例如,許多非洲語言沒有專門的科學概念術語。Decolonise Science研究項目聘用專業翻譯人員將180篇科學論文翻譯成6種非洲語言。
該項目由Masakhane發起,這是一個由對自然語言處理感興趣的研究人員組成的基層組織。
模型架構與性能
NLLB是一種利用跨語言遷移學習的單一大規模多語言模型,NLLB開發了一個基于稀疏門控混合專家(Sparsely Gated Mixture of Experts)架構的條件計算模型,使用針對資源匱乏語言定制的新挖掘技術獲得的數據進行訓練。
此外,團隊還設計了多項架構和訓練改進,以在對數千項任務進行訓練時抵消過度擬合。
為了檢測模型的性能,團隊使用了專門創建的工具——自動基準(FLORES-200)、人工評估指標(XSTS)和涵蓋模型中全部語言的「毒性」檢測器,評估了超過4萬個翻譯方向。
與之前的SOTA相比,根據BLEU(Bilingual Evaluation Understudy,一種基于分數的雙語評估方法)評分,NLLB模型翻譯質量平均提高了44%。
NLLB成功地將神經機器翻譯(NMT)擴展到了200種語言,并將這項工作中的所有發現免費提供給非商業用途,為通用翻譯系統的開發奠定了重要的基礎。
NLLB-200首次面世是在2022,自被推出以來,我們已經可以看到該模型在多個方向上的影響。
維基媒體報道稱,NLLB是維基百科編輯使用的第三大機器翻譯引擎(占所有已發布翻譯的3.8%)。與其他機器翻譯服務相比,使用NLLB-200翻譯的文章刪除率最低(0.13%),翻譯修改率最高不到10%。
模型發布之后——必不可少的社區互動
自動化翻譯方法確實可以為資源匱乏的語言帶來活力,但前提是大模型的研發公司能夠與使用這些語言的人持續進行互動。
機器學習模型的好壞取決于它們所輸入的數據——這些數據主要由人類創建,而光靠專家的翻譯,是遠遠供不應求的。
這也是研究人員和技術公司必須將使用這些語言的社區納入進來的原因之一。不僅是在創建機器翻譯系統的過程中,也包括用戶使用這些系統的過程,以反映真實情境下的人們如何使用這些語言。
Nature的研究人員表示,隨著機器翻譯工具的發展,其背后的公司必須繼續與技術所服務的社區互動,否則就有可能浪費該技術的承諾。
他們擔心如果大公司不這樣做,會加速這些語言及其相關文化的消亡。
如果沒有真實語言社區的參與,機器翻譯工作可能會成為另一種形式的「降落傘科學」(parachute science),即高收入國家的研究人員對低收入國家的社區的利用。
加拿大溫哥華島北島學院的語言復興專家、Kwakwaka'wakw族人Sara Child表示——
「這些詞語、句子和交流都沒有了語言中編碼的價值觀和信仰。隨著人工智能將更多語言推向數字空間,我擔心我們會失去更多自我」。
在急于建立通用翻譯系統的過程中,我們絕不能忽視人的因素。