成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta AI 多語言閱讀理解數據集 Belebele,涵蓋 122 種語言變體

開發 前端
研究人員利用這個數據集評估了多語言屏蔽語言模型(MLM)和大語言模型(LLM)的能力。結果表明,盡管以英語為中心的 LLM 有顯著的跨語言遷移能力,但在平衡的多語言數據上經過預訓練的更小的 MLM 仍然能理解更多的語言。

Meta AI 宣布推出一款涵蓋 122 種語言變體的多語言閱讀理解數據集,名為 Belebele。“我們希望這項工作能夠引發圍繞 LLM 多語言性的新討論”。

BELEBELE 是首個跨語言并行數據集,可以直接比較所有語言的模型性能。該數據集涵蓋了 29 種腳本和 27 個語系中不同類型的高、中、低資源語言。此外,還有 7 種語言包含在兩種不同的腳本中,從而為印地語、烏爾都語、孟加拉語、尼泊爾語和僧伽羅語的羅馬化變體制定了首個 NLP 基準。

該數據集可對單語和多語模型進行評估,但其并行性也可在一些跨語言環境中對跨語言文本表征進行評估。通過從相關質量保證數據集中收集訓練集,可以對任務進行全面微調評估。每個問題都基于 Flores-200 數據集中的一段短文,并有四個多項選擇答案。這些問題經過精心設計,以區分具有不同一般語言理解水平的模型。

  • 每種語言有 900 道題
  • 488 個不同段落,每個段落有 1-2 道相關問題。
  • 每道題有 4 個選擇答案,其中只有一個是正確的。
  • 122 種語言 / 語言變體(包括英語)。
  • 900 x 122 = 109,800 個問題。

研究人員利用這個數據集評估了多語言屏蔽語言模型(MLM)和大語言模型(LLM)的能力。結果表明,盡管以英語為中心的 LLM 有顯著的跨語言遷移能力,但在平衡的多語言數據上經過預訓練的更小的 MLM 仍然能理解更多的語言。且詞匯量越大、越有意識地構建詞匯,在低資源語言上的表現就越好。

責任編輯:武曉燕 來源: OSCHINA
相關推薦

2023-05-23 14:14:14

技術模型

2022-08-09 07:22:15

語言數據庫程序

2014-04-16 14:50:20

Spark

2024-11-25 15:30:00

語言模型數據

2021-08-09 10:03:03

數據開源語音

2011-08-05 17:54:33

Cocoa Touch 多語言

2012-04-19 11:40:21

Titanium

2014-07-09 09:20:06

WPFWPF應用

2009-08-25 10:44:50

C#實現多語言

2023-08-04 10:18:15

2024-05-09 08:14:09

系統設計語言多語言

2019-10-10 09:00:00

谷歌數據技術

2021-09-07 10:17:35

iOS多語言適配設計

2021-06-29 21:48:32

開源語言架構

2009-08-03 17:33:01

ASP.NET多語言支

2009-07-17 10:02:29

WPF程序多語言支持

2021-07-24 11:41:42

前端開發技術

2009-08-21 18:46:30

下載Server 20

2020-10-28 10:38:08

谷歌模型機器翻譯

2020-04-14 09:50:02

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产一区二区三区视频免费观看 | 国产欧美日韩一区二区三区在线 | 精品一二区 | 久久国产精品视频 | 精品动漫一区 | 国产九九九九 | 日韩精品免费播放 | 亚洲色综合 | 男女羞羞视频在线免费观看 | 亚洲狠狠 | 成人高潮片免费视频欧美 | 91国内精精品久久久久久婷婷 | 日韩成人精品一区二区三区 | 91精品国产综合久久久久久首页 | 日韩一二三区 | 中文字幕黄色大片 | 久久香焦 | 欧美成人免费在线 | 国产黑丝av | 中文字幕91 | 亚洲毛片在线观看 | 国产亚洲精品精品国产亚洲综合 | aaa大片免费观看 | 成人国产精品免费观看 | 欧美激情精品久久久久久免费 | 欧美专区在线 | 成人免费一区二区三区牛牛 | 久久久久久久久国产成人免费 | 国产一区在线免费 | 91久久精品国产91久久性色tv | 91精品国产91久久久久久吃药 | 91看片在线观看 | 久久九 | 久久尤物免费一区二区三区 | 亚洲成人精品国产 | 国产一级一级毛片 | 色久影院 | 91精品久久久久久久久中文字幕 | 国产国产精品久久久久 | 国产一区二区三区在线免费观看 | 91精品在线观看入口 |