成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌發布TyDi QA語料庫,涵蓋11種不同類型語言

新聞 機器學習
為了鼓勵對多語言問答技術的研究,谷歌發布了 TyDi QA,這是一個涵蓋了 11 種不同類型語言的問答語料庫。

 [[315942]]

為了鼓勵對多語言問答技術的研究,谷歌發布了 TyDi QA,這是一個涵蓋了 11 種不同類型語言的問答語料庫。

問答技術幫助人們在日常生活中遇到問題時,如“烏賊的墨汁可以安全食用嗎?”之類的問題,用戶可以通過詢問語音助理或鍵入搜索內容并期望 得到答案。去年,我們向研究社區發布了英語版的 自然問題 數據集,以提供反映真實用戶需求的 挑戰。然而,世界上還有成千上萬不同的語言,其中許多語言使用非常不同的方法來構造語義。例如,在英語中,一個物體(“book”)和多個物體(“books”);而在阿拉伯語中,也有第三種形式表示,除了單數(“كتاب”,kitab)或復數(“كتب”, kutub)之外,還有表示兩個物體 (“كتابان”,kitaban) 。此外,有一些語言,如日語,在單詞之間并不使用空格。要創建這樣一種機器學習系統,能夠理解語言表達意義的多種方式,真不啻為一項挑戰,而訓練這樣的系統,需要從它們將應用到的不同語言中獲得樣本。

為了鼓勵對多語言問答技術的研究,今天,我們發布了 TyDi QA,這是一個涵蓋了 11 種不同類型語言的問答語料庫。在我們的論文《TyDi QA:不同類型語言中信息查詢問答系統的基準》(TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages)中描述,我們的語料庫的靈感來自于 類型多樣性,這是一種概念,即不同的語言以不同的結構方式來表達意義。因為我們為這個語料庫選擇了一組在類型上彼此相距較遠的語言,我們期望,在這個數據集上表現良好的模型,能夠推廣到世界上的大量語言。

類型多樣的語言集

TyDi QA 包括了來自 11 種語言的超過 200000 個問答對,代表了一系列不同的語言現象和數據挑戰。其中許多語言使用的是非拉丁字母,如阿拉伯語、孟加拉語、韓語、俄語、泰盧固語(Telugu)和泰語。還有一些單詞的構成方式很復雜,如阿拉伯語、芬蘭語、印尼語、斯瓦希里語(Kiswahili)、俄語等。日語使用四種字母,如:

谷歌发布TyDi QA语料库,涵盖11种不同类型语言

由四種顏色表示,而韓文字母本身具有很強的組合型。這些語言的范圍也很廣,從網上有很多可用數據(如英語和阿拉伯語)到只有很少的數據(如孟加拉語和斯瓦希里語)。我們期望,能夠應對這些挑戰的系統將在許多語言中取得成功。

創建真實數據

研究社區使用的許多早期 QA 數據集都是這樣創建的:首先給人們一篇文章,然后要求他們根據閱讀文章的內容寫出問題來創建。然而,由于人們在寫下每個問題時都能夠看到答案,這種方法產生的問題往往包含與答案相同的單詞。因此,針對這類數據進行訓練的機器學習算法更傾向于單詞匹配,而忽略了滿足用戶需求所需的更細微的答案。

為了構建一個更自然的數據集,我們從那些想要得到答案但還不知道答案的人那里收集了問題。為了激發問題的靈感,我們向人們展示了維基百科(Wikipedia)用他們的母語寫成的一段有趣的內容。然后,我們讓他們提一個問題,任何問題都可以,只要我給他們看的內容沒有回答,并且他們實際上想知道答案。這類似于當你在大街上閑逛時,你的好奇心可能會引發關于你所看到的有趣事物的問題。我們鼓勵他們在提出問題時發揮想象力。比如,一篇關于冰的文章,會讓你想到夏天的冰棒嗎?棒極了!問問是誰發明了冰棒。重要的是,問題是直接用某種語言寫就的,而不是翻譯,因此許多問題不同于那些在英語版語料庫中看到的問題。孟加拉語中有一個問題:“সফেদা ফল খেতে কেমন?”(人心果(Sapodilla)是什么味道?)從來沒聽說過人心果嗎?這可能是因為人心果在印度比美國更常見。

對于這些問題中的每一個,我們在 Google 上用適當的語言搜索最匹配的維基百科的文章,并要求提問者在文章中查找并高亮顯示答案。雖然我們預料到當提問者沒有找到答案時,問題和答案之間會有一些有趣的分歧,但結合世界語言中驚人的廣泛語言現象,我們發現情況甚至更為復雜。

例如,在芬蘭語中,有一些有趣的例子,在問題和回答中,day 和 week 這兩個詞的表達方式就非常不同。要成功從整個維基百科文章中選擇這個答案句子,系統需要能夠識別出芬蘭語詞匯 viikonpäivät、seitsenpäiväinen 和 viikko 之間的關系。 

谷歌发布TyDi QA语料库,涵盖11种不同类型语言

作為研究社區共同取得進展

我們希望,這個數據集能夠推動研究社區進行創新,為世界各地的用戶創建更有用的問答系統。為了跟蹤社區的進展,我們建立了一個 排行榜,參與者可以在其上評估他們的機器學習系統的質量,我們還開源了一個使用該數據集的 問答系統。要查看排行榜并了解更多信息,請訪問挑戰網站。

作者介紹:

Jonathan Clark,Google Research 研究科學家。

 

責任編輯:張燕妮 來源: AI前線
相關推薦

2019-10-30 08:55:33

谷歌人工智能技術

2023-07-19 09:50:25

人工智能算法

2023-04-14 14:54:29

2020-08-27 07:00:00

游戲游戲測試測試技術

2010-04-26 12:19:28

Oracle 數據庫

2022-05-09 14:28:31

NFT區塊鏈代幣

2021-12-02 10:16:10

機器人編程語言計算機語言

2023-03-24 16:21:08

2014-11-17 15:51:57

機器翻譯應用

2010-12-16 10:54:07

SSL VPNVPN

2011-03-30 08:27:48

C#

2023-07-25 16:04:18

網絡電纜光纖

2017-11-03 15:58:08

2023-04-18 16:31:00

2024-01-02 14:56:37

K8s部署應用程序

2010-03-01 17:35:29

WCF協定

2022-07-07 09:27:26

Syslinux加載程序

2010-05-10 09:48:46

Oracle優化器
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 丁香久久 | 国产精品久久久久久久久久软件 | 日韩午夜影院 | 最新中文字幕在线 | 风间由美一区二区三区在线观看 | 做a的各种视频 | 夜久久| 国产一区二区激情视频 | 日韩欧美在线一区二区 | 欧洲精品码一区二区三区免费看 | 在线免费av电影 | 久久伊人精品 | 国产高清在线精品一区二区三区 | 91精品国产91久久久久久 | 精品小视频 | 在线观看亚洲专区 | 亚洲精品美女视频 | 久久亚洲欧美日韩精品专区 | 国产欧美一区二区三区国产幕精品 | 久久久久久黄 | 国产一卡二卡三卡 | 亚洲 自拍 另类 欧美 丝袜 | 国产精品一区二区在线播放 | 天天干在线播放 | 精品国产一区二区在线 | 久久久久久久一区二区三区 | 天天影视色综合 | 91免费观看在线 | 18av在线播放 | 日韩一区不卡 | 亚洲国产高清在线 | 成人av一区 | 亚洲精品一区二区在线观看 | 成人免费视频一区二区 | 岛国午夜 | 中文字幕综合 | h免费观看 | 中文av在线播放 | 国产成人免费观看 | www.国产精 | 国产一区二区三区在线看 |