谷歌發布TyDi QA語料庫,涵蓋11種不同類型語言
為了鼓勵對多語言問答技術的研究,谷歌發布了 TyDi QA,這是一個涵蓋了 11 種不同類型語言的問答語料庫。
問答技術幫助人們在日常生活中遇到問題時,如“烏賊的墨汁可以安全食用嗎?”之類的問題,用戶可以通過詢問語音助理或鍵入搜索內容并期望 得到答案。去年,我們向研究社區發布了英語版的 自然問題 數據集,以提供反映真實用戶需求的 挑戰。然而,世界上還有成千上萬不同的語言,其中許多語言使用非常不同的方法來構造語義。例如,在英語中,一個物體(“book”)和多個物體(“books”);而在阿拉伯語中,也有第三種形式表示,除了單數(“كتاب”,kitab)或復數(“كتب”, kutub)之外,還有表示兩個物體 (“كتابان”,kitaban) 。此外,有一些語言,如日語,在單詞之間并不使用空格。要創建這樣一種機器學習系統,能夠理解語言表達意義的多種方式,真不啻為一項挑戰,而訓練這樣的系統,需要從它們將應用到的不同語言中獲得樣本。
為了鼓勵對多語言問答技術的研究,今天,我們發布了 TyDi QA,這是一個涵蓋了 11 種不同類型語言的問答語料庫。在我們的論文《TyDi QA:不同類型語言中信息查詢問答系統的基準》(TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages)中描述,我們的語料庫的靈感來自于 類型多樣性,這是一種概念,即不同的語言以不同的結構方式來表達意義。因為我們為這個語料庫選擇了一組在類型上彼此相距較遠的語言,我們期望,在這個數據集上表現良好的模型,能夠推廣到世界上的大量語言。
類型多樣的語言集
TyDi QA 包括了來自 11 種語言的超過 200000 個問答對,代表了一系列不同的語言現象和數據挑戰。其中許多語言使用的是非拉丁字母,如阿拉伯語、孟加拉語、韓語、俄語、泰盧固語(Telugu)和泰語。還有一些單詞的構成方式很復雜,如阿拉伯語、芬蘭語、印尼語、斯瓦希里語(Kiswahili)、俄語等。日語使用四種字母,如:
由四種顏色表示,而韓文字母本身具有很強的組合型。這些語言的范圍也很廣,從網上有很多可用數據(如英語和阿拉伯語)到只有很少的數據(如孟加拉語和斯瓦希里語)。我們期望,能夠應對這些挑戰的系統將在許多語言中取得成功。
創建真實數據
研究社區使用的許多早期 QA 數據集都是這樣創建的:首先給人們一篇文章,然后要求他們根據閱讀文章的內容寫出問題來創建。然而,由于人們在寫下每個問題時都能夠看到答案,這種方法產生的問題往往包含與答案相同的單詞。因此,針對這類數據進行訓練的機器學習算法更傾向于單詞匹配,而忽略了滿足用戶需求所需的更細微的答案。
為了構建一個更自然的數據集,我們從那些想要得到答案但還不知道答案的人那里收集了問題。為了激發問題的靈感,我們向人們展示了維基百科(Wikipedia)用他們的母語寫成的一段有趣的內容。然后,我們讓他們提一個問題,任何問題都可以,只要我給他們看的內容沒有回答,并且他們實際上想知道答案。這類似于當你在大街上閑逛時,你的好奇心可能會引發關于你所看到的有趣事物的問題。我們鼓勵他們在提出問題時發揮想象力。比如,一篇關于冰的文章,會讓你想到夏天的冰棒嗎?棒極了!問問是誰發明了冰棒。重要的是,問題是直接用某種語言寫就的,而不是翻譯,因此許多問題不同于那些在英語版語料庫中看到的問題。孟加拉語中有一個問題:“সফেদা ফল খেতে কেমন?”(人心果(Sapodilla)是什么味道?)從來沒聽說過人心果嗎?這可能是因為人心果在印度比美國更常見。
對于這些問題中的每一個,我們在 Google 上用適當的語言搜索最匹配的維基百科的文章,并要求提問者在文章中查找并高亮顯示答案。雖然我們預料到當提問者沒有找到答案時,問題和答案之間會有一些有趣的分歧,但結合世界語言中驚人的廣泛語言現象,我們發現情況甚至更為復雜。
例如,在芬蘭語中,有一些有趣的例子,在問題和回答中,day 和 week 這兩個詞的表達方式就非常不同。要成功從整個維基百科文章中選擇這個答案句子,系統需要能夠識別出芬蘭語詞匯 viikonpäivät、seitsenpäiväinen 和 viikko 之間的關系。
作為研究社區共同取得進展
我們希望,這個數據集能夠推動研究社區進行創新,為世界各地的用戶創建更有用的問答系統。為了跟蹤社區的進展,我們建立了一個 排行榜,參與者可以在其上評估他們的機器學習系統的質量,我們還開源了一個使用該數據集的 問答系統。要查看排行榜并了解更多信息,請訪問挑戰網站。
作者介紹:
Jonathan Clark,Google Research 研究科學家。