成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

行業首個少樣本NER數據集,清華聯合阿里達摩院開發

新聞 人工智能
共包含來自維基百科的18萬條句子,49萬個實體和460萬標注,并具有8個粗粒度(coarse-grained types)實體類型和66個細粒度(fine-grained types)實體類型的數據集來了。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

NER(命名實體識別)作為NLP的一項基本任務,其日常是訓練人工智能(zhang)對一段文本中的專有名詞(人名、地名、機構名等)進行識別和分類。

[[401469]]

△煙臺:我招誰惹誰了?

翻譯成計算機語言,就是從一段非結構化的自然語言中找到各種實體,并將其分為合適的類別。且避免出現“江大橋同志到底就任了多少年南京市長”這樣的問題

但在數據缺乏,樣本不足的前提下,如何基于先驗知識進行分類和學習,這就是目前NLPer面臨的一道難題——少樣本(Few-Shot)。

雖然已有越來越多針對少樣本NER的研究出現(比如預訓練語言模型BERT),但仍沒有一個專屬數據集以供使用。

而現在,共包含來自維基百科的18萬條句子,49萬個實體和460萬標注,并具有8個粗粒度(coarse-grained types)實體類型和66個細粒度(fine-grained types)實體類型的數據集來了。

行業首個少樣本NER數據集,清華聯合阿里達摩院開發

△目前已被ACL-IJCNLP 2021接受

這就是清華大學聯合阿里達摩院共同開發的,行業內第一個人工標注(human-annotated)的少樣本NER數據集,FEW-NERD

什么樣的數據集?

對比句子數量、標記數、實體類型等統計數據,FEW-NERD比相關領域內已有的NER數據集都要更大。

行業首個少樣本NER數據集,清華聯合阿里達摩院開發

此外,它也是規模最大的人工標注的數據集。

為實體命名常常需要聯系上下文,尤其是在實體類型很多時,注解難度將大大增加。

而FEW-NERD的注釋來自70位擁有語言學知識的注釋者,以及10位經驗豐富的專家。

具體而言,每個段落會交由兩人獨立完成注釋,然后由專家審查,再對分批抽取數據進行雙重檢查。這很好地保證了注釋的準確性。

行業首個少樣本NER數據集,清華聯合阿里達摩院開發

比如上述“London is the fifth album by the British rock band…”這句話中的實體“London”,就被準確標注成了“Art-Music”。

而在以段落為單位進行標注時,因為樣本量并不多,所以FEW-NERD數據的類別分布預計是相對平衡的,這也是它與以往NER數據集的一個關鍵區別。

并且在實踐中,大多數未見的實體類型都是細粒度的。而傳統的NER數據集(如CoNLL’03、WNUT’17、OntoNotes)只包含4-18個粗粒度的類型。

這就難以構建足夠多的N元任務(N-way metatasks),并訓練學習相關特征。

相比之下,FEW-NERD共包含了112個實體標簽, 并具有8個粗粒度實體類型,和66個細粒度實體類型。

行業首個少樣本NER數據集,清華聯合阿里達摩院開發

△內圈代表粗粒度的實體類型,外圈代表細粒度的實體類型。

基準的選擇

為了探索FEW-NERD所有實體類型之間的知識相關性(knowledge correlations),研究者進行了實體類型相似性的實證研究。

行業首個少樣本NER數據集,清華聯合阿里達摩院開發

△方塊代表兩個實體類型的相似度。

從實驗結果得知,相同粗粒度類型的實體類型具有較大的相似性,從而使知識遷移更加容易。

這啟發了研究者從知識遷移的角度進行基準設定。最終設置了三個基準:

  • FEW-NERD (SUP)
    采用標準的監督式NER設置,將70%的數據隨機分割為訓練數據,10%為驗證數據,20%為測試數據。
行業首個少樣本NER數據集,清華聯合阿里達摩院開發
  • FEW-NERD(INTRA)
    少樣本學習任務,只包含粗粒度實體類型。
行業首個少樣本NER數據集,清華聯合阿里達摩院開發
  • FEW-NRTD (INTER)
    少樣本學習任務,包含60%的細粒度類型,20%的細粒度類型。
行業首個少樣本NER數據集,清華聯合阿里達摩院開發

實際的應用

針對少樣本命名實體識別,FEW-NERD提供了一個同時包含粗粒度和細粒度,且統一基準的大型數據集。

而作者也指出,由于精確的上下文標注,FEW-NERD數據集不僅可以用于少樣本場景,在監督學習、終身學習、開放信息抽取、實體分類等任務上也可以發揮作用。

此外,建立在FEW-NERD基礎上的模型和系統,還能幫助構建各個領域的知識圖譜(KGs),包括生物醫學、金融和法律領域,并進一步促進NLP在特定領域的應用發展。

開發者還表示,將在未來增加跨域注釋、遠距離注釋和更精細的實體類型來擴展FEW-NERD。

數據集官網鏈接:
https://ningding97.github.io/fewnerd/
數據集下載:
https://github.com/thunlp/Few-NERD
論文地址:
https://arxiv.org/abs/2105.07464

 

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2022-04-22 11:22:47

達摩院阿里巴巴

2021-07-28 17:04:51

阿里云信通院云計算

2023-06-06 14:16:06

ChatGPTAI

2020-12-29 09:36:57

科技趨勢阿里

2020-01-02 11:19:55

阿里巴巴2020科技趨勢5G

2022-08-17 10:39:44

AI阿里達摩院文檔智能

2018-04-20 09:08:10

AI芯片阿里巴巴

2017-10-11 20:03:51

阿里云南京云棲

2023-10-22 07:11:58

2022-07-12 14:45:54

達摩院模型

2022-08-10 11:31:34

阿里達摩院虛擬電廠

2023-02-09 09:29:53

ChatGPT

2020-02-17 11:08:06

AI 數據人工智能

2020-09-18 15:10:25

阿里達摩院數據

2022-07-19 14:01:44

阿里達摩院AI

2018-06-07 16:00:28

阿里巴巴語音識別開源

2017-10-12 13:30:33

2023-07-05 09:57:11

2013-01-29 11:12:52

藍訊CDN網絡加速網絡優化

2021-12-02 13:43:42

達摩院AliceMind人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 综合国产 | 免费看a | 国产中文字幕在线 | 北条麻妃国产九九九精品小说 | 亚洲福利一区 | 国产高清在线精品 | 国精产品一区二区三区 | 欧洲一区二区视频 | 人妖videosex高潮另类 | 成人av电影免费在线观看 | 日本亚洲一区 | 成人av一区二区三区 | 久久久久国产精品午夜一区 | 欧美性猛交一区二区三区精品 | 亚洲国产视频一区二区 | 日本一区二区高清不卡 | 国产高清自拍视频在线观看 | 国产精品久久久久久久久 | 欧美精品1区 | av久久| 日韩欧美在线视频播放 | 99热精品在线观看 | 一级a爱片久久毛片 | 色先锋影音 | 成人深夜福利在线观看 | 中国美女一级黄色片 | 欧美日韩一区二区三区不卡视频 | 久久精品国产精品青草 | 亚洲激情av| 国产亚洲精品久久久久久牛牛 | 91在线免费视频 | 雨宫琴音一区二区在线 | 中文字幕在线三区 | 在线观看三级av | 国产精品性做久久久久久 | 成年免费大片黄在线观看岛国 | 性国产xxxx乳高跟 | 干干天天| 日日爱视频 | 欧美激情精品久久久久久变态 | 亚洲精品不卡 |