成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

不拆分單詞也可以做NLP,哈工大最新模型在多項任務中打敗BERT

人工智能 新聞
現在,來自哈工大和騰訊AI Lab的研究人員,嘗試利用不做單詞拆分的詞匯表開發了一個BERT風格的預訓練模型——WordBERT。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

眾所周知,BERT在預訓練時會對某些單詞進行拆分 (術語叫做“WordPiece”)

比如把“loved”、loving”和loves”拆分成lov”、ed”、ing”和”es”。

目的是縮減詞表、加快訓練速度,但這樣一來,在某些時候反而會阻礙模型的理解能力

比如把”lossless”分成”loss”和”less”的時候。

現在,來自哈工大和騰訊AI Lab的研究人員,嘗試利用不做單詞拆分的詞匯表開發了一個BERT風格的預訓練模型——WordBERT

結果,這個WordBERT在完形填空測試和機器閱讀理解方面的成績相比BERT有了很大提高。

在其他NLP任務,比如詞性標注(POS-Tagging)、組塊分析(Chunking)和命名實體識別(NER)中,WordBERT的表現也都優于BERT。

由于不用分詞,這個WordBERT還可以直接進行中文訓練

更值得一提的是,它在性能提升的同時,推理速度并沒有變慢

可謂一舉多得。

NO WordPieces

與BERT類似,WordBERT包含兩個組件:詞向量(word embedding)和Transformer層。

和以前的模型一樣,WordBERT采用多層雙向Transformer來學習語境表示(contextualized representation)

word embedding則是用來獲得單詞向量表示的參數矩陣,與把單詞分成WordPiece的BERT相比,WordBERT的詞匯由完整的單詞組成。

他們用自然語言處理軟件包Spacy處理數據,生成了兩個詞匯表,一個規模為500K,一個為1M。

詞匯表中還被單獨添加了5個特殊單詞:[PAD]、[UNK]、 [CLS]、[SEP]和[MASK]。

通過不同的詞匯表規模、初始化配置和不同語言,最后研究人員一共訓練出四個版本的WordBERT:

WordBERT-500K、WordBERT-1M、WordBERT-Glove和WordBERT-ZH

它們的配置如上,嵌入參數都是隨機初始化的,嵌入維數和基準BERT保持一致。

其中WordBERT-Glove用的詞匯表是現成的Glove vocabulary,里面包含約190萬個未編碼的單詞,該模型由相應的單詞向量(word vectors)在WordBERT之上初始化而來。

WordBERT-ZH則是用中文詞匯訓練出來的WordBERT,它也保持了768的詞嵌入維數。

性能與速度兼具

在測試環節中,完形填空的測試數據集來自CLOTH,它由中學教師設計,通常用來對中國初高中學生進行入學考試。

其中既有只需在當前句子中進行推理的簡單題,也有需要在全文范圍內進行推理的難題。

結果如下:

△ M代表初中,H代表高中

WordBERT-1M獲得了最佳成績,并接近人類水平。

它在高中題比BERT高了3.18分,初中題高了2.59分,這說明WordBERT在復雜任務中具有更高的理解和推理能力

在詞性標注、組塊分析和命名實體識別(NER)等分類任務中,WordBERT的成績如下:

相比來看,它在NER任務上的優勢更明顯一些(后兩列)

研究人員推測,這可能是WordBERT在學習低頻詞的表征方面有優勢,因為命名實體(named entities)往往就是一些不常見的稀有詞。

對于“中文版”WordBERT-ZH,研究人員在CLUE benchmark上的各種任務中測試其性能。

除了BERT,對比模型還包括WoBERT和MarkBERT,這也是兩個基于BERT預訓練的中文模型。

結果,WordBERT-ZH在四項任務中都打敗了所有其他對比模型,在全部五項任務上的表現都優于基線BERT,并在TNEWS(分類)、OCNLI(推理)和CSL(關鍵字識別)任務上取得了3分以上的差距。

這說明,基于詞的模型對中文也是非常有效的。

最后,實驗還發現:

性能不差的WordBERT,在不同任務上的推理速度也并未“落于下風”。

關于作者

一作為哈工大計算機專業在讀博士生馮掌印,研究方向為NLP、文本生成。

他曾在微軟亞研院自然語言計算組、哈工大和科大訊飛聯合實驗室實習,在NLP領域的頂會ENNLP發表過一篇一作論文。

通訊作者為史樹明,來自騰訊AI Lab。

論文地址:

https://arxiv.org/abs/2202.12142

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-01-29 11:56:23

數據AI

2020-09-22 15:17:59

谷歌Android技術

2018-12-24 09:42:53

人工智能機器學習技術

2020-03-17 09:42:00

谷歌開源機器學習

2018-07-04 15:17:07

CNNNLP模型

2013-11-04 14:46:18

2024-07-29 08:09:36

BERT大型語言模型LLM

2020-01-18 14:50:13

開源GoogleNLP

2024-03-18 10:38:03

模型算法

2022-02-17 14:52:10

模型AI谷歌

2020-06-15 10:42:42

谷歌Android開發者

2020-10-26 15:48:32

NLP自然語言處理數據

2019-03-26 16:05:10

AI

2017-05-27 13:16:52

聯想企業網盤

2021-02-01 10:33:20

人工智能機器學習技術

2020-03-13 15:33:54

Google 開源技術

2024-07-19 12:48:29

2024-09-02 09:12:00

場景管理

2024-01-05 08:00:00

大型語言模型自然語言處理BERT

2023-04-10 16:34:46

模型文本
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区在线 | 欧 | 91精品国产综合久久久动漫日韩 | 日韩成人av在线 | 综合国产 | 亚洲精品一区二区三区中文字幕 | 欧美精品二区 | 亚洲自拍偷拍视频 | 欧美11一13sex性hd | 秋霞在线一区 | 欧美日韩精品一区二区三区四区 | 天天爽夜夜爽精品视频婷婷 | 天天天天天操 | 天天插天天搞 | 久久久久久国产 | 久久国产精品99久久久久久丝袜 | 在线看免费的a | www.操com | 在线观看成人小视频 | 午夜激情在线 | 日韩在线观看 | 美女久久久久 | 操一草| 国产激情自拍视频 | 人人爽日日躁夜夜躁尤物 | 亚洲精品在线观看视频 | 亚洲综合成人网 | 国产亚洲成av人片在线观看桃 | 亚洲国产一区二区三区在线观看 | 免费视频二区 | 欧美一区二区三区四区在线 | 亚洲综合在线播放 | 久久国产高清 | 99精品久久久 | 亚洲网站在线观看 | 精品一二三 | 成人做爰999| 亚洲高清久久 | 亚洲天堂成人在线视频 | 色就是色欧美 | 一级做a爰片久久毛片免费看 | 热99视频 |