成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

無需「域外」文本,微軟:NLP就應該針對性預訓練

新聞 深度學習
在生物醫(yī)學這樣的專業(yè)領域訓練NLP模型,除了特定數(shù)據(jù)集,「域外」文本也被認為是有用的。但最近,微軟的研究人員「大呼」:我不這么覺得!

 [[337084]]

 

 

 

在生物醫(yī)學這樣的專業(yè)領域訓練NLP模型,除了特定數(shù)據(jù)集,「域外」文本也被認為是有用的。但最近,微軟的研究人員「大呼」:我不這么覺得!

什么是預訓練?

這是一個拷問人工智能「門外漢」的靈魂問題。

生而為人,我們不需要一切從零開始學習。但是,我們會「以舊學新」,用過去所學的舊知識,來理解新知識和處理各種新任務。

在人工智能中,預訓練就是模仿人類這個過程。

預訓練(pre-training)這個詞經(jīng)常在論文中見到,指的是用一個任務去訓練一個模型,幫助它形成可以在其他任務中使用的參數(shù)。

用已學習任務的模型參數(shù)初始化新任務的模型參數(shù)。通過這種方式,舊的知識可以幫助新模型從舊的經(jīng)驗中成功地執(zhí)行新任務,而不是從零開始。

以前的研究已經(jīng)表明,在像生物醫(yī)學這樣的專業(yè)領域,當訓練一個NLP模型時,特定領域的數(shù)據(jù)集可以提高準確性。不過,還有一個普遍的認識是,「域外」文本也有用。

[[337085]]

但是!微軟研究人員對這一假設提出了質(zhì)疑。

[[337086]]

近日,微軟研究人員提出一種人工智能技術,針對生物醫(yī)學NLP的領域特定語言模型預訓練。并自信地說,通過從公開的數(shù)據(jù)集中編譯一個「全面的」生物醫(yī)學NLP基準,在包括命名實體識別、基于證據(jù)的醫(yī)學信息提取、文檔分類等任務上取得了最先進的成果。

他們認為,「混合領域」預訓練?不就是遷移學習的另一種形式嗎?源領域是一般文本(如新聞),目標領域是專門文本(如生物醫(yī)學論文)。

在此基礎上,針對特定領域的生物醫(yī)學NLP模型的預訓練總是優(yōu)于通用語言模型的預訓練,說明「混合領域」預訓練并不完美。

神經(jīng)語言模型預訓練的兩種范式。「混合領域」預訓練(上);只使用域內(nèi)文本預訓練(下)

如此自信,研究人員是有證據(jù)的。

他們通過對生物醫(yī)學NLP應用的影響,比較了訓練前的建模和特定任務的微調(diào)。

第一步,他們創(chuàng)建了一個名為生物醫(yī)學語言理解和推理基準(BLURB)的基準,該基準側重于PubMed(一個生物醫(yī)學相關的數(shù)據(jù)庫)提供的出版物,涵蓋了諸如關系提取、句子相似度和問題回答等任務,以及諸如是/否問題回答等分類任務。為了計算總結性分數(shù),BLURB中的語料庫按任務類型分組,并分別打分,之后計算所有的平均值。

為了評估,他們又在最新的PubMed文檔中生成了一個詞匯表并訓練了一個模型:1400萬篇摘要和32億個單詞,總計21GB。在一臺擁有16個V100顯卡的Nvidia DGX-2機器上,培訓了大約5天時間。這個模型具有62,500步長和批量大小,可與以前生物醫(yī)學預訓練實驗中使用的計算量相媲美。

又一個自信,研究人員說他們的模型——PubMedBERT,是建立在谷歌的BERT之上。

那個牛掰掰的BERT?Google 在 2018 年提出的一種 NLP 模型,成為最近幾年 NLP 領域最具有突破性的一項技術。

[[337087]]

但有趣的是,將PubMed的全文添加到預訓練文本(168億字)中會讓性能略有下降,直到預訓練時間延長。但研究人員將這部分歸因于數(shù)據(jù)中的噪聲。

“在本文中,我們挑戰(zhàn)了神經(jīng)語言預訓練模型中普遍存在的假設(就是前面說的「混合領域」預訓練),并證明了從「無」開始對特定領域進行預訓練可以顯著優(yōu)于「混合領域」預訓練。「為生物醫(yī)學NLP的應用帶來了新的、最先進的結果,」研究人員寫道,「我們未來會進一步探索特定領域的預培訓策略,將BLURB基準擴展到臨床或其他高價值領域。」

為了鼓勵生物醫(yī)學NLP的研究,研究人員創(chuàng)建了一個以BLURB基準為特色的排行榜。他們還以開源的方式發(fā)布了預先訓練過的特定任務模型。

研究已發(fā)布于預印論文網(wǎng)站arxiv上。

 

 

責任編輯:張燕妮 來源: 新智元
相關推薦

2020-12-08 13:23:34

程序員熬夜加班

2012-05-29 14:15:43

程序員

2022-02-08 12:15:25

Spring微服務Spring Clo

2013-02-19 09:23:58

2010-10-14 09:41:02

2021-11-15 10:00:22

模型人工智能NLP

2012-11-05 10:35:59

程序員程序發(fā)布程序BUG

2012-11-05 10:17:33

編程開發(fā)程序

2016-10-13 18:03:13

云計算PaaSIaaS

2011-09-05 17:12:17

2021-06-17 14:05:49

卡巴斯基安全

2014-10-22 10:49:17

2010-10-18 17:58:49

2017-07-13 16:23:42

容器技術工具

2021-09-05 06:16:26

勒索攻擊勒索軟件攻擊

2020-10-26 15:48:32

NLP自然語言處理數(shù)據(jù)

2021-12-02 22:25:50

Windows 10Windows微軟

2012-05-24 09:52:10

2013-07-29 16:09:07

2009-06-16 16:17:35

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www.久久.com | 一区二区三区国产好的精 | 51ⅴ精品国产91久久久久久 | 99精品视频一区二区三区 | 亚洲最大看片网站 | 毛片1| 日韩精品1区2区 | 日本亚洲精品 | 亚洲综合大片69999 | 一区二区三区在线免费 | 欧美成人a∨高清免费观看 欧美日韩中 | 欧美全黄| 鸡毛片| 欧美国产视频 | 成人国产精品久久 | 国产色片在线 | 在线观看国产www | 不用播放器看的av | 精品一区二区电影 | 亚洲国产aⅴ精品一区二区 免费观看av | 一区二区三区四区在线视频 | 玖草资源| 日韩久久久久 | 国内精品免费久久久久软件老师 | 大香网伊人 | 亚洲激情第一页 | 婷婷色网 | 欧美精品一区二区在线观看 | 久久久高清 | 亚洲精品在线国产 | 国产一级毛片视频 | 久久久久se| 毛片免费观看视频 | 亚洲午夜精品在线观看 | 国产精久久久久久 | 91在线观看免费视频 | 精品一二三区视频 | 日本在线播放一区二区 | 国产精品久久久久久久久久尿 | 中文字幕成人 | 国外激情av |