國內(nèi)外頂尖高校聯(lián)合發(fā)布首個「新冠NLP數(shù)據(jù)集」METS-CoV|NeurIPS 2022
來自浙江大學(xué)、北京大學(xué)、哈佛醫(yī)學(xué)院、劍橋大學(xué)及西湖大學(xué)的交叉研究團(tuán)隊在NeurIPS 2022 Datasets and Benchmarks 發(fā)布數(shù)據(jù)集METS-CoV,是首個從醫(yī)學(xué)角度標(biāo)注新冠社交媒體文本的命名實體(NER)和目標(biāo)實體情感分析(TSA)的數(shù)據(jù),可幫助研究人員使用自然語言處理模型從社交媒體文本中挖掘更有價值的醫(yī)學(xué)信息。
發(fā)表會議:NeurIPS 2022
論文地址:https://arxiv.org/abs/2209.13773
GitHub地址:https://github.com/YLab-Open/METS-CoV
實驗室主頁:https://ylab.top
引言
近年來,新冠肺炎(COVID-19)的爆發(fā)對人們的生活產(chǎn)生了嚴(yán)重影響,給公共衛(wèi)生安全帶來了巨大挑戰(zhàn)。為了評估疫情對公眾的影響,流行病學(xué)專家及醫(yī)學(xué)研究人員一般通過臨床隨訪、問卷調(diào)查和應(yīng)用程序跟蹤等方式開展研究,但仍存在樣本規(guī)模小和即時性差等問題。
而社交媒體由于用戶群龐大、用戶參與度高且信息傳播速度快,已成為公眾發(fā)表其對新冠相關(guān)話題的評論和感受的重要渠道,使得開展大規(guī)模、低成本的新冠疫情追蹤研究成為可能。
進(jìn)一步地,通過社交媒體平臺(如Twitter)跟蹤和分析人們的觀點,可以推動醫(yī)學(xué)研究的發(fā)展及公共衛(wèi)生管理政策的指定,因此具有極大的研究價值。
然而,現(xiàn)有自然語言處理(NLP)工具一般面向通用領(lǐng)域開發(fā),對文本的質(zhì)量有著較為嚴(yán)格的要求,而社交媒體文本不同于正式文本,一般并不遵循嚴(yán)格的排版和語言規(guī)則,語言風(fēng)格更加隨意,這加大了現(xiàn)有NLP工具的分析難度,導(dǎo)致其準(zhǔn)確性下降。
此外,現(xiàn)有的NLP工具并非專門為醫(yī)學(xué)或公共衛(wèi)生研究而設(shè)計,因此難以滿足流行病學(xué)專家對于新冠相關(guān)主題分析的需求。
換言之,目前NLP工具之所以在新冠相關(guān)社交媒體文本上表現(xiàn)不佳,其根本原因在于缺乏從醫(yī)學(xué)角度設(shè)計和標(biāo)注的新冠相關(guān)社交媒體文本數(shù)據(jù)集。
另一方面,對于在社交媒體文本上開展的新冠相關(guān)研究,最重要的分析目標(biāo)之一是找到用戶討論的實體(包括通用實體類型和醫(yī)學(xué)實體類型)及對它們的觀點或態(tài)度。
對應(yīng)于兩個基本的NLP任務(wù):命名實體識別(NER)和目標(biāo)實體情感分析(TSA)。
NER旨在從非結(jié)構(gòu)化文本中提取實體信息,而TSA旨在預(yù)測用戶對目標(biāo)實體的情感極性。盡管目前已有不少面向通用領(lǐng)域或者特定領(lǐng)域如新聞、電商的NER和TSA數(shù)據(jù)集,但面向醫(yī)療領(lǐng)域社交媒體文本的數(shù)據(jù)集仍然空缺,這也加大了在社交媒體文本上進(jìn)行細(xì)粒度分析并開展新冠相關(guān)研究的難度。
在本文中,來自浙江大學(xué)、北京大學(xué)、哈佛醫(yī)學(xué)院、劍橋大學(xué)及西湖大學(xué)的交叉研究團(tuán)隊在NeurIPS 2022 Datasets and Benchmarks 發(fā)布數(shù)據(jù)集METS-CoV,是首個從醫(yī)學(xué)角度標(biāo)注新冠社交媒體文本的命名實體(NER)和目標(biāo)實體情感分析(TSA)的數(shù)據(jù),旨在幫助研究人員使用自然語言處理模型從社交媒體文本中挖掘更有價值的醫(yī)學(xué)信息。
該數(shù)據(jù)集包含10,000條推文,對4種醫(yī)學(xué)實體類型(疾病、藥物、癥狀和疫苗)和3種通用實體類型(人、地點和組織)進(jìn)行了人工標(biāo)注。
此外,為了研究用戶對特定實體的態(tài)度,標(biāo)注人員還對人、組織、藥物和疫苗四種實體的情感極性進(jìn)行了標(biāo)注。
與其他NER和TSA數(shù)據(jù)集不同,METS-CoV是從公共衛(wèi)生研究的角度構(gòu)建的,有助于自然語言處理工具在醫(yī)療領(lǐng)域的定制化開發(fā),從而促進(jìn)計算社會科學(xué)(特別是流行病學(xué))研究的開展。
例如,使用基于METS-CoV數(shù)據(jù)集訓(xùn)練的NER和TSA模型,研究人員可以追蹤公眾對新冠疫苗接種的態(tài)度,以制定更有效的疫苗政策;可以追蹤公眾在新冠傳播的不同階段的心理狀況,提供解決全球心理健康危機(jī)的潛在解決方案等。
為了保證數(shù)據(jù)集的質(zhì)量,研究者設(shè)計了詳細(xì)的標(biāo)注指南,使用的標(biāo)注人員均具有醫(yī)學(xué)相關(guān)教育背景。
進(jìn)一步地,基于METS-CoV數(shù)據(jù)集,研究者對NER和TSA任務(wù)上所采用的經(jīng)典機(jī)器學(xué)習(xí)模型和最先進(jìn)的深度學(xué)習(xí)模型進(jìn)行了性能基準(zhǔn)測試。測試結(jié)果表明,現(xiàn)有模型在METS-CoV數(shù)據(jù)集上還有較大的提升空間。
數(shù)據(jù)集描述
數(shù)據(jù)收集與標(biāo)注
研究者收集了從2020年2月1日到2021年9月30日期間用戶發(fā)表的新冠推文,所有推文均通過Twitter的官方API獲取,嚴(yán)格遵守平臺的數(shù)據(jù)安全政策。
在進(jìn)行數(shù)據(jù)預(yù)處理時,研究者首先刪除了非英語推文、轉(zhuǎn)推以及包含URL的推文(它們通常是第三方消息的重述,不能直接反映用戶的意圖和態(tài)度),然后,使用癥狀關(guān)鍵詞列表來篩選與醫(yī)學(xué)相關(guān)的推文。預(yù)處理完成后,還剩下2,208,676條推文。
METS-CoV的標(biāo)注過程可以劃分為兩個階段:命名實體標(biāo)注和目標(biāo)實體情感標(biāo)注。相應(yīng)的,METS-CoV數(shù)據(jù)集可以按照任務(wù)類型劃分為兩個數(shù)據(jù)子集,即METS-CoV-NER數(shù)據(jù)集和METS-CoV-TSA數(shù)據(jù)集。
所有標(biāo)注工作均通過YEDDA標(biāo)注平臺(https://github.com/jiesutd/YEDDA)完成,所有的標(biāo)注者都具有醫(yī)學(xué)教育背景,如醫(yī)學(xué)、公共衛(wèi)生和制藥科學(xué)等。
在進(jìn)行命名實體標(biāo)注時,研究者首先根據(jù)公共衛(wèi)生研究的需求,定義了 7 種實體類型,包括 3 種通用實體類型和 4 種醫(yī)學(xué)實體類型,接著,從預(yù)處理的推文中隨機(jī)采樣了 6,000 條推文進(jìn)行命名實體標(biāo)注。
然后使用這 6,000 條已標(biāo)注數(shù)據(jù)訓(xùn)練基于 BERT 的命名實體識別模型,由該模型完成其余推文的標(biāo)注。為了在數(shù)據(jù)集中包括更多的醫(yī)學(xué)實體,研究者從模型標(biāo)注的推文中篩選了 4,000 條包含藥物或疫苗實體的推文,由標(biāo)注人員進(jìn)行人工校驗并加入到數(shù)據(jù)集中。
最終,構(gòu)建好的METS-CoV-NER數(shù)據(jù)集中一共包含了 10,000 條推文。
進(jìn)一步地,研究者選擇了人、組織、藥物和疫苗四種實體作為目標(biāo)實體并從METS-CoV-NER數(shù)據(jù)集中篩選出包含目標(biāo)實體的推文,標(biāo)注人員根據(jù)目標(biāo)實體所在的上下文標(biāo)注其情感極性。
情感極性標(biāo)簽一共有3種:積極、消極和中性。最終,METS-CoV-TSA數(shù)據(jù)集中一共包含5,278條推文。
數(shù)據(jù)集統(tǒng)計信息
大多數(shù)推文的長度都小于80個token。其中,長度為50左右的推文占比最高。
METS-CoV中推文長度的分布情況
推文總數(shù)為10,000條, 一共標(biāo)注了19,057個實體,平均每個推文中包含了1.91個實體。在所有實體中,癥狀實體的出現(xiàn)頻率最高,這是由于在預(yù)處理階段使用了癥狀關(guān)鍵詞列表進(jìn)行數(shù)據(jù)預(yù)過濾。
除了癥狀實體以外,其他六種實體類型的比例均衡。
METS-CoV-NER數(shù)據(jù)集的統(tǒng)計信息
在METS-CoV-TSA數(shù)據(jù)集的統(tǒng)計信息中可以發(fā)現(xiàn),中性情感占據(jù)的比例最高。對于藥物實體來說,用戶的正面情感明顯高于負(fù)面情感,而對于疫苗實體,用戶的正負(fù)面情感比例相近。
模型基準(zhǔn)測試
在本文中,研究者系統(tǒng)評估了統(tǒng)計機(jī)器學(xué)習(xí)模型、神經(jīng)網(wǎng)絡(luò)、通用領(lǐng)域大規(guī)模預(yù)訓(xùn)練語言模型(PLM)以及新冠相關(guān)的PLM四大類模型在METS-CoV-NER和METS-CoV-TSA上的性能,并進(jìn)行了深入的分析和討論。
命名實體識別
baseline模型
包括CRF、WLSTM、CCNN、CLSTM、BERT、RoBERTa、BART、BERTweet-covid19和COVID-TWITTER-BERT。所有實驗使用NCRF++(https://github.com/jiesutd/NCRFpp)完成。模型的超參數(shù)使用Yang等人(2018a)的默認(rèn)設(shè)置。
數(shù)據(jù)處理
按照70:15:15的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集,統(tǒng)計結(jié)果見表1。
實驗結(jié)果:研究者使用micro-F1來評估所有的模型,表3展示了測試結(jié)果。從該表中可以發(fā)現(xiàn),COVID-TWITTER-BERT性能表現(xiàn)最佳,平均micro-F1值為83.88,顯著優(yōu)于基于CRF或BiLSTM(及其變體)的傳統(tǒng)NER模型和通用領(lǐng)域PLM。
進(jìn)一步地,研究者從統(tǒng)計機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、通用領(lǐng)域PLM和新冠相關(guān)PLM四大類別中選擇每個類別中表現(xiàn)最佳的模型,即CRF、WLSTM+CCNN+CRF、RoBERTa-large和COVID-TWITTER-BERT,采用Span F1和Type Accuracy(Type Acc.)兩大指標(biāo)來評估它們的性能。
Span F1表示NER中實體范圍的正確性,而Type Acc.指標(biāo)則表示預(yù)測實體中范圍和類型均預(yù)測正確的實體占所有預(yù)測實體的比例。
如表4和表5所示,COVID-TWITTER-BERT在兩個指標(biāo)上的平均表現(xiàn)最佳,其次是RoBERTa-large。
具體來說,COVID-TWITTER-BERT在人物和組織實體上的表現(xiàn)比RoBERTa-large更好,在Span F1方面分別提高了3.72%和2.53%。對于Type Acc指標(biāo),COVID-TWITTER-BERT在四種實體類型(人物、地點、組織和藥物)上的表現(xiàn)最好。這些結(jié)果驗證了在新冠相關(guān)推文上對語言模型進(jìn)行增量預(yù)訓(xùn)練的有效性。
此外,研究者還探究了推文長度對模型性能的影響:如圖3所示,當(dāng)推文長度較短(少于40個token)時,所有模型的表現(xiàn)都更好,而處理的推文越長,模型的性能越差。研究者還計算了COVID-TWITTER-BERT模型在測試集上的混淆矩陣。
從圖4中可以發(fā)現(xiàn),在大多數(shù)情況下,COVID-TWITTER-BERT可以正確提取實體。但是,在識別癥狀和疾病實體時容易出現(xiàn)混淆,因為這兩類實體通常具有相似的表達(dá)和上下文語境。以上實驗和分析表明,COVID-TWITTER-BERT可以被視為METS-CoV- NER數(shù)據(jù)集的一個強(qiáng)基線模型,盡管如此,現(xiàn)有模型在該數(shù)據(jù)集上的性能表現(xiàn)仍有很大的提升空間。例如,疾病和組織實體的F1值仍然較低。
目標(biāo)實體情感分析
baseline模型
SVM、ASGCN、LSTM、TDLSTM、MemNet、IAN、MGAN、TNet-LF、BERT-base-uncased+AEN/LCF/BERT-SPC/depGCN/kumaGCN/dotGCN,COVID-TWITTER-BERT+BERT-SPC/depGCN/kumaGCN/dotGCN。模型的超參數(shù)均采用與原論文一致的設(shè)置。
數(shù)據(jù)處理
TSA訓(xùn)練數(shù)據(jù)集是NER訓(xùn)練數(shù)據(jù)集的子集,僅保留包含目標(biāo)實體的推文。采用類似的方式可以構(gòu)建TSA的開發(fā)集和測試集。
實驗結(jié)果:研究者使用正確率(Acc.)和F1值來評估所有的基線模型,實驗結(jié)果如表6所示:將COVID-TWITTER-BERT作為特征提取器的模型明顯優(yōu)于其他類型的模型。
具體來說,與基于BERT的depGCN相比,基于COVID-TWITTER-BERT的depGCN模型在人物實體上表現(xiàn)最佳,其Acc.和F1值分別提高了8.46%和10.35%。
對于組織實體,基于COVID-TWITTER-BERT的depGCN模型性能最優(yōu),準(zhǔn)確率和F1值相較于其他模型至少提高了5.4%和8.32%。
對于藥物實體,基于COVID-TWITTER-BERT的depGCN模型顯著優(yōu)于其他模型,與基于BERT的depGCN相比,其準(zhǔn)確率和F1值分別提高了13.31%和18.03%。
對于疫苗實體,基于COVID-TWITTER-BERT的BERT-SPC模型表現(xiàn)最佳,與其他模型相比其準(zhǔn)確率和F1值分別提高了1.6%和11.4%。
研究者從各類模型中篩選出最佳模型,即SVM,MemNet,depGCN(BERT-base)和depGCN(COVID-TWITTER-BERT)并探索了推文長度對這四種模型的影響。
如圖5所示,推文長度對不同TSA模型的影響存在明顯差異。對于SVM和TNET,F(xiàn)1值隨著推文長度的增加而逐漸下降。對于dotGCN,當(dāng)推文長度在20到40之間時,F(xiàn)1值會有一定程度的波動,之后,F(xiàn)1值會隨著推文長度的增加而提高。對于depGCN(COVID-TWITTER-BERT),當(dāng)推文長度小于50時,F(xiàn)1值保持穩(wěn)定,然后增加到0.8,最后降至約0.6。
最后研究者對平均性能表現(xiàn)最佳的模型,即depGCN(COVID-TWITTER-BERT),進(jìn)行了深入分析,計算其在測試集上的混淆矩陣(圖6)。
結(jié)果顯示,對于所有的目標(biāo)實體,大部分的混淆是由于積極(消極)和中性之間的誤分類引起的。
總而言之,雖然可以利用在新冠推文上增量預(yù)訓(xùn)練的模型(例如COVID-TWITTER-BERT)來進(jìn)一步改善現(xiàn)有TSA模型在METS-CoV-TSA數(shù)據(jù)集上的性能,但是情感極性的區(qū)分效果欠佳,亟需開發(fā)更加強(qiáng)大且穩(wěn)健的TSA模型以更加準(zhǔn)確地識別出目標(biāo)實體的情感極性。
結(jié)論
在本文中,研究者構(gòu)建了首個面向新冠相關(guān)推文的醫(yī)學(xué)實體識別和情感分析數(shù)據(jù)集METS-CoV,該數(shù)據(jù)集從醫(yī)學(xué)研究的角度構(gòu)建。
充分考慮了醫(yī)學(xué)領(lǐng)域的特點,因此可以幫助研究人員使用自然語言處理模型從推文中挖掘有價值的醫(yī)學(xué)信息。
此外,研究者以該數(shù)據(jù)集為基礎(chǔ),對目前最先進(jìn)的NER模型和TSA模型進(jìn)行了全面的性能評估。
實驗結(jié)果表明,METS-CoV是一個具有挑戰(zhàn)性的數(shù)據(jù)集,現(xiàn)有模型尚未在該數(shù)據(jù)集上取得令人滿意的性能表現(xiàn)。
除了數(shù)據(jù)集之外,研究者還開源了標(biāo)注指南、基準(zhǔn)模型和源代碼,希望借此鼓勵更多的研究人員參與到醫(yī)學(xué)相關(guān)數(shù)據(jù)集和模型的構(gòu)建工作中來,為推動醫(yī)學(xué)社交媒體研究的發(fā)展貢獻(xiàn)力量。