華人研究團隊推出AI“諷刺”檢測模型,準確率達86%
本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。
最近網絡上散發著一股濃濃的凡爾賽文學氣息,比如。
好煩,睡過了,錯過馬爾代夫的航班,只能專機去了。
在看似平淡的話語中,流露出一股浮夸的炫耀,這就是凡爾賽文學。
諸如凡爾賽文學等網絡熱詞每年都有,但你真的get到它們的含義了嗎?
先來做個小測試吧!
以下三個句子中,請判斷哪一個是諷刺、吐槽和凡爾賽文學?
- 在這個社會上,不管承受多少的責難,都別忍。因為現在管虛偽不叫虛偽了,都叫做情商高。
- 長得丑真是難為你了,早上跑出來嚇人,晚上跑出來嚇鬼。
- iphone 11 pro max真的一點也不好用,我的卡死了,還是512g的暗夜綠!其實也就這樣,大家還是買1024g的吧
如果答對了,你可別驕傲,因為這道題可能連AI都會。
最近,中國北京的信息工程研究所和中國科學院聯合推出的一款AI模型,『諷刺』識別準確率高達86%。
而且,這項研究成果還登上了計算機語言協會(ACL)。
聽到這里你可能會好奇,AI為甚么要識別『諷刺』???
AI『諷刺』模型
其實,諷刺作為情緒表達的一種方式,是AI情感分析的重點研究方向。
情感分析,又稱傾向性分析,或意見挖掘,它是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。利用情感分析能力,可以針對帶有主觀描述的自然語言文本,自動判斷該文本的情感正負傾向并給出相應的結果。
它有什么用處呢?簡單舉個例子。
本次美國大選,除了兩位當事人拜登和川建國外,最頭疼的可能就是Facebook創始人扎克伯克了。
一直以“言論自由”著稱的Facebook,要確保美國大選期間社交網絡中不能出現“虛假的政治言論”。
龐大的社交網絡每天有成千上萬條帖子被發表,其中哪些有政治風險,哪些無政治風險,如果靠人工逐一審核再刪除的話,顯然有點不切實際。
這時候,AI就派上用場了。
早在美國大選之前,Facebook AI Research團隊就開始利用AI語言模型,識別網絡中的虛假信息或仇恨言論,有數據統計,在2020年第一季度,Facebook利用XLM語言模型刪除了960萬條涉及仇恨言論的帖子。
對此,Facebook首席技術官Mike Schroepfer還曾表示,
我沒有天真的以為AI可以解決每天個問題,但我認為它確實能幫助我們完成一些常見任務,以及一些人類無法勝任的、規模達十億的、繁重的任務。
在這個例子中,AI的難點就在于如何提高情感分析能力,精準識別出含虛假政治言論的帖子。
但相比之下,識別『諷刺』可能比識別虛假政治言論對AI而言更有難度。
根據百度百科顯示,『諷刺』是指用比喻、夸張等手法對人或事進行揭露、批評;用譏刺和嘲諷筆法描寫敵對的落后的事物;用譏諷的眼神,嘲笑的語氣對著他人說。
明顯的諷刺意味人類可以一眼看穿,但對于AI來說卻不是一件容易的事兒。
最新的研究成果在2019年,首次引入多模態檢測的AI模型HFM,其準確率能夠達到83%。而近日,該項研究取得突破性進展,其準確率提升了2.74%。
這項成果來自中國北京的信息工程研究所和中國科學院聯合研究團隊,他們研發的新型多模態AI諷刺檢測模型,經過Twitter數據集檢測準確率可達到86%。
研究人員介紹,他們從2016年開始嘗試多模式策略,并將其應用在Tumblr,instagram和Twitter等多個網絡數據集中進行測試。
目前這項研究成果代表了AI多模式諷刺檢測的最高水準,并且已在計算機語言協會(ACL)、自然語言處理實證方法協會(EMNLP)等多個NLP頂會上發表。
據了解,“多模式檢測(MultiModal Detection)”已成為一種主要的『諷刺』檢測模式,此前密歇根大學和新加坡大學的研究人員也曾使用語言模型和計算機視覺來檢測電視節目中的諷刺,相關研究也發表在了ACL上。
相比之下,此次研究成果在技術上有哪些特別之處呢?
技術原理
特別之處在于:他們發現了多模態之間的不一致性!
什么叫多模態呢?官方定義是每一種信息的來源或形式,都可以成為一種模態。比如,人有觸覺,聽覺,視覺,嗅覺,以上都是一種模態。
那么,對于Twitter發帖來說,文字、圖片、視頻分別代表了三種模態。研究人員發現,現有的多模態諷刺檢測方法通常是簡單地將多模態特征連接起來,或者以設計的方式融合多模態信息,而忽略了多模態之間和模態內的不一致性。
受此啟發,他們提出了一種基于BERT架構的模型,該模型可有效解決這一問題。
模型框架
具體來說,研究人員利用自注意機制(Self-Attention Mechanism)的思想,設計了一種模態間注意力機制以捕獲其間的不一致性。圖中,預先訓練的BERT模型對給定的序列和其中的Hashtags進行編碼。ResNet用于獲取圖像形式。我們運用Intra-modality注意來模擬文本內部的不協調,而Inner-modality來模擬文本和圖像之間的不協調。然后將不協調信息進行組合并用于預測。
實驗結果表明,該模型在公共多模式諷刺檢測數據集上達到了最新的性能—86%。
與此同時,研究人員還將該模型與現有模型基準,從預測率(Precision)、召回率(Recall)、精準度(Accuracy)和F1分數等指標進行了比較。
結果顯示,與當前最先進的層次融合模型HFM相比,提高了2.74%。與微調的BERT模型相比,提高了2.7%。如圖:
從該表中可以看出,僅使用圖像特征的模型并沒有很好的表現(72.6%),這說明對于多模態檢測任務來說,圖像是不能單獨處理的。而且基于文本模態的方法(均在80%以上)比基于圖像模態的方法具有更好的性能。因此,文本信息比圖像信息更能用于諷刺信息的檢測。
此外,經過微調的BERT模型比其他基于文本的非預訓練模型表現得更好,這也再次驗證了研究人員的設想,即像BERT這樣的預訓練模型可以改進檢測任務,它表明視覺+文本模式的模型通常比其他模式能夠獲得更好的結果,同時,它也說明圖像有助于提高檢測性能。
值得注意的是,從文本模態內部的模型來看,SIARN(80.5%)和SMSD(80.9%)都考慮了不一致信息,且性能表現優于TextCNN(80%),因此,不一致信息有助于識別諷刺,再次驗證研究人員提出的模態間的非一致性檢測方法比簡單的模態間連接方法更有效。
更多論文詳情,可參見:https://www.aclweb.org/anthology/2020.findings-emnlp.124.pdf