成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Text2Image:一種新的NLP思路

新聞 人工智能
本文尋找到了一種新的 NLP 處理方式,探索將 NLP 與計算機視覺處理結合,將文本繪制成圖片。

 與計算機視覺相比,自然語言處理 (NLP) 一直被認為是一個難以攻克的難題。本文尋找到了一種新的 NLP 處理方式,探索將 NLP 與計算機視覺處理結合,將文本繪制成圖片。雖然目前的準確率還有待優化提高,但看起來很有應用前景。

問題點 

長期以來,自然語言處理 (NLP) 一直被認為是一個難以攻克的難題,至少與計算機視覺相比是這樣。NLP 模型需要更長的運行時間,通常更難實現,并且需要更多的計算資源。另一方面,圖像識別模型的實現變得更加簡單,對 GPU 的負擔也更小。這讓我想到,我們可以把一個文本語料庫轉換成一個圖像嗎? 我們能把文本解釋成圖像嗎? 事實證明,答案是肯定的,并帶來了令人驚訝的結果!我們用這種方法來區分假新聞和真新聞。

在本文中,我們將詳細探討這種方法、結果、結論和接下來的改進。

簡 介   

思路來源

將文本轉換為圖像的想法最初是受到 Gleb Esman 關于欺詐檢測的這篇文章的啟發。在這種方法中,他們將各種數據點,如鼠標移動的速度、方向、加速度等轉換成彩色圖像。然后在這些圖像上運行一個圖像識別模型,進而可以產生高度準確的結果。

數據

所有實驗使用的數據是 George Mclntire 的假新聞數據集的子集。它包含大約 1000 篇假新聞和真實新聞的文章: https://github.com/cabhijith/Fake-News/blob/master/fake_or_real_news.csv.zip

Text2Image 的基本原理

讓我們首先在一個較高的層次上討論 Text2Image。其基本思想是將文本轉換成我們可以繪制的熱圖。熱圖標識著每個單詞的 TF-IDF 值。詞頻 - 逆文檔頻率 (TF-IDF) 是一種統計方法,用于確定一個單詞相對于文檔中其他單詞的重要性。在基本的預處理和計算 TF-IDF 值之后,我們使用一些平滑的高斯濾波將它們繪制成對數尺度的熱圖。一旦熱圖繪制完成,我們使用 fast.ai 實現了一個 CNN,并嘗試區分真實和虛假的熱圖。我們最終獲得了大約 71% 的穩定準確率,這對于這種新方法來說是一個很好的開始。這里有一個關于我們的方法的小流程圖:

Text2Image:一种新的NLP思路

還不太清楚?繼續往下看。

Text2Image 詳述

預處理

數據采用小寫形式,刪除所有特殊字符,并將文本和標題連接起來。文件中 85% 以上的文字也被刪除。此外,要明確避免使用單詞列表 (stopwords)。使用的是一份標準的停頓詞列表,大部分是沒有信息的重復詞。特別是要對假新聞的斷句進行修改,這是未來值得探索的一個領域,特別是可以為假新聞帶來獨特的寫作風格。

計算 TF-IDF

為了對關鍵字進行評分和提取,Text2Image 使用了 tf-idf 的 scikit-learn 實現。對于假新聞語料庫和真實新聞語料庫,IDF 分別計算。與整個語料庫的單個 IDF 分數相比,計算單獨的 IDF 分數會導致準確性大幅提高。然后迭代計算每個文檔的 tf-idf 分數。在這里,標題和文本不是分開評分的,而是一起評分的。

Text2Image:一种新的NLP思路

計算 Term 頻率

Text2Image:一种新的NLP思路

計算 IDF

把它們相乘,就得到 tf-idf。我們對每個文檔分別進行迭代。

處理 TF-IDF 值

對于每個文檔,將提取具有最高 TF-IDF 值的 121 個單詞。這些單詞然后用于創建一個 11x11 數組。在這里,選擇的單詞數量就像一個超參數。對于更短、更簡單的文本,可以使用更少的單詞,而使用更多的單詞來表示更長的、更復雜的文本。根據經驗,11x11 是這個數據集的理想大小。將 TF-IDF 值按大小降序排列,而不是按其在文本中的位置映射。TF-IDF 值以這種方式映射,因為它看起來更能代表文本,并且為模型提供了更豐富的特性來進行訓練。因為一個單詞可以在一篇文章中出現多次,所以要考慮第一次出現的單詞。

不按原樣繪制 TF-IDF 值,而是按對數刻度繪制所有值。這樣做是為了減少頂部和底部值之間的巨大差異。

Text2Image:一种新的NLP思路

在繪制時,由于這種差異,大多數熱圖不會顯示任何顏色的變化。因此,它們被繪制在一個對數刻度上,以便更好地找出差異。

Text2Image:一种新的NLP思路

圖 1(左) 顯示了按原樣繪制的 TF-IDF 值。圖 2(右) 顯示了在對數刻度上繪制的相同值

缺點之一是在訓練模型時大量的過度擬合。這可以歸因于缺乏任何數據擴充,目前,似乎沒有數據擴充的方法可以用于這個用例。因此,在整個數據集上使用高斯濾波來平滑這些圖。雖然它確實降低了一點點準確性,但在過度擬合方面有顯著的下降,尤其是在訓練的初始階段。

最終的熱圖

最終的熱圖尺寸為 11x11,用 seaborn 繪制。因為 x 軸和 y 軸以及顏色條在訓練時都沒有傳達任何信息,所以我們刪除了它們。使用的熱圖類型是“等離子體”,因為它顯示了理想的顏色變化。嘗試不同的顏色組合可能是未來探索的一個領域。下面是最終情節的一個例子。

Text2Image:一种新的NLP思路

熱圖最終形態

訓練我們的模型

該模型使用 fast.ai 在 resnet34 上進行訓練。識別出假新聞 489 篇,真新聞 511 篇。在不增加數據的情況下,在訓練集和測試集之間采用標準的 80:20 分割。所有使用的代碼都可以在這里找到: https://github.com/cabhijith/Text2Image/blob/master/Code.html

結果

Text2Image:一种新的NLP思路

總 結   

經過 9 輪迭代后,模型的準確率達到了 70% 以上。盡管對這個數據集來說還遠遠不夠先進,但這種新方法似乎很有前景。以下是在訓練過程中所做的一些觀察結果:

這個模型超差了很多。增加數據對過擬合沒有任何影響,這與我們的預期相反。進一步的訓練或改變學習率沒有任何效果。

增加繪圖大小有助于準確性提升直到大小為 11x11,之后增加繪圖大小會導致準確性下降。

在圖上使用一定數量的高斯濾波有助于提高精度。

下一步計劃

目前,我們正在致力于詞性標記和手套詞嵌入的可視化。我們也在考慮修改停止詞,修改繪圖的大小和顏色模式。我們將保持持續改進!

 

責任編輯:張燕妮 來源: AI前線
相關推薦

2022-06-23 07:05:46

跳板機服務器PAM

2023-09-17 23:16:46

緩存數據庫

2018-04-18 07:34:58

2016-10-26 09:12:58

2020-11-27 14:45:57

開發服務器代碼

2024-05-09 08:20:29

AC架構數據庫冗余存儲

2018-12-14 14:30:12

安全檢測布式系測試

2016-10-13 10:57:55

phptcp專欄

2017-08-24 15:02:01

前端增量式更新

2024-04-30 08:12:05

CRUD方法JavaAC架構

2024-04-26 08:58:54

if-else代碼JavaSpring

2021-05-18 06:22:39

CSS 制作波浪技巧

2010-11-05 10:15:42

云計算

2022-08-08 08:22:22

量子計算

2011-12-28 21:18:18

App

2023-12-04 08:21:18

虛擬線程Tomcat

2022-04-06 12:00:46

HEAT安全架構新威脅

2022-07-28 11:29:23

數據安全數據令牌化

2017-02-20 09:00:49

2020-12-16 10:12:52

大數據小數據人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久一日本道色综合久久 | 亚洲性视频网站 | 久久久久久久国产精品视频 | 黄色免费在线观看网址 | 欧美国产日本一区 | 欧美一区2区三区4区公司 | 请别相信他免费喜剧电影在线观看 | 韩日精品视频 | 欧美一区二区三区久久精品视 | 久久国产欧美日韩精品 | 亚洲成人久久久 | 日本中文字幕一区 | 久久精品国产亚洲一区二区 | 国产精品免费在线 | 日日夜夜精品免费视频 | 免费在线h视频 | 欧美电影网 | 国产综合精品 | 中国大陆高清aⅴ毛片 | 成人自拍视频网站 | 亚洲在线成人 | 久久99精品久久久久子伦 | 亚洲精品成人在线 | 国产乱码精品一区二区三区中文 | 亚洲欧美一区二区在线观看 | 日韩欧美精品一区 | 亚洲综合一区二区三区 | 无码一区二区三区视频 | 精品一区在线 | 亚洲综合无码一区二区 | 在线一区视频 | 欧美精品在线免费观看 | 国产免费一区 | 亚洲欧美日韩在线一区二区 | 91九色在线观看 | 中文字幕伊人 | 日韩欧美国产精品综合嫩v 一区中文字幕 | 91麻豆精品国产91久久久资源速度 | 欧美一区二区三区视频 | 欧美高清一级片 | 亚洲一区二区三区在线播放 |