成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器學習應用實例|如何識別標題黨?

大數據
相信你也遇到過這樣的情況:懷著猶如探秘般萬分期待的心情,點開一篇文章,結果卻發現又一次中了“標題黨”的誘餌,成功上鉤,下面就講講如何準確的識別標題誘餌。

 [[170788]]

相信你也遇到過這樣的情況:懷著猶如探秘般萬分期待的心情,點開一篇文章,結果卻發現又一次中了“標題黨”的誘餌,成功上鉤。這種現象,在國際有一個形象的名字 “Clickbait”。

“Clickbait”則被定義為引誘人進入某網站的標題誘餌。Facebook、谷歌自2014年末就開始了對“標題誘餌”的識別,并且在最近宣布減少該類新聞出現在新聞摘要中。因此,準確的識別出作者所寫的文章是不是標題誘餌就顯得尤為重要。

標題誘餌一般有哪些特征

先讓我們來看看一些點擊量較高的、典型的標題黨:

· 關于新iPhone,10件蘋果公司不會告訴你的的事

· 接下來發生的一切將會讓你大跌眼鏡

· 90年代的演員是什么樣子的

· 特朗普說了奧巴馬和克林頓什么

· 成為一個好的數據科學家必備的9個技能

· 擁有iphone如何提高你的性生活

從這些標題中我們似乎可以尋找到某些模式。趣味性和模糊性是這些標題的主要特點,看到這些標題,我們就不自覺的想點開看看這些文章到底要說什么。當然,通常情況下,文章的內容會讓你很失望。

一些小的網站依靠標題陷阱獲得流量,就連一些較為受歡迎的新聞網,如Buzzfeed也被冠以標題陷阱集散地的稱號, 正如“今日頭條”在App store的遭遇一樣,隨著谷歌和Facebook對這類文章采取的一系列措施懲罰,這種現象還會持續多久?

識別標題誘餌

不同于其他應用機器學習的文章,這篇文章將不包括機器學習的基礎,我們直接進入主體的分析部分。

1 創建數據集

為了識別clickbaits,我們必須先從一些新聞網站抓取一些標題,并創建兩個相對的數據集:一個為clickbait標題數據集,包含十萬條數據;另一個為non-clickbait標題數據集,包含五千條數據,以此形成一個監督學習問題,即用non-clickbaits數據集對clickbaits進行類別判斷。

2 數據集特征分析及模型訓練

在創建好數據集之后,我們將對不同的數據集進行特征分析,并用機器學習算法進行識別模型的訓練。

詞頻-逆向文本頻率(TF-IDF)

TF-IDF是一種用戶信息檢索與數據挖掘的常用加權技術,用以評估一個字詞在一個文件集或一個語料庫中的重要程度。在這個方法中,我分別對字符和單詞進行分析,并且運用 n-gram模型的(1,1),(1,2),(1,3)。接著,我們用scikit-learn這一用于機器學習的python模塊來實現以上算法。

字符分析器如下:

 

 

詞語分析器如下:

 

 

TF-IDF向量分析器非常強大,能清楚的告訴我們哪些字符、單詞在clickbaits中的出現的頻率***,如下圖所示:

 

 

同樣,在non-clickbaits中出現頻率***的字符、單詞為:

 

 

接下來,我使用了兩種不同的機器學習算法, 邏輯回歸和梯度增加,并用以下指標評估模型算法:

· ROC曲線下的面積

· 準確度

· 召回率

· F1-分數

為了避免過度擬合,我使用5折分層抽樣。下圖展示了如何實現隨機抽樣。在分層抽樣的情況下,預測集合訓練集具有相同的正、負標簽比例。

 

 

經過一些簡單的模型參數調整,上述兩種機器學習模型的各指標得分如下:

邏輯回歸

:ROC曲線下的面積= 0.987319021551

精確度= 0.950326797386

召回率= 0.939276485788F1

得分= 0.944769330734ROC曲線:

 

 

梯度增加:

ROC曲線下的面積= 0.969700677962

精確度= 0.95756718529

召回率= 0.874677002584F1

得分= 0.914247130317ROC

曲線:

 

 

Word2Vec

Word2Vec模型在自然語言處理中很受歡迎,總是為我們提供偉大的見解。Word2Vec從本質上來說就是一個矩陣分解的模型,簡單地說,矩陣刻畫了每個詞和其上下文的詞的集合的相關情況。

在本文中,我們用Word2Vec來表示相似或意義非常接近的單詞,如下圖所示:

 

 

同樣,我們也可以使用word2vec代表句子:

 

 

我們將每個單詞(每個句子/標題)作為一個200維的向量。可視化word2vec的***辦法是將這些向量運用t-SNE方法分解在兩維的坐標系中,如下圖:

 

 

從上圖我們看到,我們只用word2vec就明顯的區分出了clickbaits和non-clickbaits的特征,這意味著,在這一算法上使用一個機器學習模型將會極大的改善我們的分類。

我們使用與上文相同的兩個機器學習模型處理數據集,模型的各指標得分如下:

邏輯回歸:

ROC曲線下的面積= 0.981149604411

精確度= 0.936280884265

召回率= 0.93023255814F1

得分= 0.933246921581ROC

曲線:

 

 

梯度增加:

ROC曲線下的面積= 0.981312768055

精確度= 0.939947780679

召回率= 0.93023255814F1

得分= 0.935064935065ROC

曲線:

 

 

我們可以看到在梯度增加模型中,各項指標得分明顯提高。

為了進一步提高評估,我們結合TF-IDF和Word2Vec兩種算法進行特征識別,并根據這些特征進行自動識別clickbaits的機器模型訓練,可以看到模型分數顯著提高。

 

 

一個嚴肅的結論停止使用標題陷阱。

對新聞工作者來說,這些標題可能會給你帶來額外的閱讀量,但隨著幾大互聯網巨頭的聯合行動,這類現象不會持續很長時間。

文章來源36大數據,www.36dsj.com ,微信號dashuju36 ,36大數據是一個專注大數據創業、大數據技術與分析、大數據商業與應用的網站。分享大數據的干貨教程和大數據應用案例,提供大數據分析工具和資料下載,解決大數據產業鏈上的創業、技術、分析、商業、應用等問題,為大數據產業鏈上的公司和數據行業從業人員提供支持與服務。

責任編輯:趙寧寧 來源: 36大數據
相關推薦

2022-05-17 12:25:59

物聯網智能建筑樓宇自控

2022-09-30 09:24:27

開源模型

2021-01-21 22:18:59

機器學習加密貨幣數據

2014-03-17 10:28:52

PythonJulia

2023-06-16 14:46:46

機器學習人工智能

2024-03-25 13:59:20

機器學習工業應用

2011-06-03 17:50:58

2017-09-15 18:13:57

機器學習深度學習語音識別

2017-05-05 09:56:08

神經網絡模型繪畫

2023-12-21 17:05:46

機器學習MLOps人工智能

2023-09-27 07:56:25

2023-12-27 11:11:15

2020-12-17 09:40:33

人工智能

2020-08-12 11:35:04

物聯網安全機器學習物聯網應用

2018-04-17 08:41:47

Java機器學習應用iOS

2020-06-10 07:46:39

機器學習預測性維護工業物聯網

2020-05-17 14:37:37

機器學習技術架構

2018-02-07 16:18:01

2017-02-22 14:52:51

機器學習人工智能聲音
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品国产99国产 | 欧美电影免费观看 | 亚洲精品久久久久中文字幕欢迎你 | 91免费在线看 | 日日操操| 免费不卡av| 亚洲精品日韩一区二区电影 | 狠狠夜夜| 精品三级| 国产精品福利久久久 | 久久久久国产精品 | 日韩中文字幕网 | 久久久91精品国产一区二区精品 | 亚洲视频一区二区三区 | 国产盗摄视频 | 四虎永久免费在线 | 成人三区四区 | 日韩在线免费 | 国产精品久久久久久久久久免费看 | 欧美一区二区三区久久精品 | 91n成人 | 韩国精品在线 | 午夜三级视频 | 中文字幕在线观看一区 | 久久久91精品国产一区二区三区 | 日本不卡一区二区三区 | 国产一级电影网 | 亚洲国产精品99久久久久久久久 | 欧美成人一区二区三区 | 九热在线| 欧美成人自拍视频 | 欧美一区免费 | 激情婷婷| 日韩欧美一区二区三区免费观看 | 91在线观看视频 | 国产综合久久 | 成人一区二区在线 | 偷拍自拍网址 | 成人国内精品久久久久一区 | 国产色婷婷久久99精品91 | 欧美成人免费 |