43000張圖片和5項原則：用數據科學方法評選十大最火表情包

作者：讀芯術 2020-10-10 16:09:42

大數據數據分析

本文將說明如何用約43000張圖片的數據集和五項數據科學原則，來計算得出表情包的火爆程度排名。

本文轉載自公眾號“讀芯術”(ID：AI_Discovery)。

電視節目的火爆程度可以根據尼爾森收視率排名(Neilsen ratings)來衡量，但是表情包呢?目前仍然沒有什么獨立指標能用以評估表情包(memes)的瀏覽人數，所以筆者自己摸索出了一些方法!

本文將說明如何用約43000張圖片的數據集和五項數據科學原則，來計算得出表情包的火爆程度排名。

[[345394]]

1. 明確定義估算對象

對文字信息的理解因人而異。筆者不知見識過多少次這樣的場景：二人在對話中就項目的目標達成了一致，之后卻發現彼此對關鍵詞的理解大相徑庭。因此，如果在項目開始時徹底厘清每個詞的定義，就能省下不少時間。

例如，假設你要估算“2019年的英國人口數量”。這是指2019年初、年末還是年中的人口數量?還是三者的平均值?這里的“人口”是指常住居民，還是包括游客和臨時居民在內的所有人?

回到表情包的話題上。首先聲明，筆者要討論的并非表情包的學術定義，而是網絡表情包(結合了網上流行的圖像和文字)。更具體地說，筆者感興趣的是找出最流行的表情包模板(表情包的背景圖像)。因此筆者所謂的“最火表情包”其實指的是：瀏覽人次最多的表情包模板(通過累加所有使用該模板的網絡表情包的瀏覽量來計算得出)。

明確了這一點之后，就要開始收集數據。

2.以最小化偏差的方式采樣數據

尼爾森排名系統不可能監測每臺電視機，同樣，筆者也無法全部下載網絡上的每個表情包。因此，這兩種情況都必須要經過采樣。

如果一個數據樣本真正代表了更廣泛的群體，那么我們稱其為無偏見數據。但在很多情況下，這是不可能的。通常，我們必須以盡可能合理的方式最小化偏差，然后在分析數據時盡最大努力修正偏差。

本項目中的表情包采集自Reddit，它是世界上最大的圖片分享網站之一。使用一個爬蟲工具在一天中多次查看該網站與表情包有關的幾個部分，并且抓取前100張最受歡迎的圖片。

其中的許多表情包都托管在Imgur上，該網站公開了表情包瀏覽數據。因此交叉引用這些數據可以讓我們推斷出Reddit上圖片的瀏覽量。通過Reddit和Imgur的應用程序接口(API)，只需寥寥幾行python代碼就可完成該采樣。

[[345395]]

圖源：unsplash

接下來的問題是：這一采樣方法真的能夠最小化偏差嗎?Reddit只是網站中的一個個例，所以并不能真正代表整個互聯網。我們可以對其他網站(如instagram或Facebook)上的表情包進行采樣，以減少偏差。

然而，這些網站公開的數據有限，無法進行比對。比對這些網站數據的唯一的方法是做出大膽的假設，但此舉可能會為最終估計值引入更多的偏差。

沒有十全十美的答案。有時，我們只能接受這一點。筆者認為應當從一個最優的數據來源進行采樣，而不是將多個數據來源合并起來得到一個不可靠的數據集。筆者之所以稱Reddit是最好的來源，是因為它是最大的圖像共享網站，從中(通過交叉引用Imgur的數據)可以推斷出精度合適的瀏覽量。

3. 復雜模型只適用于復雜問題

我們需要確定數據集中每個表情包所使用的圖像模板。這是一個圖像分類問題，并且屬于一個簡單的圖像分類問題。如果簡單的方法就足以見效，那么就沒必要選擇復雜的解決方案。

近來最先進的圖像分類器，比如那些在Image-Net比賽中名列前茅的分類器，都是能夠不受角度、光線或背景的影響而正確識別物體的深度神經網絡。觀察一個表情包并識別其圖像模板則容易得多，因此需要的東西遠非100層神經網絡那么復雜。

表情包圖像模板的數量有限，并且都具有獨特的顏色模式。我們僅需要計算像素并將結果傳遞給線性支持向量機，就能精確地分類表情包。訓練支持向量機僅需幾秒，而神經網絡則需要數天。

[[345396]]

圖源：unsplash

4. 審核(有條件時引入人工)

很多時候，躊躇滿志的年輕數據科學家跑來找到筆者，自豪地公布一個偉大的發現，卻在被問及如何審核結果時面露怯色。通過基本的審核發現重大紕漏后，所謂的偉大發現往往將黯然退場。

在審核圖形分類模型的結果時，人眼是無可替代的(至少目前如此)。你或許認為，驗證圖形分類器在這個數據集(約有43000張圖像)上的結果需要很長時間，但有許多工具能加速這一過程。

借助標注工具，筆者平均使用20秒就能夠審核100張圖像(在10x10的格子中瀏覽)，因此，全部審核完43000張圖像只花費了不到3小時。這樣的事情日常做大概吃不消，但一年一次還可以忍受。

5. 仔細考慮每個假設

[[345397]]

圖源：unsplash

統計模型有賴于數據和假設。通常情況下，原始數據無法優化，但假設可以改進。工作的最后一步是獲取數據集，并提取出每個表情包模板的瀏覽數據。由于數據具有局限性，這一分析需要一些額外的假設。

第一個假設涉及到缺失值。如果數據集中的某個條目出現了缺失值，那么最好是移除該條目(因而將減小樣本)呢，還是推測該缺失值是什么(因而或將引入誤差)呢?

這取決于數據集中缺失值的比例。如果比例較低，通常最好直接丟棄缺失值。而如果比例較高(該表情包數據集就是如此)，那么丟棄所有缺失值可能會大大降低樣本的代表性。因此，筆者認為盡可能準確地填充這些缺失值是更好的做法。

第二個假設涉及修正我們的數據集對Reddit用戶的傾向性。筆者用下面的“傳播”假設來解決這一問題。筆者從Reddit的幾十個不同板塊進行了采樣，以此來測量每個表情包模板在多少個板塊中出現過。筆者假設，一個表情包在Reddit內部傳播得越廣，說明它在Reddit之外的傳播范圍也越廣。為了反映這一點，筆者擴增了這些表情包的瀏覽次數。

對于假設來說，標準答案是不存在的。我們唯一的選擇就是做出能讓人信服的抉擇。

計算結果：最受歡迎的表情包模板(2018年)

該算法在2018年全年都在運行，共下載了40萬張圖片，并識別出其中的43660張使用了250個最常見的表情包模板之一。

如你所見，歌星Drake的表情圖以極大優勢奪得了2018年的流行之冠，共有1億5700萬次瀏覽量(該分析結果很有可能小于實際數據)。

43000張圖片和5項原則：用數據科學方法評選十大最火表情包