Facebook數據造假,竟涉及多家中國公司
一個創立十五年的社交網站,全球用戶量超過20億。但是卻屢屢遭遇隱私問題爭議,最近還出現相關報告發布稱其20億用戶或超半數都為“虛假賬戶”……
多年來的“私人恩怨”
在Facebook不斷發展的過程中,似乎從來不缺人氣與爭議。
除了隱私之外,還存在“私人恩怨”。扎克伯格哈佛校友的艾倫·格林斯潘,曾宣稱擁有facebook商標的所有權,并且多年來堅持同facebook公司“斗爭”。
格林斯潘說自己在Facebook上線前三個月就提出了類似的創意,名字叫「the Face Book」,他甚至還主動聯系過扎克伯格希望合作。為此,他對外公布了一些早期的通訊記錄,甚至還專門寫了本書,描述自己創造HouseSYSTEM網站的過程,并宣稱它是facebook的始祖。
“有好幾次,在路上碰到、從我的門前經過、在帕羅阿托的餐廳吃墨西哥餐,我示以微笑,或者向他招招手,他都可以走過來,道個歉的。但是,他從來都沒這樣做過。他一點都不感覺愧疚。”
但是硬氣如扎克伯格,格林斯潘始終沒有等來Facebook的“解釋”。于是格林斯潘堅持“斗爭”,在各個方面找扎克伯格茬,越來越“檸檬”了,并且2012年的時候就直接狀告Facebook盜用其商標。
跨國官司的引火線
沒想到上訴也沒得到道歉,一氣之下格林斯潘憋了一個大招。
2019年1月底,格林斯潘公布了一個關于Facebook的報告,長達70多頁的報告直接指出Facebook的20億月活用戶中有超過一半都是虛假賬戶。
報告一出就引起軒然大波,沸沸揚揚的隱私安問題還沒有解決,就又出現了“虛假賬號”的負面新聞。Facebook官方也趕緊出來澄清,說:“有關虛假賬戶的報告是明顯錯誤的,并且是不負責任的。”之后就直接起訴了四家中國公司和三位個人。
就這樣,跨國官司的序幕打開。
被狀告的四家中國公司主要販賣Facebook、twitter等國外社交賬號。Facebook指控這些企業和個人創建及銷售虛假網絡賬號、點贊和關注者,用于傳播虛假消息或其他欺詐行為。從2017年開始,這些公司通過myfacebook.cc和9xiufacebook.com等六個與Facebook有相似域名的網站行銷和賣出了大量虛假賬號。
糾纏數年的噩夢——虛假賬戶
回過頭來看,虛假賬戶并非新傷,而是Facebook的一個糾纏了數年的噩夢:
2012年9月,Facebook開始嚴打僵尸粉,刪除虛假賬號;
2013年3月,Facebook可能有8300萬個“僵尸賬號”;
2015年3月,Facebook清理僵尸粉導致名人點贊量下降10%;
2018年8月,Facebook刪除試圖干預美國中期選舉的虛假賬號;
2018年11月,Facebook公布有害內容清理報告:清理15億虛假賬號;
2019年2月,有報告稱:Facebook 20億月活用戶一半都是假賬號;
2019年2月,Facebook狀告4家中國公司和3位個人推銷虛假賬號、點贊和用戶好友;
……
除了官方公布虛假賬號情況之外,早在2014年在YouTube就出現過一個名為《Facebook Fraud》的視頻,里面主要介紹一位博主參與Facebook的推廣計劃之后,出現了粉絲量增加但推文關注、互動情況不變甚至減少的情況,懷疑Facebook用戶中存在著大量“機器用戶”。
Facebook Fraud
而這次格林斯潘的報告中,指出Facebook的系統性欺詐“不容小覷”。根據Statista的數據,Facebook在2018年的廣告收入高達338億美元。 也就是說,如果說10億的“虛假賬號”數量是真實的,那么就意味著Facebook從廣告主那里獲得的收益是“不義之財”。
圖片來自新浪財經
不僅如此,除了Facebook這次上訴的幾家中國企業,全球售賣虛假賬號的灰產鏈條也早就野蠻生長、遍地開花了。
比如美國,類似Devumi、SocialBoss等營銷推廣網站,內容點贊、漲粉、視頻播放刷量都應有盡有,價格多從1到20美元不等,還有一些網站直接售賣相關賬號。
而國內相關的灰產就更多了,根據帶不帶cookie、注冊年限、好友多少,賬號價格不等。
有意思的是,通過灰產的宣傳,發現其實國內外購買這些虛假賬號的目的也有些許的差別。美國購買賬號的大部分主要用于漲粉、增加點贊量等,而中國購買賬號還涉及到不少跨境電商推廣等商業目的。
在上述博主的視頻中通過統計,發現他的“虛假粉絲”主要來源于發展中國家。Facebook在2017年的觀察報告中也指出,大部分虛假帳戶來自孟加拉國、印度、埃及和巴基斯坦等國。而這背后也反映出整個虛假賬號、虛假流量市場不同地域的犯罪成本差距。與發達國家比較,發展中國家的確存在相關法律不健全、監管不到位、懲戒體系不完善、意識很欠缺等問題,甚至在斯里蘭卡、埃及、印尼等地區還存在“機器工廠”,點擊1000次只需要1美金。總體來說犯罪成本都遠遠低于發達國家,所以也就出現下圖的情況。
機器之爭,如何掌握主動權
而如今困擾各大社交平臺的“虛假賬號”、“虛假流量”其實在發展初期并沒有受到過多的關注與打擊,甚至還成為當時用戶量、活躍度統計中重要的一部分。遺憾的是,水能載舟亦能覆舟。當初各平臺所追求的“數字”如今卻成為難以擺脫的夢魘。
當然,從2012年到今天,其實我們也看到了Facebook在面對“虛假賬號”、“虛假流量”之下在不斷作出努力。甚至還想過請FBI調查…
但是就目前來看還是存在許多問題:
- 一是誤殺較多,影響用戶體驗;
- 二是對于異常賬戶檢測技術方面還有許多進步空間。
第一個誤殺的情況,由于Facebook的封禁是從設備硬件、賬號登錄情況、運營內容等多維度進行的。Facebook主管分析的副總裁Alex Schultz之前在采訪中透露,平臺已經在使用機器學習判定假賬號。通常來說,一個被批量制造出來的帳號會在幾分鐘內被移除。
這樣一來,如果出現IP、賬號反復登錄等異常情況,很可能就會被封禁,誤殺率就這樣被提高了。
第二點是從2012年到現在,Facebook多次大面積封禁虛假賬號,但是這“野草燒不盡”般的勢頭背后反映出其在防御策略和技術方面還是有很多進步空間。
而目前對于異常賬戶的檢測主要有以下幾種方式:
- 基于行為特征的檢測方案;
- 基于內容的檢測方案;
- 基于圖的檢測方案;
- 無監督學習。
目前很多平臺主要使用的還是基于內容的檢測方案,輔之基于行為特征的檢測方案。但是隨著AI的不斷發展,“機器賬號”的偽裝能力越來越強,這場機器之戰之下,我們必須采用更為精細、科學的處理方式。比如從注冊審核環節、使用軌跡等維度建立多維度、多環節、長周期的分析模型,盡力提高對于異常賬戶的檢測精度。
而目前隨著圖學習、社交網絡等研究的不斷發展,我們也可以采用基于圖的檢測方案。這種方式的關鍵是構造一個圖,在圖中異常帳號與正常帳號具有不同的結構或者連接方式,然后利用圖挖掘的相關算法找到圖中具體的異常結構或者異常節點。從一個“異常賬號”找到相類似的更多機器賬號。
對于異常賬戶的檢測,一直是做安全、做風控的研究重點。隨著機器學習的發展,這兩年復雜網絡、GCN逐漸崛起,新技術的創新將近在咫尺。