給炸薯條點贊也許并不意味著你很聰明:數據不足
前言:最近一項研究發現人們在臉譜網上點贊的喜好能強烈反應一些個人的性格特征,如性取向和智商。但是把這些相關性當作是任何東西的證據,這一點疑慮多多。
大家最近應該都聽說過“一項研究表明在臉譜網上給炸薯條點贊很可能意味著這人擁有高智商”吧,一些雜志如《連線》就此發表紛紛相應評論文章;定量分析公司聯合創始人與CTO Sean Gourley(譯者注:原文為CEO,但Quid官網注明職務為CTO,此處引用官網職務)在上周舉辦的結構數據大會上演講時也引用了上述分析結果,歐盟議會團體甚至引用該研究結果作為禁止網絡公司發掘數據的又一證據。
然而,如果大家如我這般,聽到任何人重復強調炸薯條數據很可能是事實時,背脊一陣冷顫,那不是說分析結果不是事實--他的確很有可能是真的--但在缺乏更多背景情境下,那只是一組無用的信息而已。
就是這樣,古老的相關性爭論與因果關系爭論再一次成為爭論的前沿焦點。在整個大數據世界,這很可能是最大的謬論,無論你怎么觀察研究這個結果。不對,從大數據中獲取價值總是不需要更多地信任相關性而不是因果聯系。也不對,依賴相關性也不是固有的某種道德上或科學上的可疑的做法。
確實,依賴相關性或者堅持尋找因果聯系的選擇很可能取決于你要干些什么。
當我們不處于危急關頭時,也就沒有關聯性了
誠實點吧:如果我只關心提高點擊率,銷售更多產品或預測大家想看的電腦,關聯性可能會有所幫助。我確實不關心為什么,例如,Mac用戶在網上旅游公司Orbitz預定了更昂貴的房間--我只關心他們做了什么。
你瀏覽我的網頁,我的系統顯示你使用的是Mac電腦(或者你喜歡炸薯條,或任何其他與你相關聯的屬性),這表明了你對系統認為你想看的東西表示滿足。這不是個完美的手段,但可能是個截然不同的事物,比之前那種僅僅向所有人提供完全相同的內容的老式方法效果好多了。
你不能區分--或者下定論--于相關性
但如果你嘗試用大數據來做一個有意義的區分,或者做出一個決定,對現實世界結果產生巨大影響,僅僅只有相關性很可能完全沒法滿足你的要求,這正是專欄作者耶夫根尼·莫洛佐夫(Evgeny Morozov)最近在《紐約時報》專欄中就犯罪問題提出的警示,這正是Gourley在談到數據科學與數據智力的比較中所思考的,這也正是為什么當前圍繞機器學習大多數時候總是包含人類外觀的爭論的原因。
沒有單獨對相關性做出相應行為,很多時候是因為考慮到隱私政策和公民權利、憲法權利及人權等。你不能分析某人并就此逮捕他,舉例來說,就因為他們的點贊信息表明他們有可能(犯罪)。或許你也不應當僅僅以相關性為基礎,就針對人們的財務、健康或總體狀況做出決定。
見鬼,我甚至不為廣告服務,挖掘用戶的個人信息如健康問題、性取向或者智商等,我也沒有特別強烈的理由來相信我是正確的(并對服務這些廣告表示同意)臉譜網這次關于炸薯條的研究充斥著相關性,這種相關性可能會成為潛在的隱患。以下圖表是我們能看到的部分情況。


(圖表來源:《美國國家科學院院刊》,PNAS)
但上述所有情況下,偶爾,對錯誤分析某人的恐懼--結果被起訴--很多時候可能會壓倒你想做些好事的愿望。我的同事Om Malik著作的《數據進化論》最近的表現超出了同行的評價與社交媒體的排名,也不應當輕松扮演上帝(或進化改變的催化劑,以繼續達爾文的比喻)的角色。
但是有時候,由于你確實想去解決某一問題或者可能想創建一項偉大的產品,那么相關性就遠遠不夠。正如Gourley在結構:數據中解釋的那樣,即便使用相關性數據來預測某一特定地方如伊拉克的暴徒攻擊相對簡單,但預測攻擊事件發生的可能性依然沒法阻擋他們的發生,阻止事件的發生需要確實掌握和解決攻擊事件的根本原因。
類似的情況也適用于阻止疾病的蔓延、指出為什么節目制作者在某些季度犯了更多錯誤、阻止槍械犯罪,或者僅僅利用對炸薯條或者酒店房間的預訂者的了解,來創建新產品。通過對這些產品點贊,來接觸到產品創建的更深層理由。你能戰勝病狀,因此這么說,你可以治愈疾病。
你可以隨意嘗試向下一個你看到吃著炸薯條的人推銷陀思妥耶夫斯基的紀錄片,但別指望他照顧(你生意)。炸薯條有可能與智商間存在某種強烈的相關性聯系;當然,同樣有可能高智商人群--完全巧合地--往往住在快捷食品特許經營餐廳Arby’s的步行范圍內,但是沒人問這樣的問題。