數據科學家應該避免的5種統計陷阱(附鏈接)
作者:Matthew Mayo
編譯:馮羽、陳雨琳
這篇文章講了五種統計謬誤,也可以稱為數據陷阱,數據科學家應該重視并絕對避免它們。謬誤就是我們所說的錯誤推理的結果。統計謬誤是統計誤用的一種形式,其統計推理能力極差;或許你擁有的數據正確,但無論你的意圖多么純粹,你所使用的方法和解釋都不正確。因此,你基于這些錯誤舉動做出的任何決定都必然是錯誤的。
有無數種基于數據進行錯誤推理的方法,其中某些方法比其他方法錯得更加明顯。由于人們一直犯這類錯誤,許多統計謬論已經被識別并被解釋。好消息是,一旦識別并研究了它們,我們就可以避免它們。讓我們看看其中一些相對更常見的謬誤,看看如何避免它們。
當誤用統計是無意的,這個過程類似于認知偏見,維基百科將其定義為“以特定方式進行思考的傾向,可能導致系統性地偏離理性或良好判斷標準”。前者建立在數據之上不正確的推理和對數據進行顯式和主動的分析,而后者則更隱式和被動地達到了類似的結果。但是,這并不是絕對的,因為這兩種現象之間肯定存在重疊。最終結果是相同的:錯誤。
這里有五個統計謬誤,或者稱之為陷阱,數據科學家應該重視并絕對避免它們。做不到這一點對數據結果和數據科學家的信譽的打擊都是災難性的。
挑選櫻桃
為了說明統計謬誤多么明顯和簡單,讓我們從每個人都應該知道的經典謬論開始:挑選櫻桃。我們可以將其歸類為其他容易識別的謬誤,例如“賭徒謬誤”“虛假因果關系”“偏見抽樣”“過度概括”等等。
挑選櫻桃的想法很簡單,你之前肯定已經做過這樣的事情:有意選擇那些有助于支持你的假設的數據點,而犧牲其他不支持你的假設或積極反對你的假設的數據點。你聽過政客講話嗎?那么你一定會聽到“挑選櫻桃”。另外,如果你是一個活生生的呼吸的人類,那么在生命中的某個時刻你已經選擇了挑選櫻桃的數據。你知道你有這么做過。它往往很誘人,是一種很容易獲得的成果,可以在辯論中贏得或混淆對手,或者以反對的觀點為代價來幫助推動議程。
為什么不好?因為這是不誠實的,這就是原因。如果數據是事實,并且使用統計工具分析數據將有助于發掘事實,那么“挑選櫻桃”就是尋求事實的對立面。不要這樣做。
麥克納馬拉謬誤
麥克納馬拉謬誤以美國前國防部部長羅伯特·麥克納馬拉的名字命名,在越南戰爭期間,他的有關決定基于那些很容易獲得的定量度量,而忽略其他定量度量。這導致他將個體計數(容易獲得的指標)作為成功的唯一指標,而以其他所有定量指標為代價。
不用花很多腦力,你就會發現,簡單的個體計數很可能使你在評估戰場表現時誤入歧途。舉一個簡單的例子,也許敵人正以不成比例的戰斗人員進入你的領土,并控制領土,但陣亡人數比己方略多。另外,也許敵人比例囚禁你的戰士的比例高于你殺死敵人的比例,等等。
增加統計盲點并把所有信任放在一個簡單的度量上,不足以全面了解越南正在發生的事情,也無法全面了解你所做的事情。
眼鏡蛇效應
眼鏡蛇效應被認為是一個問題解決方案的意外后果,但這反而使問題變得更糟。該名稱來自在英國殖民統治下發生在印度的這一現象的特定實例,其中包括,你肯定猜到了,眼鏡蛇。
維基百科頁面上有一些眼鏡蛇效應的例子,我最喜歡的是在1980年代末嘗試減少墨西哥城污染物的例子。政府打算根據車牌的最后一位數字,將特定周內可行駛的車輛數量限制為20%,以減少車輛的排放。為了規避這項政策,該市居民購買了其他帶有不同車牌的車輛,以期在禁止其主要車輛使用之日起能夠駕駛其他允許的駕駛車輛。這導致相對便宜的汽車泛濫成災,最終使污染問題惡化。
鑒于意外后果的性質是潛在的,并且很難預測,因此這比挑選櫻桃要難應對得多。團隊采用數據科學方法,以及更多人員帶來額外思考過程,是對抗眼鏡蛇效應的好方法。
辛普森悖論
這種悖論以英國統計學家愛德華·辛普森命名(盡管先前已被其他人識別),是指觀察到數據集子集中的某些趨勢,但這些趨勢隨著子集的合并就消失了。從這個意義上講,可以將其視為無意中的挑選櫻桃。棒球的例子可以幫助說明這種悖論。
如果我們比較兩位職業球手在他們整個職業生涯的平均擊球率,你可能會發現在某些年份子集,球員A的擊球平均值高于球員B,甚至可能更高。但是,完全有可能的是,在整個職業生涯查看擊球平均數,球員B實際上比球員A擁有更高的擊球平均數,甚至可能更高。
如果你提前知道這一點,并有選擇地選擇了X,Y和Z年份作為A是更好球員的證據,那就是挑選櫻桃。如果你不了解聚合統計信息,但偶然碰到了那些孤立的年份,并把它們作為整個職業生涯的代表,但是(希望)在查看了全部統計信息后發現了另外的情況,那將是辛普森悖論的一個例子。
兩種情況都導致錯誤的結果,其中一種是導致錯誤理解的更無辜的方式。不過,這仍然是錯誤的,應該加以防范。全面的統計分析應成為數據科學家的工作方案的一部分,并且是確保你不屈服于這種現象的一種有效方法。
數據疏浚
數據疏浚還有其他更加不好的名字,例如 p-hacking,它是“誤用數據分析以查找數據中具有統計學意義的模式,而這些模式實際上沒有任何真實潛在影響。” 這相當于對數據進行廣泛的統計測試,并從重大結果中挑選櫻桃,以提高敘事效果(真正的挑選櫻桃?)。雖然統計分析應該從假設轉移到檢驗,但數據疏浚利用統計檢驗的結果強制獲得一個一致的假設。這相當于“我認為是這樣,現在我將測試我是否正確”與“讓我們看看數據可以通過測試說出什么,然后提出一個有助于支持這個結果的想法”之差。
但是為什么這樣做是錯的呢?為什么我們要首先形成假設然后進行檢驗,而不是僅僅讓數據決定我們從未想到要尋找的發現呢?有了足夠的數據和足夠的變量,我們就可以測試相關性,不需要很長時間我們就可以發現足夠多的顯著的個體組合。如果我們忽略所有反事實證據,而將注意力集中在這些一致的測試結果上,那么似乎那里確實有東西,而實際上卻沒有。它們只是偶然出現的結果。抓住機會并證明機會的合理性顯然不是科學應有的意義。
原文鏈接:
https://www.kdnuggets.com/2019/10/statistical-traps-data-scientists-avoid.html
【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】