數據科學家應該避免的5種統計陷阱（附鏈接）

作者：大數據文摘 2019-12-13 07:58:34

這里有五個統計謬誤，或者稱之為陷阱，數據科學家應該重視并絕對避免它們。做不到這一點對數據結果和數據科學家的信譽的打擊都是災難性的。

作者：Matthew Mayo

編譯：馮羽、陳雨琳

這篇文章講了五種統計謬誤，也可以稱為數據陷阱，數據科學家應該重視并絕對避免它們。謬誤就是我們所說的錯誤推理的結果。統計謬誤是統計誤用的一種形式，其統計推理能力極差;或許你擁有的數據正確，但無論你的意圖多么純粹，你所使用的方法和解釋都不正確。因此，你基于這些錯誤舉動做出的任何決定都必然是錯誤的。

有無數種基于數據進行錯誤推理的方法，其中某些方法比其他方法錯得更加明顯。由于人們一直犯這類錯誤，許多統計謬論已經被識別并被解釋。好消息是，一旦識別并研究了它們，我們就可以避免它們。讓我們看看其中一些相對更常見的謬誤，看看如何避免它們。

當誤用統計是無意的，這個過程類似于認知偏見，維基百科將其定義為“以特定方式進行思考的傾向，可能導致系統性地偏離理性或良好判斷標準”。前者建立在數據之上不正確的推理和對數據進行顯式和主動的分析，而后者則更隱式和被動地達到了類似的結果。但是，這并不是絕對的，因為這兩種現象之間肯定存在重疊。最終結果是相同的：錯誤。

這里有五個統計謬誤，或者稱之為陷阱，數據科學家應該重視并絕對避免它們。做不到這一點對數據結果和數據科學家的信譽的打擊都是災難性的。

挑選櫻桃

為了說明統計謬誤多么明顯和簡單，讓我們從每個人都應該知道的經典謬論開始：挑選櫻桃。我們可以將其歸類為其他容易識別的謬誤，例如“賭徒謬誤”“虛假因果關系”“偏見抽樣”“過度概括”等等。

挑選櫻桃的想法很簡單，你之前肯定已經做過這樣的事情：有意選擇那些有助于支持你的假設的數據點，而犧牲其他不支持你的假設或積極反對你的假設的數據點。你聽過政客講話嗎?那么你一定會聽到“挑選櫻桃”。另外，如果你是一個活生生的呼吸的人類，那么在生命中的某個時刻你已經選擇了挑選櫻桃的數據。你知道你有這么做過。它往往很誘人，是一種很容易獲得的成果，可以在辯論中贏得或混淆對手，或者以反對的觀點為代價來幫助推動議程。

為什么不好?因為這是不誠實的，這就是原因。如果數據是事實，并且使用統計工具分析數據將有助于發掘事實，那么“挑選櫻桃”就是尋求事實的對立面。不要這樣做。

麥克納馬拉謬誤

麥克納馬拉謬誤以美國前國防部部長羅伯特·麥克納馬拉的名字命名，在越南戰爭期間，他的有關決定基于那些很容易獲得的定量度量，而忽略其他定量度量。這導致他將個體計數(容易獲得的指標)作為成功的唯一指標，而以其他所有定量指標為代價。

不用花很多腦力，你就會發現，簡單的個體計數很可能使你在評估戰場表現時誤入歧途。舉一個簡單的例子，也許敵人正以不成比例的戰斗人員進入你的領土，并控制領土，但陣亡人數比己方略多。另外，也許敵人比例囚禁你的戰士的比例高于你殺死敵人的比例，等等。

增加統計盲點并把所有信任放在一個簡單的度量上，不足以全面了解越南正在發生的事情，也無法全面了解你所做的事情。

眼鏡蛇效應

眼鏡蛇效應被認為是一個問題解決方案的意外后果，但這反而使問題變得更糟。該名稱來自在英國殖民統治下發生在印度的這一現象的特定實例，其中包括，你肯定猜到了，眼鏡蛇。

維基百科頁面上有一些眼鏡蛇效應的例子，我最喜歡的是在1980年代末嘗試減少墨西哥城污染物的例子。政府打算根據車牌的最后一位數字，將特定周內可行駛的車輛數量限制為20%，以減少車輛的排放。為了規避這項政策，該市居民購買了其他帶有不同車牌的車輛，以期在禁止其主要車輛使用之日起能夠駕駛其他允許的駕駛車輛。這導致相對便宜的汽車泛濫成災，最終使污染問題惡化。

鑒于意外后果的性質是潛在的，并且很難預測，因此這比挑選櫻桃要難應對得多。團隊采用數據科學方法，以及更多人員帶來額外思考過程，是對抗眼鏡蛇效應的好方法。

辛普森悖論

這種悖論以英國統計學家愛德華·辛普森命名(盡管先前已被其他人識別)，是指觀察到數據集子集中的某些趨勢，但這些趨勢隨著子集的合并就消失了。從這個意義上講，可以將其視為無意中的挑選櫻桃。棒球的例子可以幫助說明這種悖論。

如果我們比較兩位職業球手在他們整個職業生涯的平均擊球率，你可能會發現在某些年份子集，球員A的擊球平均值高于球員B，甚至可能更高。但是，完全有可能的是，在整個職業生涯查看擊球平均數，球員B實際上比球員A擁有更高的擊球平均數，甚至可能更高。

如果你提前知道這一點，并有選擇地選擇了X，Y和Z年份作為A是更好球員的證據，那就是挑選櫻桃。如果你不了解聚合統計信息，但偶然碰到了那些孤立的年份，并把它們作為整個職業生涯的代表，但是(希望)在查看了全部統計信息后發現了另外的情況，那將是辛普森悖論的一個例子。

兩種情況都導致錯誤的結果，其中一種是導致錯誤理解的更無辜的方式。不過，這仍然是錯誤的，應該加以防范。全面的統計分析應成為數據科學家的工作方案的一部分，并且是確保你不屈服于這種現象的一種有效方法。

數據疏浚

數據疏浚還有其他更加不好的名字，例如 p-hacking，它是“誤用數據分析以查找數據中具有統計學意義的模式，而這些模式實際上沒有任何真實潛在影響。” 這相當于對數據進行廣泛的統計測試，并從重大結果中挑選櫻桃，以提高敘事效果(真正的挑選櫻桃?)。雖然統計分析應該從假設轉移到檢驗，但數據疏浚利用統計檢驗的結果強制獲得一個一致的假設。這相當于“我認為是這樣，現在我將測試我是否正確”與“讓我們看看數據可以通過測試說出什么，然后提出一個有助于支持這個結果的想法”之差。

但是為什么這樣做是錯的呢?為什么我們要首先形成假設然后進行檢驗，而不是僅僅讓數據決定我們從未想到要尋找的發現呢?有了足夠的數據和足夠的變量，我們就可以測試相關性，不需要很長時間我們就可以發現足夠多的顯著的個體組合。如果我們忽略所有反事實證據，而將注意力集中在這些一致的測試結果上，那么似乎那里確實有東西，而實際上卻沒有。它們只是偶然出現的結果。抓住機會并證明機會的合理性顯然不是科學應有的意義。

原文鏈接：

https://www.kdnuggets.com/2019/10/statistical-traps-data-scientists-avoid.html

【本文是51CTO專欄機構大數據文摘的原創譯文，微信公眾號“大數據文摘（ id: BigDataDigest）”】

戳這里，看該作者更多好文

責任編輯：趙寧寧來源： 51CTO專欄

數據科學數據科學家統計

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據科學家應該避免的5種統計陷阱（附鏈接）