成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據科學家應該避免的5種統計陷阱(附鏈接)

企業動態
這里有五個統計謬誤,或者稱之為陷阱,數據科學家應該重視并絕對避免它們。做不到這一點對數據結果和數據科學家的信譽的打擊都是災難性的。

作者:Matthew Mayo

編譯:馮羽、陳雨琳

這篇文章講了五種統計謬誤,也可以稱為數據陷阱,數據科學家應該重視并絕對避免它們。謬誤就是我們所說的錯誤推理的結果。統計謬誤是統計誤用的一種形式,其統計推理能力極差;或許你擁有的數據正確,但無論你的意圖多么純粹,你所使用的方法和解釋都不正確。因此,你基于這些錯誤舉動做出的任何決定都必然是錯誤的。

有無數種基于數據進行錯誤推理的方法,其中某些方法比其他方法錯得更加明顯。由于人們一直犯這類錯誤,許多統計謬論已經被識別并被解釋。好消息是,一旦識別并研究了它們,我們就可以避免它們。讓我們看看其中一些相對更常見的謬誤,看看如何避免它們。

當誤用統計是無意的,這個過程類似于認知偏見,維基百科將其定義為“以特定方式進行思考的傾向,可能導致系統性地偏離理性或良好判斷標準”。前者建立在數據之上不正確的推理和對數據進行顯式和主動的分析,而后者則更隱式和被動地達到了類似的結果。但是,這并不是絕對的,因為這兩種現象之間肯定存在重疊。最終結果是相同的:錯誤。

這里有五個統計謬誤,或者稱之為陷阱,數據科學家應該重視并絕對避免它們。做不到這一點對數據結果和數據科學家的信譽的打擊都是災難性的。

挑選櫻桃

為了說明統計謬誤多么明顯和簡單,讓我們從每個人都應該知道的經典謬論開始:挑選櫻桃。我們可以將其歸類為其他容易識別的謬誤,例如“賭徒謬誤”“虛假因果關系”“偏見抽樣”“過度概括”等等。

挑選櫻桃的想法很簡單,你之前肯定已經做過這樣的事情:有意選擇那些有助于支持你的假設的數據點,而犧牲其他不支持你的假設或積極反對你的假設的數據點。你聽過政客講話嗎?那么你一定會聽到“挑選櫻桃”。另外,如果你是一個活生生的呼吸的人類,那么在生命中的某個時刻你已經選擇了挑選櫻桃的數據。你知道你有這么做過。它往往很誘人,是一種很容易獲得的成果,可以在辯論中贏得或混淆對手,或者以反對的觀點為代價來幫助推動議程。

為什么不好?因為這是不誠實的,這就是原因。如果數據是事實,并且使用統計工具分析數據將有助于發掘事實,那么“挑選櫻桃”就是尋求事實的對立面。不要這樣做。

麥克納馬拉謬誤

麥克納馬拉謬誤以美國前國防部部長羅伯特·麥克納馬拉的名字命名,在越南戰爭期間,他的有關決定基于那些很容易獲得的定量度量,而忽略其他定量度量。這導致他將個體計數(容易獲得的指標)作為成功的唯一指標,而以其他所有定量指標為代價。

不用花很多腦力,你就會發現,簡單的個體計數很可能使你在評估戰場表現時誤入歧途。舉一個簡單的例子,也許敵人正以不成比例的戰斗人員進入你的領土,并控制領土,但陣亡人數比己方略多。另外,也許敵人比例囚禁你的戰士的比例高于你殺死敵人的比例,等等。

增加統計盲點并把所有信任放在一個簡單的度量上,不足以全面了解越南正在發生的事情,也無法全面了解你所做的事情。

眼鏡蛇效應

眼鏡蛇效應被認為是一個問題解決方案的意外后果,但這反而使問題變得更糟。該名稱來自在英國殖民統治下發生在印度的這一現象的特定實例,其中包括,你肯定猜到了,眼鏡蛇。

維基百科頁面上有一些眼鏡蛇效應的例子,我最喜歡的是在1980年代末嘗試減少墨西哥城污染物的例子。政府打算根據車牌的最后一位數字,將特定周內可行駛的車輛數量限制為20%,以減少車輛的排放。為了規避這項政策,該市居民購買了其他帶有不同車牌的車輛,以期在禁止其主要車輛使用之日起能夠駕駛其他允許的駕駛車輛。這導致相對便宜的汽車泛濫成災,最終使污染問題惡化。

鑒于意外后果的性質是潛在的,并且很難預測,因此這比挑選櫻桃要難應對得多。團隊采用數據科學方法,以及更多人員帶來額外思考過程,是對抗眼鏡蛇效應的好方法。

辛普森悖論

這種悖論以英國統計學家愛德華·辛普森命名(盡管先前已被其他人識別),是指觀察到數據集子集中的某些趨勢,但這些趨勢隨著子集的合并就消失了。從這個意義上講,可以將其視為無意中的挑選櫻桃。棒球的例子可以幫助說明這種悖論。

如果我們比較兩位職業球手在他們整個職業生涯的平均擊球率,你可能會發現在某些年份子集,球員A的擊球平均值高于球員B,甚至可能更高。但是,完全有可能的是,在整個職業生涯查看擊球平均數,球員B實際上比球員A擁有更高的擊球平均數,甚至可能更高。

如果你提前知道這一點,并有選擇地選擇了X,Y和Z年份作為A是更好球員的證據,那就是挑選櫻桃。如果你不了解聚合統計信息,但偶然碰到了那些孤立的年份,并把它們作為整個職業生涯的代表,但是(希望)在查看了全部統計信息后發現了另外的情況,那將是辛普森悖論的一個例子。

兩種情況都導致錯誤的結果,其中一種是導致錯誤理解的更無辜的方式。不過,這仍然是錯誤的,應該加以防范。全面的統計分析應成為數據科學家的工作方案的一部分,并且是確保你不屈服于這種現象的一種有效方法。

數據疏浚

數據疏浚還有其他更加不好的名字,例如 p-hacking,它是“誤用數據分析以查找數據中具有統計學意義的模式,而這些模式實際上沒有任何真實潛在影響。” 這相當于對數據進行廣泛的統計測試,并從重大結果中挑選櫻桃,以提高敘事效果(真正的挑選櫻桃?)。雖然統計分析應該從假設轉移到檢驗,但數據疏浚利用統計檢驗的結果強制獲得一個一致的假設。這相當于“我認為是這樣,現在我將測試我是否正確”與“讓我們看看數據可以通過測試說出什么,然后提出一個有助于支持這個結果的想法”之差。

但是為什么這樣做是錯的呢?為什么我們要首先形成假設然后進行檢驗,而不是僅僅讓數據決定我們從未想到要尋找的發現呢?有了足夠的數據和足夠的變量,我們就可以測試相關性,不需要很長時間我們就可以發現足夠多的顯著的個體組合。如果我們忽略所有反事實證據,而將注意力集中在這些一致的測試結果上,那么似乎那里確實有東西,而實際上卻沒有。它們只是偶然出現的結果。抓住機會并證明機會的合理性顯然不是科學應有的意義。

原文鏈接:

https://www.kdnuggets.com/2019/10/statistical-traps-data-scientists-avoid.html

【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】

     大數據文摘二維碼

戳這里,看該作者更多好文

 

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2019-07-03 15:21:47

數據科學統計數據數據結構

2017-04-12 09:34:30

數據科學家統計學家好習慣

2017-08-04 15:53:10

大數據真偽數據科學家

2021-01-29 14:38:36

數據科學數據科學家統計學

2016-05-11 10:36:16

數據科學家數據科學大數據

2017-01-23 16:00:25

數據科學家大數據數學家

2018-07-03 11:02:28

數據陷阱經驗

2019-12-11 19:19:19

算法數據科學家代碼

2019-07-30 12:05:20

數據科學采樣算法

2016-09-22 14:28:33

數據科學家算法

2020-09-04 16:17:15

數據科學離群點檢測

2019-07-11 12:59:27

數據科學家概率分布統計

2012-12-26 10:51:20

數據科學家

2012-12-06 15:36:55

CIO

2018-12-24 08:37:44

數據科學家數據模型

2018-02-28 15:03:03

數據科學家數據分析職業

2018-03-27 11:02:55

2015-09-15 09:32:50

2017-08-22 10:25:43

IT人才數據科學HR

2012-12-25 09:58:50

數據科學家大數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久草网站 | 天天干天天干 | 午夜影院在线免费观看视频 | 999久久久久久久久6666 | 成人在线精品视频 | 成人自拍av | 欧美高清免费 | 国外成人在线视频网站 | 亚洲精品久久嫩草网站秘色 | 中文字幕亚洲精品在线观看 | 成人av播放 | 日韩成人精品在线观看 | 欧美成人第一页 | 亚洲精品久久久久国产 | 国产特一级黄色片 | 国产1区2区3区 | 国产精品久久久久久久一区二区 | 精品国产一区二区三区久久久久久 | 国产成人精品一区二区三区视频 | 中文字幕在线一区 | 精品福利一区二区三区 | 午夜理伦三级理论三级在线观看 | 一区二区三区在线免费观看 | 日本一区二区在线视频 | 久久成人免费视频 | 成人a网| 国产精品成人69xxx免费视频 | 亚洲综合区 | 7777奇米影视 | 少妇一区二区三区 | 国产一区久久 | 日韩手机在线视频 | 久久精品亚洲欧美日韩久久 | 亚洲导航深夜福利涩涩屋 | 在线免费观看黄色 | 色综合桃花网 | 毛片1| 久久久久久a | 久久精品av| av在线免费网站 | 奇米影视77 |