成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據科學中的三大統計悖論

大數據 數據分析
觀察到令人驚訝的現象,例如在匯總數據中完全還原的子組趨勢,的確不罕見。在本文中,我們研究了數據科學中遇到的三種最常見的統計悖論。

在任何數據科學應用中,觀察偏差和亞組差異很容易產生統計悖論。因此,忽略這些因素會完全破壞我們的分析結論。

觀察到令人驚訝的現象,例如在匯總數據中完全還原的子組趨勢,的確不罕見。在本文中,我們研究了數據科學中遇到的三種最常見的統計悖論。

[[383952]]

1. 伯克森悖論

第一個引人注目的例子是觀察到的COVID-19嚴重程度與吸煙之間的負相關性(例如,參見Wenzel 2020年的歐盟委員會審查)。吸煙是呼吸系統疾病的眾所周知的危險因素,那么我們如何解釋這種矛盾呢?

最近在《自然》雜志上發表的2020年格里菲斯(Griffith 2020)的工作表明,這可能是Collider Bias(也稱為Berkson悖論)的例子。為了理解這一悖論,讓我們考慮以下圖形模型,其中包括第三個隨機變量:“正在住院”。

第三個變量“正在住院”是前兩個變量的對撞者。這意味著吸煙和嚴重COVID-19都會增加在醫院生病的機會。當我們以對撞機為條件時,即當我們僅觀察住院患者的數據而不考慮整個人口時,伯克森悖論恰好出現。

讓我們考慮以下示例數據集。在左圖中,我們觀察到了整個人群,而在右圖中,我們僅考慮了一部分住院患者(即,我們以對撞機變量為條件)。

在左圖中,我們可以觀察到COVID-19嚴重程度與吸煙之間的正相關關系,因為我們知道吸煙是呼吸系統疾病的危險因素,因此我們可以預期。

但是在正確的數字上(我們只考慮住院患者),我們看到了相反的趨勢!要理解這一點,請考慮以下幾點。

  • 嚴重程度較高的COVID-19會增加住院的機會。特別是,如果嚴重程度大于1,則需要住院治療。
  • 每天抽幾支煙是多種疾病(心臟病,癌癥,糖尿病)的主要危險因素,由于某種原因,這些疾病增加了住院的機會。
  • 因此,如果住院患者的COVID-19嚴重程度較低,則他們吸煙的機會更高!實際上,他們必須患有與COVID-19不同的某種疾病(例如心臟病,癌癥,糖尿病)以證明其住院治療的合理性,而這種疾病很可能是由吸煙引起的。

這個例子與伯克森1946年的原始工作非常相似,作者發現醫院患者的膽囊炎和糖尿病之間存在負相關關系,盡管糖尿病是膽囊炎的危險因素。

2. 潛在變量

潛在變量的存在還可能在兩個變量之間產生明顯相反的相關性。盡管伯克森的悖論是由于對撞機變量的條件而出現的(因此應避免使用),但可以通過對潛變量的條件來解決另一種悖論。

例如,讓我們考慮一下撲滅火災的消防員人數與火災中受傷人數之間的關系。我們希望擁有更多的消防員會改善結果(在某種程度上,請參見布魯克斯定律),但是在匯總數據中卻發現存在正相關關系:部署的消防員越多,受傷人數越多!

為了理解這種矛盾,讓我們考慮以下圖形模型。關鍵是再次考慮第三個隨機變量:“火災嚴重性”。

該第三潛在變量與其他兩個正相關。確實,更嚴重的火災往往會造成更多的傷害,同時又需要更多的消防員被撲滅。

讓我們考慮以下示例數據集。在左圖中,我們匯總了來自各種火災的觀測值,而在右圖中,我們僅考慮了與三個固定程度的火災嚴重性相對應的觀測值(即,我們將觀測值設置為潛變量)。

在右圖中,我們根據火勢的嚴重程度對觀測值進行了條件調整,可以看到我們期望的負相關。

  • 對于給定的嚴重程度的火災,我們確實可以觀察到,消防員部署的越多,受傷的人就越少。
  • 如果我們著眼于嚴重程度較高的火災,即使部署的消防員人數和受傷人數都較高,我們也會觀察到相同的趨勢。

3. 辛普森悖論

當在子組中始終觀察到趨勢時出現辛普森悖論,這是一個令人驚訝的現象,但是如果合并子組,則趨勢會反轉。它通常與數據子組中的類不平衡有關。

這個悖論的一個臭名昭著的發生是在比克爾(Bickel)1975年進行的,當時對加利福尼亞大學的錄取率進行了分析,以發現性別歧視的證據,并揭示了兩個明顯矛盾的事實。

  • 一方面,他觀察到每個部門的女性申請人的錄取率均高于男性申請人。
  • 另一方面,總數表明,女性申請人的錄取率低于男性申請人。

為了了解如何做到這一點,讓我們考慮以下兩個A部門和B部門的數據集。

  • 在100名男性申請人中:接受了A部門申請的80名和68名(85%),而接受B部門申請的20名和12名(60%)被接受。
  • 在100名女性申請人中:接受了A部門申請的30名和28名(93%),而接受B部門申請的70名和46名(66%)被接受。

悖論由以下不等式表示。

現在,我們可以了解我們看似矛盾的觀察的起源了。關鍵是在兩個部門中,每個部門的申請者的性別存在嚴重的失衡(部門A:80–30,部門B:20–70)。確實,大多數女學生申請了競爭更激烈的B部門(錄取率較低),而大多數男學生則申請了競爭較弱的A部門(錄取率較高)。這導致了我們的矛盾觀察。

結論

潛在變量,對撞機變量和類不平衡會在許多數據科學應用程序中輕易產生統計悖論。因此,必須特別注意這些關鍵點,以正確得出趨勢并分析結果。

原文鏈接:https://towardsdatascience.com/top-3-statistical-paradoxes-in-data-science-e2dc37535d99

 

責任編輯:趙寧寧 來源: 今日頭條
相關推薦

2020-10-31 22:04:39

統計和數據科學數據科學家

2024-11-22 14:26:00

2017-12-13 10:08:26

大數據圖數據推理數據科學

2018-09-18 23:25:49

Python數據科學

2021-07-08 15:45:08

統計學AI深度學習

2018-11-19 06:00:32

數據科學家數據科學

2019-08-19 09:31:47

數據機器學習統計學習

2019-08-27 09:34:29

數據科學統計機器學習

2018-06-05 11:30:22

數據科學機器學習統計學

2012-01-16 09:17:38

華為華為手機

2021-01-29 14:38:36

數據科學數據科學家統計學

2022-04-28 10:29:38

數據數據收集

2013-05-13 13:31:28

2017-08-21 15:35:57

大數據云計算UE

2018-05-25 10:42:36

數據中心功率密度

2019-02-14 14:47:39

大數據數據科學家企業

2021-01-13 15:13:07

Python開發 工具

2014-06-26 09:41:13

數據分析

2018-03-15 09:53:48

大數據機器學習云服務

2017-11-21 14:42:30

數據科學統計學習機器學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品自在线 | 日韩欧美国产一区二区三区 | 日本天堂一区 | 日韩精品免费看 | 国产999精品久久久 精品三级在线观看 | 一级毛片免费完整视频 | 国产在线视频一区 | 特级做a爰片毛片免费看108 | 国产综合视频 | 久久人人爽人人爽人人片av免费 | 91亚洲精品久久久电影 | 爱综合| 中文字幕在线观看一区 | 青青激情网 | 午夜精品一区二区三区在线观看 | 精品一区二区久久 | 亚洲 欧美 综合 | 老外几下就让我高潮了 | 久久99蜜桃综合影院免费观看 | 超碰在线人人干 | 国内在线视频 | 一区二区三区久久 | 日韩中文字幕av | 亚洲欧美在线观看 | 欧美a在线 | www.99re| 日本超碰| 日韩精品免费播放 | 国产精品视频偷伦精品视频 | 午夜电影网站 | 日本一卡精品视频免费 | aa级毛片毛片免费观看久 | 天天看天天摸天天操 | 999久久久| 天天操操操操操 | 欧美成人免费在线视频 | 久久爱黑人激情av摘花 | a级毛片免费高清视频 | 日韩欧美视频 | 欧美高清hd | 久久久久久一区 |