成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

當(dāng)統(tǒng)計(jì)學(xué)遇上大數(shù)據(jù)——P值消亡

數(shù)據(jù)庫(kù)
有一天,我走進(jìn)統(tǒng)計(jì)學(xué)的神殿 ,將所有謊言都裝進(jìn)原假設(shè)的盒子里,“P值為零”,一個(gè)聲音傳來(lái),“但你已經(jīng)不能再拒絕,因?yàn)椋琍值已經(jīng)死了”從此,這個(gè)世界上充斥著謊言。

 

[[117936]]

 

一、一個(gè)悲傷的故事:破滅的年少成名之夢(mèng)

首先跟大家說(shuō)一個(gè)悲傷的故事,該故事來(lái)源于nature最近發(fā)布的一篇文章“statistical errors”,我把這個(gè)故事叫做“破滅的年少成名之夢(mèng)”

話說(shuō),弗吉尼亞大學(xué)有一位意氣風(fēng)發(fā)俊朗不凡的博士研究生莫德?tīng)枴?/p>

[[117937]]

他做了一項(xiàng)關(guān)于關(guān)于政治極端分子的行為研究,樣本大約有2000個(gè)人群,結(jié)果發(fā)現(xiàn),相比較政治極端分子,政治溫和派似乎更能辨別不同色度的灰色。

[[117938]]

莫德?tīng)枌?duì)這項(xiàng)發(fā)現(xiàn)非常得意,因?yàn)閿?shù)據(jù)也給出了非常積極的結(jié)果,統(tǒng)計(jì)結(jié)果顯示P值為0.01,這意味著結(jié)果“非常顯著”。莫老兄十分有把握能把自己的論文發(fā)表在高影響因子的刊物上。

由于擔(dān)心實(shí)驗(yàn)結(jié)果陷入再現(xiàn)性爭(zhēng)論,莫兄和他的導(dǎo)師決定重復(fù)實(shí)驗(yàn),但是,在添加了新的數(shù)據(jù)之后,P值變成了0.59,這連0.05的顯著性水平都沒(méi)有達(dá)到!

傷心絕望的莫老兄知道,他觀察的心理學(xué)效應(yīng)站不住腳了,一同破滅的,還有那顆年少成名的美麗夢(mèng)想。

[[117939]]

實(shí)際上,問(wèn)題并不在數(shù)據(jù)中,而是P值出了問(wèn)題,正如羅斯福大學(xué)的經(jīng)濟(jì)學(xué)家史蒂芬所說(shuō),“P值沒(méi)有起到人們期望的作用,因?yàn)樗鼔焊筒豢赡芷鸬竭@個(gè)作用。”

[[117940]]

為什么呢?為什么P值沒(méi)有達(dá)到人們的期望?它的問(wèn)題到底在哪?現(xiàn)在和數(shù)說(shuō)君一起來(lái)梳理一下P值和假設(shè)檢驗(yàn)的歷史,并從中尋找答案吧。

二、P值和假設(shè)檢驗(yàn)的歷史

1. 拉普拉斯

P值得歷史可以追溯到1770年,數(shù)學(xué)家拉普拉斯在處理50萬(wàn)左右的生育數(shù)據(jù)時(shí),發(fā)現(xiàn)男性的生育率超過(guò)女性,對(duì)于這個(gè)無(wú)法解釋的“超越”,他計(jì)算了一個(gè)叫做“P值”的東西,以確定這個(gè)“超越”是真實(shí)的(Stigler 1986, P.134)。

2. KarlPearson

很多統(tǒng)計(jì)學(xué)家誤以為關(guān)于P值的正式文獻(xiàn)是費(fèi)雪發(fā)表的,其實(shí)不然,最早在文獻(xiàn)中正式闡述P值及其計(jì)算的,是統(tǒng)計(jì)學(xué)家Karl Pearson,你可能不了解他,但是他的Pearson卡方檢驗(yàn)?zāi)阋欢ㄖ溃@篇關(guān)于卡方檢驗(yàn)的文章當(dāng)時(shí)被發(fā)表在《哲學(xué)雜志》上,文章中一同被介紹的,還有一個(gè)被叫做“P值”的東東,見(jiàn)史料。

大數(shù)據(jù)

3. Fisher

P值能風(fēng)靡學(xué)術(shù)界這么多年,費(fèi)雪是***推手,被他推動(dòng)的除了P值,還有被稱為“費(fèi)雪學(xué)派”(Fisherian)的假設(shè)檢驗(yàn)思想。簡(jiǎn)單介紹下他的思想:

如果我們想要檢驗(yàn)一個(gè)樣本是否來(lái)自某個(gè)分布已知的總體,首先要建立一個(gè)“原假設(shè)”(null hypothesis),比如,下圖的例子我們假設(shè)該樣本來(lái)自正態(tài)總體N(m0,σ),那么原假設(shè)為:

H0:m=m0

但實(shí)際上我們得到的樣本均值不是m0,而是,那么Fisher他老人家當(dāng)時(shí)的想法是:在一個(gè)樣本均值為m0的正態(tài)總體中,抽樣得到這個(gè)均值為的樣本的幾率會(huì)有多大?我要是能計(jì)算出這個(gè)概率,就知道“這個(gè)樣本來(lái)自該總體”這件事有多靠譜了,如果概率太小,就認(rèn)為是不靠譜的事情,那么就可以認(rèn)定這個(gè)假設(shè)是錯(cuò)的。這就是假設(shè)檢驗(yàn)里的“小概率事件原理”,這個(gè)概率就是后來(lái)風(fēng)靡學(xué)術(shù)界的“P值”,一般認(rèn)為概率小于5%,就是不靠譜的事情,則需要拒絕原假設(shè)。

到此為止,F(xiàn)isher大神只字未提“備擇假設(shè)”,也從沒(méi)說(shuō)任何關(guān)于“接受”某個(gè)假設(shè)的事情,在Fisher的檢驗(yàn)哲學(xué)里,

1、驗(yàn)是基于無(wú)限總體中抽出的一個(gè)(注意是一個(gè))樣本;

2、著性檢驗(yàn)的基礎(chǔ)是基于原假設(shè)而得出的假想概率,這些檢驗(yàn)不能導(dǎo)出任何關(guān)于真實(shí)世界的概率論斷。

因此,費(fèi)雪以及他的P值檢驗(yàn)思想,從來(lái)沒(méi)有涉及到“備擇假設(shè)”的概念,沒(méi)有被認(rèn)為可以用來(lái)證明某個(gè)假設(shè)是對(duì)的。

大數(shù)據(jù)

4. Neyman-Pearson

后來(lái)流行的“備擇假設(shè)”的概念是在另一個(gè)重要的檢驗(yàn)思想里提出的,即Neyman-Pearson(以下簡(jiǎn)稱N-P)檢驗(yàn)思想。N-P學(xué)派發(fā)源于費(fèi)雪的思想,但卻與之不太一樣,他們兩派相互爭(zhēng)論了很多年。相比較于Fisher學(xué)派,Neyman他們主要有三個(gè)不同:

(1) 引入備擇假設(shè)

Neyman本人曾說(shuō),“接受一個(gè)假設(shè)H,僅僅意味著采用決策A要比決策B好,并不能說(shuō)明我們必須要相信假設(shè)H就是對(duì)的。”

(2) 引入兩種錯(cuò)誤:***類錯(cuò)誤和第二類錯(cuò)誤

***類錯(cuò)誤是指拒絕了一個(gè)正確的原假設(shè)(α),第二類錯(cuò)誤是指接受了一個(gè)錯(cuò)誤的原假設(shè)(β);

Power=1-β,被稱為檢驗(yàn)效力,它代表著拒絕一個(gè)錯(cuò)誤假設(shè)的概率;

N-P的檢驗(yàn)思想是,控制***類錯(cuò)誤(一般事先給定),使得第二類錯(cuò)誤的值越小越好,即power越大越好。

大數(shù)據(jù)大數(shù)據(jù)

(3) 使用拒絕域來(lái)進(jìn)行檢驗(yàn)

在N-P的思想框中,完全沒(méi)有提到P值,他們使用拒絕域來(lái)對(duì)假設(shè)進(jìn)行判別,具體檢驗(yàn)思想見(jiàn)下圖:

大數(shù)據(jù)

大數(shù)據(jù)

(4) 錯(cuò)誤的混合

比較以上兩個(gè)檢驗(yàn)我們發(fā)現(xiàn),F(xiàn)isherian和N-P的檢驗(yàn)思想完全不同,

1、雪學(xué)派的P值檢驗(yàn)思想,沒(méi)有涉及備擇假設(shè),也從來(lái)沒(méi)有被嚴(yán)格證明可以用來(lái)證明某個(gè)假設(shè)是對(duì)的。實(shí)際上,當(dāng)我們抽取的樣本變化時(shí),得到的P值也會(huì)變化,結(jié)論也會(huì)隨之變化。

2、-P學(xué)派使用備擇假設(shè),在判定是接受還是拒絕某個(gè)假設(shè)的時(shí),同時(shí)會(huì)給出兩類錯(cuò)誤以及power作為輔助參考,但是該學(xué)派(包括Neyman本人)從來(lái)不承認(rèn)“P值”這個(gè)東西。雖然樣本不同,他們的結(jié)論也會(huì)不同,但是N-P方法會(huì)在每個(gè)結(jié)論的后面給出相應(yīng)的power,說(shuō)明該結(jié)論的靠譜程度,相對(duì)于P值檢驗(yàn),這個(gè)方法更加規(guī)則嚴(yán)密。

3、isher和Neyman兩人知道對(duì)方的觀點(diǎn),但是彼此都不能相容,Neyman批評(píng)Fisher的某些工作從數(shù)學(xué)上講比“毫無(wú)用處”還糟,F(xiàn)isher對(duì)Neyman方法給出的評(píng)價(jià)是“無(wú)比幼稚”、“在西方學(xué)界中簡(jiǎn)直駭人聽(tīng)聞”(Nuzzo,2014)。

然而后世的許多統(tǒng)計(jì)學(xué)家錯(cuò)誤的將兩個(gè)方法進(jìn)行了混合,衍生出這樣的判別標(biāo)準(zhǔn),即:

用p<α作為判斷標(biāo)準(zhǔn),以決定接受原假設(shè)還是備擇假設(shè)

如Gibbons(1986,p.367)說(shuō):“P值與古典方法(即Neyman-Pearson)的關(guān)系是,如果p<=α,我們就要拒絕H0,如果p>α,我們就要接受H0。”

三、悲劇的結(jié)論

梳理完P(guān)值和假設(shè)檢驗(yàn)的歷史,你應(yīng)該知道為什么羅斯福大學(xué)的經(jīng)濟(jì)學(xué)家史蒂芬說(shuō),“P值沒(méi)有起到人們期望的作用,因?yàn)樗鼔焊筒豢赡芷鸬竭@個(gè)作用。”了,因?yàn)镻值從來(lái)沒(méi)有被證明可以用來(lái)接受某個(gè)假設(shè),即使是拒絕假設(shè),也是基于某個(gè)樣本得出的結(jié)論,當(dāng)樣本變動(dòng)時(shí),結(jié)論很可能也會(huì)變動(dòng)。

P值檢驗(yàn)會(huì)如此不靠譜?其實(shí),F(xiàn)isher本人對(duì)統(tǒng)計(jì)檢驗(yàn)的觀點(diǎn)更加悲觀,他認(rèn)為,統(tǒng)計(jì)學(xué)的功能僅僅在于歸納推論(inductive inference),而不是歸納行動(dòng)(inductive behavior);統(tǒng)計(jì)檢驗(yàn)應(yīng)該止于歸納結(jié)論,而不涉足于行動(dòng)判斷(Lv,2012)。

這是一個(gè)悲劇的結(jié)論,不僅對(duì)夢(mèng)碎的莫德?tīng)柪闲郑矊?duì)所有運(yùn)用統(tǒng)計(jì)學(xué)的研究者。

四、解決之道

面對(duì)“P值至上”的種種惡果,統(tǒng)計(jì)學(xué)家們給出了其他的解決方法,

1、免使用“顯著”或“不顯著”來(lái)進(jìn)行判斷。如心理學(xué)家Cumming建議,研究者應(yīng)當(dāng)給出置信區(qū)間和power,以讓讀者明白研究結(jié)果的靠譜程度。

2、用貝葉斯等決策方法。下圖是貝葉斯的判斷準(zhǔn)則,沒(méi)有P值的參與。

3、同一個(gè)數(shù)據(jù)使用多種方法進(jìn)行分析。結(jié)果越是不同,就越有可能出現(xiàn)重大的發(fā)現(xiàn)。

大數(shù)據(jù)

數(shù)說(shuō)君曰:P值死了,這是統(tǒng)計(jì)學(xué)的重生.

責(zé)任編輯:彭凡 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2015-01-07 15:49:21

大數(shù)據(jù)SSD

2013-05-29 09:53:39

2013-08-22 11:08:27

大數(shù)據(jù)商業(yè)只能Hadoop

2013-11-08 09:15:32

大數(shù)據(jù)平板電腦

2015-10-29 09:56:23

小數(shù)據(jù)大數(shù)據(jù)統(tǒng)計(jì)學(xué)

2015-10-22 10:54:24

小數(shù)據(jù)統(tǒng)計(jì)

2018-06-06 15:00:27

開(kāi)源大數(shù)據(jù)大數(shù)據(jù)項(xiàng)目

2015-07-29 11:27:28

大數(shù)據(jù)時(shí)代數(shù)據(jù)分析統(tǒng)計(jì)學(xué)

2021-06-10 19:02:37

大數(shù)據(jù)統(tǒng)計(jì)學(xué)機(jī)器學(xué)習(xí)

2015-08-17 09:43:08

2013-11-22 14:14:54

FusionCubeHANA大數(shù)據(jù)分析

2017-07-03 15:43:21

智慧交管互聯(lián)網(wǎng)+大數(shù)據(jù)

2016-05-24 17:03:48

2024-09-23 22:17:56

2013-05-22 09:33:09

交互設(shè)計(jì)設(shè)計(jì)時(shí)間

2016-10-21 15:57:39

Rust編輯語(yǔ)言Fedora

2022-02-24 16:15:16

OpenHarmon鴻蒙OpenEuler

2012-02-16 10:04:07

數(shù)據(jù)中心云計(jì)算

2017-11-01 14:09:30

大數(shù)據(jù)心理學(xué)新零售

2024-10-05 16:00:00

谷歌開(kāi)源模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 夜夜爽99久久国产综合精品女不卡 | 日本三级线观看 视频 | 天天天天操| 一级黄色影片在线观看 | 91资源在线 | 91久操视频 | 久草新在线 | 综合九九 | 超碰在线免费av | 综合久久久久 | 国产在线一区二区 | 国产免费一区二区三区最新6 | 国产精品一二三区 | 国产精品69毛片高清亚洲 | 中文字幕亚洲无线 | 欧美成人精品一区二区男人看 | 亚洲精品永久免费 | 日韩中文字幕第一页 | 日韩高清在线观看 | 国产成人免费视频网站高清观看视频 | 成人羞羞国产免费视频 | 永久免费在线观看 | 久久精品av麻豆的观看方式 | 欧美激情免费在线 | 欧美一级二级视频 | 色婷婷久久久亚洲一区二区三区 | 亚洲成人精品在线 | 人人操日日干 | 国产免费一区二区三区网站免费 | 玖玖视频网 | 天天操伊人 | 在线观看av免费 | 97伊人| 欧美日韩中文字幕 | 91在线观看| 日本三级做a全过程在线观看 | 中文字幕一区二区三区不卡 | 亚洲91| 久久久久国产精品人 | 激情av在线| 色综合九九 |