基礎(chǔ)統(tǒng)計(jì)學(xué):計(jì)算空難事件概率
航空作家兼研究員大衛(wèi)·諾蘭的一項(xiàng)研究表明,坐在商用飛機(jī)的后排在空難中會增加幸存的概率。
研究認(rèn)為每個(gè)座位的幸存概率是不一樣的,因此擬合優(yōu)度檢驗(yàn)會拒絕原假設(shè),即每個(gè)座位的乘客幸存率都相等。根據(jù) 1971 年以后發(fā)生的 20 起商用飛機(jī)墜機(jī)的分析結(jié)果,商務(wù)艙或頭等艙的幸存率為 49%,經(jīng)濟(jì)艙中間或者前面的幸存率為 56%,而經(jīng)濟(jì)艙尾部的幸存率為 69%。
大衛(wèi)·諾蘭表示他并不會刻意坐在機(jī)艙的尾部,因?yàn)榘l(fā)生空難的可能性很低。他更喜歡靠窗的座位。
頻數(shù)分布表
核心概念:在處理大型數(shù)據(jù)集時(shí),頻數(shù)分布表(或稱為頻數(shù)表)通常有助于整理和匯總數(shù)據(jù)。頻數(shù)分布表能幫助我們理解數(shù)據(jù)集分布的特點(diǎn)。此外,構(gòu)建頻數(shù)分布表通常是構(gòu)建直方圖的第一步,而直方圖是用于數(shù)據(jù)分布可視化的圖表。
頻數(shù)分布表(或頻數(shù)表)是通過展示數(shù)據(jù)類別(或組)以及每個(gè)類別中數(shù)據(jù)值的數(shù)量(頻數(shù)),來顯示數(shù)據(jù)是如何在不同類別(或組)間劃分的。
構(gòu)建頻數(shù)分布表的流程
構(gòu)建頻數(shù)分布表的目的是:①匯總大型數(shù)據(jù)集;②查看數(shù)據(jù)分布;③識別異常值;④為構(gòu)建圖
表(如直方圖)提供基礎(chǔ)。頻數(shù)分布表可以使用統(tǒng)計(jì)軟件生成,也可以通過如下步驟手動構(gòu)建。
1. 選擇分組的數(shù)目,通常在 5 到 20 之間。組數(shù)的選擇有時(shí)需要考慮使用近似值是否方便(根據(jù)“斯透奇斯規(guī)則”,最佳組數(shù)的選擇可以依據(jù) 1+(logn)/(log2) 近似,其中 n 是數(shù)據(jù)的個(gè)數(shù)。
2. 計(jì)算組距:
圖片
對結(jié)果取整,以便得到一個(gè)方便使用的數(shù)字(通常向上取整)。使用特定的組數(shù)不是最為關(guān)鍵的,而更需要關(guān)注的是通過更改組數(shù)得到方便使用的組上下限。
3. 選擇最小值或低于最小值的某一個(gè)較為方便使用的值作為第一組的下限。
4. 通過第一組的下限與組距,得到其他組的下限(用第一組的下限加組距得到第二組的下限;用第二組的下限加組距得到第三組的下限,以此類推)。
5. 在一個(gè)數(shù)列中列出所有組的下限,然后確定并列出所有組的上限。
6. 求得每組的頻數(shù)。
在構(gòu)建頻數(shù)分布表時(shí),要確保各組之間不重疊,即每個(gè)原始值只屬于其中一個(gè)組。即便是那些頻數(shù)為 0 的組,也要包含在內(nèi)進(jìn)行統(tǒng)計(jì)。另外,盡可能對所有的組使用相同的寬度,但有時(shí)也不可避免地需要使用開區(qū)間,如“65 歲或以上”。
空難原因頻數(shù)分布表
表 2-3 中列出了從 1960 年到最近幾年有關(guān)空難原因的數(shù)據(jù)。數(shù)據(jù)是名目測量尺度下的分類數(shù)據(jù),但也可以創(chuàng)建如表 2-3 所示的頻數(shù)分布表??梢钥吹?,飛行員失誤是空難的主要原因。這些信息有助于美國聯(lián)邦航空管理局(Federal Aviation Administration)等監(jiān)管機(jī)構(gòu)制定減少此類事故的策略。
圖片
用帕累托圖展示空難原因
圖2-8展示了基于表2-3的帕累托圖。圖 2-8 和表 2-3 使用了相同的數(shù)據(jù),但圖 2-8 能讓讀者更加鮮明地看到,飛行員失誤是空難的最重要原因。另外,圖 2-8 并沒有嚴(yán)格遵循長條高度從左到右依次遞減的要求,而是將“其他原因”的組放置在圖的最右邊起到可視化的效果。
圖片
概率在統(tǒng)計(jì)學(xué)中的角色
概率在假設(shè)檢驗(yàn)中起到了關(guān)鍵作用。統(tǒng)計(jì)學(xué)家根據(jù)數(shù)據(jù)做決策:根據(jù)低概率排除偶然發(fā)生的可能性。請看以下關(guān)于概率的作用和統(tǒng)計(jì)學(xué)家思維方式的例子。
概率論基礎(chǔ)
事件是一個(gè)過程的結(jié)果或結(jié)果的任意集合。簡單事件是不能進(jìn)一步拆分的結(jié)果或事件。一個(gè)過程的樣本空間由所有可能的簡單事件組成。也就是說,樣本空間由所有不能進(jìn)一步拆分的結(jié)果組成。
計(jì)算事件概率的三種常見方法
概率的數(shù)學(xué)符號
P,表示概率。
A、B、C,表示具體事件。
P(A),表示“事件 A 發(fā)生的概率”。
以下是三種計(jì)算概率 0 ≤ P(A) ≤ 1 的方法。圖 4-2 展示了概率的可能值以及對可能性的描述。
圖片
1. 相對頻數(shù)法:為了確定某類型車輛在一年內(nèi)發(fā)生車禍的概率,我們可以檢查過去的結(jié)果——一年內(nèi)正在使用的該類型車輛的數(shù)量和該類型車輛的車禍數(shù)量;車禍車輛數(shù)與總車輛數(shù)的比率即為該概率。最近一年,此概率的結(jié)果是 0.0480。
2. 經(jīng)典計(jì)算法:假設(shè)某彩票游戲的規(guī)則是從1~60 個(gè)數(shù)字中選擇 6 個(gè)不同的數(shù)字,且每種組合出現(xiàn)的概率都是相等的。現(xiàn)在需要確定中頭獎的概率。使用 4-4 節(jié)展示的方法可以發(fā)現(xiàn),中頭獎的概率是 0.0000000200。
3. 主觀估計(jì)法:假設(shè)需要估計(jì)被困在電梯里的概率,經(jīng)驗(yàn)告訴我們,這個(gè)概率相當(dāng)?shù)?。因此就估?jì)它為 0.001。
相對頻數(shù)法
任意給定一個(gè)航班,試求其發(fā)生空難的概率。假設(shè)在最近的一年中,大約有 3900 萬個(gè)商業(yè)航班,其中發(fā)生空難 16 次。
解答:使用相對頻數(shù)法,計(jì)算如下:
圖片
因?yàn)閮煞N結(jié)果(空難與沒有空難)的可能性是不等的,所以不能使用經(jīng)典計(jì)算法。在沒有歷史數(shù)據(jù)的情況下,可以使用主觀估計(jì)法。
用百分比表示概率?
從數(shù)學(xué)上講,概率值 0.25 等于 25%,但是一般使用分?jǐn)?shù)和小數(shù)而非百分比是有原因的。在進(jìn)行概率值計(jì)算時(shí)(如 0.25×0.25),雖然對小數(shù)的處理更為容易,但可能會導(dǎo)致很大的計(jì)算問題。專業(yè)期刊或統(tǒng)計(jì)軟件幾乎都用小數(shù)來表示概率。
使用相對頻數(shù)法所得的概率是一個(gè)近似值,而非確切值。但隨著觀測次數(shù)的增加,相應(yīng)的近似概率趨于接近實(shí)際概率。這個(gè)性質(zhì)通常被稱為大數(shù)定律。
大數(shù)定律:多次重復(fù)某個(gè)過程,事件的相對頻數(shù)概率趨于接近實(shí)際概率。
大數(shù)定律告訴我們,相對頻數(shù)法往往隨著觀測次數(shù)的增加而會得到更好的概率估計(jì)值。該定律反映了一個(gè)符合常識的簡單概念:僅基于少數(shù)幾次試驗(yàn)的概率估計(jì)可能會有很大的偏差,但如果進(jìn)行了大量試驗(yàn),則估計(jì)往往會更加準(zhǔn)確。
如何理解“可能”?
我們?nèi)绾谓庾x“可能”、“不可能”或“極不可能”這些詞語?美國聯(lián)邦航空管理局(FAA)對這些詞語的解讀如下。
可能:每小時(shí)飛行中發(fā)生該類事件的概率數(shù)量級大于或等于 0.00001。在每架飛機(jī)的使用壽命中,這樣的事件預(yù)計(jì)會發(fā)生幾次。
不可能:在 0.00001 或更小的數(shù)量級上的概率。此類事件預(yù)計(jì)不會在某一機(jī)型的單架飛機(jī)的總使用壽命內(nèi)發(fā)生,但可能在某一機(jī)型的所有飛機(jī)的總使用壽命內(nèi)發(fā)生。
極不可能:在 0.000000001 或更小的數(shù)量級上的概率。這樣的事件是幾乎不可能發(fā)生的,可以等同為沒有發(fā)生過。