面試必備:數(shù)據(jù)科學(xué)家必須掌握的3個(gè)統(tǒng)計(jì)學(xué)概念
從某些角度上來講,如今的數(shù)據(jù)科學(xué)家基本上等于現(xiàn)代統(tǒng)計(jì)學(xué)家。在數(shù)據(jù)科學(xué)面試中,我們也少不了要面對(duì)統(tǒng)計(jì)學(xué)相關(guān)的知識(shí)。
以下是數(shù)據(jù)科學(xué)相關(guān)面試中最頻繁出現(xiàn)的三種統(tǒng)計(jì)學(xué)問題,它們是許多數(shù)據(jù)科學(xué)應(yīng)用程序的基本構(gòu)建模塊。還有一些非常重要的統(tǒng)計(jì)學(xué)概念本文沒有提到,比如中心極限定理,但是在提及概率分布時(shí)它仍然是不可或缺。
接下來就開始吧!
1. 貝葉斯定理/條件概率
你需要理解貝葉斯定理和條件概率,因?yàn)樽盍餍械臋C(jī)器學(xué)習(xí)算法之一——樸素貝葉斯算法就是建立在這兩個(gè)概念上的。此外,如果你研究的是在線機(jī)器學(xué)習(xí),你很可能會(huì)需要使用貝葉斯算法。
貝葉斯定理/條件概率
問題示例:你即將登上飛往西雅圖的飛機(jī),想知道是否應(yīng)該帶把傘。你隨機(jī)打電話給3個(gè)住在那里的朋友,分別問他們西雅圖是否在下雨。每一個(gè)朋友都有2/3的機(jī)會(huì)告訴你真相,1/3的機(jī)會(huì)說謊來攪亂你。結(jié)果3個(gè)朋友都告訴你“是的,西雅圖在下雨”。那么西雅圖下雨的概率是多少?
貝葉斯定理
條件概率
答:可以看出這個(gè)問題與貝葉斯理論有關(guān),因?yàn)樽詈笠粋€(gè)陳述基本遵循了這個(gè)結(jié)構(gòu),即“如果B為真,A為真的概率是多少?”因此,我們需要知道西雅圖某一天下雨的概率。假設(shè)這個(gè)概率是25%。
- P(A) =下雨的概率= 25%
- P(B) =三個(gè)朋友都說下雨的概率
- P(A |B)是“假設(shè)朋友說下雨,那么真實(shí)下雨”的概率
- P(B|A) 是“假設(shè)真的在下雨,那么3個(gè)朋友都說在下雨”的概率= (2/3)3 = 8/27
步驟一:求解P(B)
- P(A|B) = P(B|A) * P(A) / P(B),可以寫作——P(B) = P(B|A) * P(A) + P(B|非 A) * P(非 A)
- P(B) = (2/3)3 * 0.25 + (1/3)3 * 0.75 = 0.25*8/27 + 0.75*1/27
步驟二:求解P(A|B)
- P(A|B) = 0.25 * (8/27) / ( 0.25*8/27 + 0.75*1/27)
- P(A|B) = 8 / (8 + 3) = 8/11
因此,如果三個(gè)朋友都說下雨了,那么下雨的概率是8/11。
2. 計(jì)算應(yīng)用
如果你正在從事網(wǎng)絡(luò)安全、模式分析、運(yùn)籌學(xué)等工作,那么組合和排列是極其重要的。讓我們?cè)倩仡櫼幌滤鼈兊母拍睿?/p>
排列
定義:n個(gè)元素的排列是指將這n個(gè)元素按照一定的順序排列。排列n個(gè)元素有n的階乘種方法。注意,順序很重要!
一次取r的n個(gè)事物的排列數(shù)被定義為可以從n個(gè)不同元素中提取的r元組的數(shù)目,它等于以下等式:
例題:一個(gè)6位數(shù)的車牌有多少種排列方式?
答案
組合
定義:在順序無關(guān)緊要的n個(gè)對(duì)象中選擇r的方法數(shù)。
一次取r的n個(gè)事物的組合數(shù)定義為一個(gè)有n個(gè)元素的集合中有r個(gè)元素的子集的個(gè)數(shù),等于:
例題:從52張牌中抽出6張牌的方法有多少種?
答案
這些都是非常簡單的問題,而你真實(shí)遇到的可能會(huì)比這復(fù)雜得多,但萬變不離其宗,所以你要充分理解上面的例子。
3. 概率分布/置信區(qū)間
我們很容易在概率分布中感到迷茫,因?yàn)楦怕史植夹问綄?shí)在太多了。如果必須選擇五個(gè)主要的分布來介紹,它們會(huì)是:
- 正態(tài)分布
- 泊松分布
- 二項(xiàng)分布
- 指數(shù)分布
- ·均勻分布
問題:蘇格蘭去年的兇殺率從前年的115人下降到99人。這些報(bào)道的變化真的值得注意嗎?
答:這是一個(gè)泊松分布問題,平均值=λ=方差,這也意味著標(biāo)準(zhǔn)差=平均值的平方根。
- 95%置信區(qū)間意味著z值為1.96。
- 一個(gè)標(biāo)準(zhǔn)差=√115 = 10.724
因此,置信區(qū)間=115+/-21.45=[93.55,136.45]。由于99在這個(gè)置信區(qū)間內(nèi),我們可以假設(shè)這種變化不是很值得注意。
文中給出的例子看起來都不難,但生動(dòng)地表達(dá)了這些包羅萬象的概念的核心內(nèi)容,希望能幫助你對(duì)這三個(gè)重要概念有基本理解。
本文轉(zhuǎn)載自微信公眾號(hào)「讀芯術(shù)」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系讀芯術(shù)公眾號(hào)。