數據科學之基石：數據科學家應該掌握的10個統計學概念

作者：讀芯術 2021-01-29 14:38:36

大數據

數據科學是一個跨學科領域，其基石之一是統計學。如果沒有足夠的統計知識，就很難理解或解釋數據。

本文轉載自公眾號“讀芯術”(ID：AI_Discovery)。

數據科學是一個跨學科領域，其基石之一是統計學。如果沒有足夠的統計知識，就很難理解或解釋數據。

統計學幫助解釋數據。我們使用統計學方法，根據從某個總體中抽取的樣本，推斷出該總體的結果。此外，機器學習和統計學也有很多交叉。要成為一名數據科學家，就需要學習統計學及其概念。本文將具體解釋10個基本的統計概念。

[[379339]]

1. 總體與樣本

總體是一個群體中的所有元素。例如，美國的大學生是包括美國所有大學生的總體。在歐洲25歲的人是一個總體，該總體包括所有符合該描述的人。

由于我們不能收集一個總體的所有數據，因此對總體進行分析有時是不可行或不可能的，因此，可以借助樣本進行分析。樣本是總體的一個子集。例如，1000名美國大學生是“美國大學生”總體的一個子集。

2. 正態分布

概率分布是表示事件或實驗結果概率的函數。考慮數據幀中的一個特性(即列)。這個特征是一個變量，它的概率分布函數顯示了可以取值的區間。

概率分布函數在預測分析或機器學習中非常有用。我們可以根據某個總體樣本的概率分布函數來預測該總體。

正態(高斯)分布是一個概率分布函數，看起來像一個鐘型。下圖顯示了典型正態分布曲線的形狀。

曲線的峰值表示變量最可能采用的值。離峰值越遠，取該值的概率就越小。

3.量度集中趨勢

中心趨勢是概率分布的中心值(或典型值)。最常用的中心趨勢度量是平均數、中位數和眾數。

· 平均數是一列數值的平均值。

· 中位數是按升序或降序排序時中間的值。

· 眾數是最常出現的值。

4.方差與標準差

方差是值之間變化的度量。它的計算方法是求每個值和平均值的平方差，然后將這些平方差相加，最后將總和除以樣本數。

標準差是衡量數值分布的一種方法，它是方差的平方根。

5. 協方差和相關性

協方差是一種定量方法，它表示兩個變量的變化在多大程度上相互匹配。更具體地說，協方差以其平均值(或預期值)來比較兩個變量的偏差。

下圖顯示了隨機變量X和Y的一些值。橙色點表示這些變量的平均值。這些值的變化與變量的平均值類似。因此，X和Y之間存在正值協方差。

兩個隨機變量的協方差公式：

其中E是期望值，µ是平均值。

相關性是通過每個變量的標準差對協方差進行正態化。

其中σ是標準偏差。

這種正態化消除了單位，相關值始終在0和1之間。請注意，這是絕對值。如果兩個變量之間存在負相關性，則相關性介于-1和0之間。如果比較三個或更多變量之間的關系，最好使用相關性，因為值的范圍或單位可能會導致其假設錯誤。

6.中心極限定理

隨機變量的分布在社會科學的許多領域都鮮為人知，因此正態分布得以廣泛應用。

中心極限定理(CLT)解釋了為什么正態分布可以用來證明這種極限情況。根據中心極限定理，當我們從一個分布中抽取更多樣本時，無論總體分布如何，樣本平均值都將趨向于正態分布。

思考這樣一個案例：我們需要了解一個國家所有20歲人群的身高分布。收集這些數據幾乎是不可能，也不實際的。所以，我們在全國范圍內抽取了20歲的人群樣本，計算樣本中人群的平均身高。中心極限定理指出，當我們從人群中抽取樣本越多時，樣本分布將越接近正態分布。

為什么正態分布如此重要?正態分布是用均值和標準差來描述的，可以很容易地計算出來。如果知道正態分布的平均值和標準差，就可以計算出幾乎所有關于它的信息。

7.P值

P值是衡量隨機變量取值可能性的量。假設有一個隨機變量A和x值，x的p值是A取x值時的概率，或者是取任何其他值時，有相同或更少機會被觀察到的值的概率。

下圖顯示了A的概率分布，很容易就觀察到10左右的值。隨著值的增大或減小，概率降低。

有另一個隨機變量B，而且想看B是否大于A。從B中獲得的平均樣本均值為12.5。12.5的p值位于下圖中的綠色區域。綠色區域表示獲得12.5或更大極值的概率(在本例中高于12.5)。

假設p值是0.11，怎么解釋呢?p值為0.11意味著我們對結果有89%的把握。換言之，該結果受隨機事件影響的可能性有11%。類似地，p值為0.05意味著結果受到隨機事件影響的可能性為5%。

如果隨機變量B的樣本均值的平均值為15，這是一個更極端的值，p值將低于0.11。

8.期望值和隨機變量

隨機變量的期望值是該變量所有可能值的加權平均值。這里的權重是指隨機變量取特定值的概率。對于離散和連續隨機變量，期望值的計算是不同的。

· 離散隨機變量取有限多或可數無限多的值。一年中的雨天數是一個離散的隨機變量。

· 連續隨機變量取不可數的無窮多個值。例如，從家到辦公室的時間是一個連續的隨機變量。根據你測量它的方式(分、秒、納秒等等)，它需要無數個值。

離散隨機變量期望值的公式為：

連續隨機變量的期望值用相同的邏輯計算，但方法不同。因為連續的隨機變量可以取不可數的無窮多個值，所以我們不能談論取特定值的變量。我們更關注其有價值的范圍。

為了計算值范圍的概率，使用概率密度函數(PDF)。PDF是一個函數，指定隨機變量在特定范圍內取值的概率。

9. 條件概率

概率單純是指事件發生的可能性，永遠取0到1(包括0和1)之間的值。事件A的概率表示為p(A)，并有期望結果的數量除以所有結果的數量來計算。例如，當擲骰子時，得到小于3的數字的概率是2/6。期望結果數為2(1和2);總結果數為6。

條件概率是假設與事件A有關的另一個事件已經發生時，事件A發生的可能性。

如下所示，假設有兩個盒子，盒子里放著6個藍色的球和4個黃色的球。我讓你隨便挑一個球。得到藍球的概率是6/10=0,6。如果我讓你從A盒中挑一個球結果會怎樣?

選擇藍色球的概率明顯降低。這里的條件是從A盒中取球，與之前事件(挑選一個藍色的球)發生的概率相比，發生了明顯改變。給定事件B已經發生的事件A的概率表示為p(A | B)。

10. 貝葉斯定理

根據貝葉斯定理，在給定事件B已經發生的條件下，A發生的概率以及給定事件A已經發生的條件下，事件B發生的概率可以用事件A和事件B的概率來計算。

這就是所謂的普遍存在的貝葉斯統計定理。在貝葉斯統計定理中，事件或假設事件發生的概率可以作為證據發揮作用。因此，先驗概率和后驗概率因證據而異。

樸素貝葉斯算法是結合貝葉斯定理和一些樸素假設構造的。樸素貝葉斯算法假設特征是相互獨立的，特征之間沒有相關性。

當然，關于統計學還有很多東西要學。從基礎知識開始，你可以穩步地深入到高級主題。

責任編輯：趙寧寧來源：今日頭條

數據科學數據科學家統計學

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據科學之基石：數據科學家應該掌握的10個統計學概念