成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據科學之基石:數據科學家應該掌握的10個統計學概念

大數據
數據科學是一個跨學科領域,其基石之一是統計學。如果沒有足夠的統計知識,就很難理解或解釋數據。

本文轉載自公眾號“讀芯術”(ID:AI_Discovery)。

數據科學是一個跨學科領域,其基石之一是統計學。如果沒有足夠的統計知識,就很難理解或解釋數據。

統計學幫助解釋數據。我們使用統計學方法,根據從某個總體中抽取的樣本,推斷出該總體的結果。此外,機器學習和統計學也有很多交叉。要成為一名數據科學家,就需要學習統計學及其概念。本文將具體解釋10個基本的統計概念。

[[379339]]

1. 總體與樣本

總體是一個群體中的所有元素。例如,美國的大學生是包括美國所有大學生的總體。在歐洲25歲的人是一個總體,該總體包括所有符合該描述的人。

由于我們不能收集一個總體的所有數據,因此對總體進行分析有時是不可行或不可能的,因此,可以借助樣本進行分析。樣本是總體的一個子集。例如,1000名美國大學生是“美國大學生”總體的一個子集。

2. 正態分布

概率分布是表示事件或實驗結果概率的函數。考慮數據幀中的一個特性(即列)。這個特征是一個變量,它的概率分布函數顯示了可以取值的區間。

概率分布函數在預測分析或機器學習中非常有用。我們可以根據某個總體樣本的概率分布函數來預測該總體。

正態(高斯)分布是一個概率分布函數,看起來像一個鐘型。下圖顯示了典型正態分布曲線的形狀。

曲線的峰值表示變量最可能采用的值。離峰值越遠,取該值的概率就越小。

3.量度集中趨勢

中心趨勢是概率分布的中心值(或典型值)。最常用的中心趨勢度量是平均數、中位數和眾數。

· 平均數是一列數值的平均值。

· 中位數是按升序或降序排序時中間的值。

· 眾數是最常出現的值。

4.方差與標準差

方差是值之間變化的度量。它的計算方法是求每個值和平均值的平方差,然后將這些平方差相加,最后將總和除以樣本數。

標準差是衡量數值分布的一種方法,它是方差的平方根。

5. 協方差和相關性

協方差是一種定量方法,它表示兩個變量的變化在多大程度上相互匹配。更具體地說,協方差以其平均值(或預期值)來比較兩個變量的偏差。

下圖顯示了隨機變量X和Y的一些值。橙色點表示這些變量的平均值。這些值的變化與變量的平均值類似。因此,X和Y之間存在正值協方差。

兩個隨機變量的協方差公式:

其中E是期望值,µ是平均值。

相關性是通過每個變量的標準差對協方差進行正態化。

其中σ是標準偏差。

這種正態化消除了單位,相關值始終在0和1之間。請注意,這是絕對值。如果兩個變量之間存在負相關性,則相關性介于-1和0之間。如果比較三個或更多變量之間的關系,最好使用相關性,因為值的范圍或單位可能會導致其假設錯誤。

6.中心極限定理

隨機變量的分布在社會科學的許多領域都鮮為人知,因此正態分布得以廣泛應用。

中心極限定理(CLT)解釋了為什么正態分布可以用來證明這種極限情況。根據中心極限定理,當我們從一個分布中抽取更多樣本時,無論總體分布如何,樣本平均值都將趨向于正態分布。

思考這樣一個案例:我們需要了解一個國家所有20歲人群的身高分布。收集這些數據幾乎是不可能,也不實際的。所以,我們在全國范圍內抽取了20歲的人群樣本,計算樣本中人群的平均身高。中心極限定理指出,當我們從人群中抽取樣本越多時,樣本分布將越接近正態分布。

為什么正態分布如此重要?正態分布是用均值和標準差來描述的,可以很容易地計算出來。如果知道正態分布的平均值和標準差,就可以計算出幾乎所有關于它的信息。

7.P值

P值是衡量隨機變量取值可能性的量。假設有一個隨機變量A和x值,x的p值是A取x值時的概率,或者是取任何其他值時,有相同或更少機會被觀察到的值的概率。

下圖顯示了A的概率分布,很容易就觀察到10左右的值。隨著值的增大或減小,概率降低。

有另一個隨機變量B,而且想看B是否大于A。從B中獲得的平均樣本均值為12.5。12.5的p值位于下圖中的綠色區域。綠色區域表示獲得12.5或更大極值的概率(在本例中高于12.5)。

假設p值是0.11,怎么解釋呢?p值為0.11意味著我們對結果有89%的把握。換言之,該結果受隨機事件影響的可能性有11%。類似地,p值為0.05意味著結果受到隨機事件影響的可能性為5%。

如果隨機變量B的樣本均值的平均值為15,這是一個更極端的值,p值將低于0.11。

8.期望值和隨機變量

隨機變量的期望值是該變量所有可能值的加權平均值。這里的權重是指隨機變量取特定值的概率。對于離散和連續隨機變量,期望值的計算是不同的。

· 離散隨機變量取有限多或可數無限多的值。一年中的雨天數是一個離散的隨機變量。

· 連續隨機變量取不可數的無窮多個值。例如,從家到辦公室的時間是一個連續的隨機變量。根據你測量它的方式(分、秒、納秒等等),它需要無數個值。

離散隨機變量期望值的公式為:

連續隨機變量的期望值用相同的邏輯計算,但方法不同。因為連續的隨機變量可以取不可數的無窮多個值,所以我們不能談論取特定值的變量。我們更關注其有價值的范圍。

為了計算值范圍的概率,使用概率密度函數(PDF)。PDF是一個函數,指定隨機變量在特定范圍內取值的概率。

9. 條件概率

概率單純是指事件發生的可能性,永遠取0到1(包括0和1)之間的值。事件A的概率表示為p(A),并有期望結果的數量除以所有結果的數量來計算。例如,當擲骰子時,得到小于3的數字的概率是2/6。期望結果數為2(1和2);總結果數為6。

條件概率是假設與事件A有關的另一個事件已經發生時,事件A發生的可能性。

如下所示,假設有兩個盒子,盒子里放著6個藍色的球和4個黃色的球。我讓你隨便挑一個球。得到藍球的概率是6/10=0,6。如果我讓你從A盒中挑一個球結果會怎樣?

選擇藍色球的概率明顯降低。這里的條件是從A盒中取球,與之前事件(挑選一個藍色的球)發生的概率相比,發生了明顯改變。給定事件B已經發生的事件A的概率表示為p(A | B)。

10. 貝葉斯定理

根據貝葉斯定理,在給定事件B已經發生的條件下,A發生的概率以及給定事件A已經發生的條件下,事件B發生的概率可以用事件A和事件B的概率來計算。

這就是所謂的普遍存在的貝葉斯統計定理。在貝葉斯統計定理中,事件或假設事件發生的概率可以作為證據發揮作用。因此,先驗概率和后驗概率因證據而異。

樸素貝葉斯算法是結合貝葉斯定理和一些樸素假設構造的。樸素貝葉斯算法假設特征是相互獨立的,特征之間沒有相關性。

當然,關于統計學還有很多東西要學。從基礎知識開始,你可以穩步地深入到高級主題。

 

責任編輯:趙寧寧 來源: 今日頭條
相關推薦

2020-08-28 13:49:13

數據統計學面試

2019-07-03 15:21:47

數據科學統計數據數據結構

2017-04-12 09:34:30

數據科學家統計學家好習慣

2017-11-21 14:42:30

數據科學統計學習機器學習

2017-08-04 15:53:10

大數據真偽數據科學家

2019-12-03 09:11:57

數據科學編程算法

2018-10-31 11:00:06

數據科學統計貝葉斯

2016-05-11 10:36:16

數據科學家數據科學大數據

2017-01-23 16:00:25

數據科學家大數據數學家

2019-12-13 07:58:34

數據科學數據科學家統計

2012-12-26 10:51:20

數據科學家

2018-12-24 08:37:44

數據科學家數據模型

2019-11-26 11:19:40

統計數據互聯網

2019-08-19 09:31:47

數據機器學習統計學習

2019-11-29 18:03:27

數學R語言算法

2018-01-25 14:19:32

深度學習數據科學遷移學習

2018-02-28 15:03:03

數據科學家數據分析職業

2020-09-29 17:15:41

數據科學技術

2016-09-22 14:28:33

數據科學家算法

2018-10-16 14:37:34

數據科學家數據分析數據科學
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩在线视频免费观看 | 色婷婷综合久久久久中文一区二区 | 久久成人精品视频 | 自拍偷拍第一页 | 人人叉| 精品国产不卡一区二区三区 | 亚洲精品乱码久久久久久按摩观 | 欧美一级小视频 | 在线超碰| 久久久久久久久久久久91 | 精品国产欧美日韩不卡在线观看 | 国产精品高潮呻吟久久av黑人 | 欧美精品一二三区 | 色av一区二区三区 | 国产美女视频一区 | 久久久久久久久综合 | 成人欧美一区二区三区在线观看 | 国产japanhdxxxx麻豆 | 国产婷婷色一区二区三区 | 在线中文字幕亚洲 | 午夜免费观看体验区 | 99精品久久 | 亚洲视频免费一区 | 色噜噜亚洲男人的天堂 | 99精品视频网 | 精品国产高清一区二区三区 | 日本又色又爽又黄又高潮 | 亚洲午夜精品一区二区三区他趣 | 日本激情一区二区 | av免费网站在线观看 | av在线一区二区三区 | 色天堂视频 | 亚洲aⅴ| 亚洲精品一区二三区不卡 | 在线第一页 | 免费a国产| 国产欧美日韩一区二区三区在线观看 | 欧美成人一区二区 | 日本久久久久久 | 国产精品一区二区三 | 正在播放国产精品 |