成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

這五種統計學概念,掃清數據科學之路“攔路虎”

大數據
統計學中最基本的部分通常是數據科學中最實用的部分。今天,本文將概述5種有助于數據科學研究的統計學概念。

數據科學實際上可定義為從數據中獲取額外信息的過程。在進行數據科學研究時,真正想要達到的是一切數據在現實世界中的實際含義。

為提取復雜數據集中的信息,數據科學家采用了許多工具和技術,包括數據探索、可視化和建模。數據探索中,常用的一類非常重要的數學技術是統計學。

實際上,統計學可對數據概要進行具體而精確地定義。使用統計學,可以描述信息的部分屬性,而非嘗試描述每個數據點。因此統計學通常足以讓人們獲得有關數據結構和構成的某些信息。

有時,人們聽到“統計”這個詞時,往往會想得過于復雜。的確,這個詞可能有點抽象,但并不總是需要通過復雜理論,才能從統計技術中獲得某種價值。

統計學中最基本的部分通常是數據科學中最實用的部分。

今天,本文將概述5種有助于數據科學研究的統計學概念。這些概念沒有那么抽象、令人抓狂,而是相當簡單、適用的技術,作用頗大。

1. 集中趨勢

[[270091]]

數據集或特征變量的集中趨勢是集的中心或典型值。我們的想法是,可能存在一單一值可(在某種程度上)***描述數據集。

例如,假設正態分布位于(100,100)的x-y位置。然后點(100,100)是集中趨勢,因為在所有可供選擇的點中,它是對數據進行概要的***點。

數據科學中可以用集中趨勢方式,快速簡單地了解數據集的整體情況。數據的“中心”可能是非常有價值的信息,告知數據集的確切偏差,因為在本質上,數據圍繞的任何值都是偏差。以數學方式選擇集中趨勢有兩種常用方法。

(1) 平均值

數據集的Mean值就是平均值,即整個數據圍繞其展開的數字。在定義Mean時,用于計算平均值的所有值均需進行等量加權。

例如,計算以下5個數字的Mean值:

  1. (3+ 64 + 187 + 12 + 52) / 5 = 63.6 

平均值非常適合計算實際數學平均值,也適用于像Numpy這樣的Python庫,計算速度非常快

(2) 中位數

中位數是數據集的中間值,即如果將數據從最小到***(或從***到最小)排序,然后取值該集中間的值:即中位數。

再次計算和上一組相同的5個數字的中位數:

  1. [3, 12, 52, 64, 187] → 52 

中位數與平均值63.6完全不同。不能說兩個數值孰對孰錯,但人們可以根據自身情況和目標選擇其一。

計算中位數需要對數據進行排序——如果數據集很大,那么這一做法就會變得不切實際。

此外,當異常值出現時,相較于平均值而言,中位數的數值更加穩定。因為如果出現一些非常極端的異常值,那么平均值將會變大或變小。

通過簡單的numpy單行,可計算平均值和中位數

  1. numpy.mean(array) 
  2. numpy.median(array) 

2. 擴散

在統計學領域,數據傳播是指數據被壓縮為單一值或分布到更為廣泛范圍的程度。

查看下方的高斯概率分布圖——假設這些圖是描述現實世界中數據集的概率分布。

藍色曲線的擴散值最小,因為其大多數數據點占據的范圍相當窄。紅色曲線的擴散值***,因為其大多數數據點占據的范圍更廣。

圖例顯示了這些曲線的標準偏差值,將在下一節中介紹。

(1) 標準偏差

標準偏差是量化數據傳播最常用的方式。計算標準偏差包括5個步驟:

  • 找出平均值。
  • 對于每個數據點,計算其與平均值的差值的平方值。
  • 將第2步得到的值相加。
  • 除以數據點的數量。
  • 取平方根。

較大值意味著數據從平均值更廣泛地“展開”。較小值意味著數據越集中于平均值。

輕松計算Numpy的標準偏差:

  1. numpy.std(array) 

3. 百分位數

使用百分位數進一步描述整個范圍內每個數據點的位置。

就某數據點在數值范圍內的高低位置而言,百分位數描述了該數據點的確切位置。

更正式地說,第p個百分位數是可分成兩部分的數據集中的值。位置較低的部分包含數據的p%,即第p個百分位數。

例如,思考以下11個數字的集合:

  1. 1, 3, 5, 7, 9, 11,13, 15, 17, 19, 21 

數字15是第70個百分位數,因為將數據集從數字15處,分成2個部分時,剩余數據中有70%的數據小于15。

百分位數與平均值和標準偏差相結合,有助于更好地了解特定數據點在數據擴散/范圍內的位置。如果該數據點為異常值,那么其百分位數將接近終值——小于5%或大于95%。另一方面,如果百分位數的計算結果接近50,那么該數據點就接近于集中趨勢。

數組的第50個百分位數可在Numpy中計算,如下所示:

  1. numpy.percentile(array,50) 

4. 偏度

數據偏度是統計數據分布非對稱程度的數字特征。

正偏意味著數值集中在數據點中心的左側; 負偏意味著數值集中在數據點中心的右側。

下圖提供了一個很好的例證。

通過以下等式可計算偏度:

偏度計算了數據分布與高斯分布的距離。偏度值越大,高斯分布離數據集就越遠。

這一點很重要,因為如果對數據分布有大概的了解,那么就可以為特定分布調整需要使用的任何ML模型。此外,并非所有ML建模技術都對高斯之外的數據有效。

進入建模前,統計學再次為人們提供了富有洞見的信息!

通過Scipy編程,計算偏度的方式如下:

  1. scipy.stats.skew(array) 

5. 協方差和相關性

(1) 協方差

兩個特征變量的協方差用于衡量兩個變量如何“相關”。如果兩個變量為協方差的正相關,那么當一個變量增加時,另一個變量也會增加;而在若為協方差的負相關,那么兩個特征變量的值將在朝著相反方向改變。

(2) 相關性

相關性只是標準化的(縮放)協方差,除以需要分析的兩個變量的標準偏差的乘積。這可使相關范圍始終在-1.0和1.0之間。

如果兩個特征變量的相關性為1.0,則變量具有***的正相關性。這意味著如果由于給定量,一個變量發生改變,則另一變量會按照相同方向成比例地移動。

用于降維的PCA例證

正相關系數小于1表示不完全正相關,相關系數越接近1,相關性越強。這同樣適用于負相關系數,只是特征變量的值在相反方向上變化,而非在相同方向上發生變化。

了解相關性對降維所擁的主成分分析(PCA)等技術非常有必要。人們首先計算一個相關矩陣——如果有兩個或多個高度相關的變量,那么解釋數據時,變量實際上是多余的,可刪除其中一部分以降低復雜性。

責任編輯:趙寧寧 來源: 讀芯術
相關推薦

2016-11-10 14:18:10

華為WiFi

2014-12-05 09:31:05

2019-06-20 17:17:49

5G運營商5G產業

2015-05-20 10:53:52

2021-01-07 14:52:14

芯片EAD軟件工程師

2017-12-14 10:31:07

5G頻譜移動通信

2014-01-23 17:53:22

IBM聯想

2011-08-12 09:06:12

云計算云存儲

2012-11-02 09:27:51

2019-08-19 09:31:47

數據機器學習統計學習

2021-01-29 14:38:36

數據科學數據科學家統計學

2022-03-21 12:04:46

網絡安全倦怠網絡釣魚

2024-02-22 10:22:21

前端跨團隊隱性

2010-11-18 10:21:09

跳槽

2009-07-30 10:09:05

云計算實施攔路虎

2019-06-20 05:00:56

5G網絡基站

2022-02-28 00:30:37

NFT游戲技術

2020-06-29 16:01:22

5G攔路虎4G

2017-08-08 09:08:00

醫療CIO醫院

2020-06-29 07:51:23

5G安全網絡
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品一区二区无线 | 日韩精品一区二区三区中文在线 | 超碰97免费观看 | 亚洲在线一区二区 | 黄色网址在线免费播放 | 亚洲精品久久久久中文字幕欢迎你 | 99热精品在线 | a级免费视频 | 久久久久一区二区三区 | 一区二区三区免费 | 中文字幕国产视频 | 精品视频久久久 | 九九热免费看 | 女同久久另类99精品国产 | 色婷婷综合成人av | 久久久久国产一区二区三区四区 | 成人亚洲网站 | 人人操日日干 | 成人免费视频一区 | a视频在线观看 | 九九免费视频 | 色橹橹欧美在线观看视频高清 | 本道综合精品 | 鸡毛片 | 欧美人成在线视频 | 国产精品亚洲成在人线 | 国产高清精品一区二区三区 | 久草视频网站 | 嫩呦国产一区二区三区av | 免费一区| 在线91| 国产精品久久久久久久久久久久午夜片 | 一级黄色av电影 | 奇米超碰| 中文字幕在线观 | 日韩高清黄色 | 天天天插 | 欧美精品在线一区二区三区 | 在线观看第一区 | 成人一区二区三区 | 日韩中文在线视频 |