成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

備好數據后,數據科學家還要做什么?

大數據
數據科學越來越火,很多人都想轉行入坑數據科學家,這當然是好事。可是很多人都以為數據科學、機器學習等等流行詞對應的工作,就是把數據塞進Sckit-Learn這個算法庫里而已。

在這個數據科學越來越火的時代,數據科學家的工作到底是怎樣的呢?

數據科學越來越火,很多人都想轉行入坑數據科學家,這當然是好事。可是很多人都以為數據科學、機器學習等等流行詞對應的工作,就是把數據塞進Sckit-Learn這個算法庫里而已。

事實遠遠沒有那么簡單,下面我帶大家走進真實的數據科學世界。

讓我們從數據搜集完成后開始講起。

問題闡述

“數據消耗”反映了特定服務類別數據的下載和上傳量,比如社交網絡,音頻等等。我們來看一個具體的例子。假設我們研究的是一個計數器,利用該計數器可以查看與亞馬遜網絡服務(Amazon Web Service,簡稱為AWS)連接的機器數量。

如果我們直接對原始數據進行分類,我們會得到如下結果:

 

我們可以注意到,這是對數據進行線性判別分析(Linear discriminant analysis,簡稱為LDA)后的二維示意圖。理論上講,LDA的結果可以體現出原數據的 ± 90%;雖然不是100%,但是這里我們可以看出,直接對數據進行分類完全沒有意義。有人建議我換別的算法或者調整超參數,但是其實,把算法直接套在原數據上的想法糟透了。

理解數據

現在,我們來挖掘一番。數據到底長什么樣?我強烈建議初學者多花些時間觀察理解數據,而不要急著輸入“from sklearn.cluster import KMeans”這樣的代碼行。這里我們研究一下這個例子的一個數據特征,但是請注意,大多數數據特征都是相似的。

下面是AWS計數器的結果(其實不是,但是我們就假定它是吧)

 

從上到下:總數,平均值,標準差,最小值,25分位,中位數,75分位,***值

我們可以看到,幾乎所有的數值都為0。不過您仔細看會發現,其實有些值達到3千萬。您用這樣的數值直接計算出來的距離值,再帶入LDA算法中就不可能有意義。即使您縮小數據的規模使所有的數值都在0—1之間,那么絕大部分的數值也都會在0到大概0.0000005之間,對計算距離也沒有幫助。

如果我們只看非零的數值,分布就很有意思了:

 

數據處理

上圖看起來像是LogNormal分布。現在我們就可以進行簡單的數據標準化了。采用Box-Cox法可以轉化LogNormal分布。這個方法可以把包含LogNormal在內的許多分布盡可能的標準化。

轉換的過程就是把下面公式中的lamda值最小化。

 

我們的數據集中有大量的0,所以lamda值最小化后的結果如下圖所示:(請注意:我們需要大于0的結果,因此我們先給每個數值加上1之后再用公式計算)

 

您可以看到上圖中大概在9的位置有一個小突起,這就是我們大多非0值的位置。從計算距離的角度看,現在我們的數據分布已經比原來的好太多倍了,但是仍然有進步的空間。

讓我們重新審視這個例子中數據的背景。我們想要根據機器的行為對其分類。在“機器對機器”的世界里,機器的行為包含了大量信息。“機器使用了亞馬遜網絡服務”這件事聽起來很滑稽,但其實含義非常重要。

我們給這些機器編碼,讓它們承擔特定的任務,比如報告天氣、展示廣告等等。它們做任務的代碼都是編寫好的,因而它們不可能隨機的開始在臉書或者其他平臺上操作。

事實上,它們可以使用一項服務(比如說AWS)本身就包含了大量信息。基于上面的分析,我決定對數據集中非零的數值進行標準化,使其規模在0.5到1之間;而對值為零的數據點保持不變。那么怎么標準化呢?當然是采用Box-Cox轉化法——而且只對非零值進行轉化。

請看下圖的結果比較。左圖是變換所有數據后得到的位于0—1區間的分布。右圖是放大的0.5—1區間的分布。

 

雖然說左圖看起來沒有比前面的方法提升很多,但是我向您保證,在后面應用算法的過程中兩者的區別很大。

結果

下面我們對經過預處理的數據重新分類。不需任何手動調整我們就得到了如下結果。

 

結論

我發現人們常常看到算法就如同打了雞血,一頭扎進建模的過程中。有的人甚至說,你不需要理解算法背后的數學原理。

我不贊同這個觀點。我認為還是應該理解一個算法的基本原理,至少要能理解到知道什么樣的數據輸入才是有意義的。

比如說,我們剛才舉例用的K-Means算法的基本原理就是點之間的距離,那么當您擁有“千萬”這樣的數量級時,您就不能期望直接把數據帶入算法就會獲得合適的結果,因為這時數值范圍太大了。

綜上所述,一遍一遍地檢查數據,直到對它了然于胸,然后再讓這些高級的算法完成后續的工作。

責任編輯:未麗燕 來源: 網絡大數據
相關推薦

2018-06-21 08:31:13

數據數據科學大數據

2017-08-04 15:53:10

大數據真偽數據科學家

2020-04-29 13:45:42

機器學習ML數據科學家

2019-08-26 09:47:56

數據科學家數據分析

2018-12-24 08:37:44

數據科學家數據模型

2012-12-26 10:51:20

數據科學家

2018-02-28 15:03:03

數據科學家數據分析職業

2012-06-12 09:33:59

2018-10-16 14:37:34

數據科學家數據分析數據科學

2018-02-07 14:41:16

數據科學家數據分析數學

2018-01-25 14:19:32

深度學習數據科學遷移學習

2018-08-20 19:24:40

數據科學數據清理數據分析

2012-12-06 15:36:55

CIO

2019-04-26 14:27:07

大數據數據科學數據工程師

2014-07-03 09:38:19

2012-12-27 09:52:23

數據科學家大數據

2015-08-25 13:20:29

數據科學

2020-04-09 15:32:20

數據科學AutoML代智能

2015-08-28 09:22:07

數據科學

2016-08-02 17:00:12

Hadoop大數據系統
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩三级一区 | 欧美亚洲国语精品一区二区 | 18成人在线观看 | 国产成人精品一区二区三区网站观看 | 久久久久免费观看 | 欧美日一区 | 国产成人免费视频网站视频社区 | 欧美日韩视频在线播放 | 国产精品国产三级国产aⅴ无密码 | 国产黑丝在线 | 国产精品久久久久久久久免费高清 | 免费看国产a| 久久免费视频在线 | 男女在线网站 | 精品欧美一区二区三区久久久 | 亚洲一在线 | 亚洲精品91 | 亚洲国产成人精品女人久久久 | 国产精品99久久久久久久vr | 国产精品视屏 | 国产精品综合久久 | 欧洲亚洲精品久久久久 | 国产美女视频一区 | 天天综合网天天综合 | 成年女人免费v片 | 国产精品www | 国产精品成人在线观看 | 一区二区三区精品视频 | 最新国产福利在线 | 玖玖国产精品视频 | 欧美一区二区三区在线视频 | 欧美不卡一区二区三区 | 亚洲精品在线免费 | 国产色| 精品美女视频在线观看免费软件 | 一区二区三区视频在线观看 | 91久久精品一区二区二区 | 国产欧美精品一区二区三区 | 天天操妹子 | 蜜臀久久99精品久久久久久宅男 | 欧美一区视频 |