成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據科學家用得最多的十種數據挖掘算法

大數據 算法
產業數據科學家們更傾向于使用回歸、可視化、統計、隨機森林和時間序列。政府/非營利更傾向于使用可視化、主成分分析和時間序列。學術研究人員更傾向于使用主成分分析和深度學習。學生普遍使用更少的算法,但多為文本挖掘和深度學習。

[[192829]]

圖 1 :數據科學家使用度***的 10 大算法

文末有全部算法的集合列表

每個受訪者平均使用 8.1 個算法,這相比于 2011 的相似調查顯示的結果有了巨大的增長

與 2011 年關于數據分析/數據挖掘的調查相比,我們注意到最常用的方法仍然是回歸、聚類、決策樹/Rules 和可視化。相對來說***的增長是由 (pct2016 /pct2011 – 1) 測定的以下算法:

  • Boosting,從 2011 年的 23.5% 至 2016 年的 32.8%,同比增長 40%
  • 文本挖掘,從 2011 年的 27.7% 至 2016 年的 35.9%,同比增長 30%
  • 可視化,從 2011 年的 38.3% 至 2016 年的 48.7%,同比增長 27%
  • 時間序列/序列分析,從 2011 年的 29.6% 至 2016 年的 37.0%,同比增長 25%
  • 異常/偏差檢測,從 2011 年的 16.4% 至 2016 年的 19.5%,同比增長 19%
  • 集成方法,從 2011 年的 28.3%至 2016 年的 33.6%,同比增長 19%
  • 支持向量機,從 2011 年的 28.6% 至 2016 年的 33.6%,同比增長 18%
  • 回歸,從 2011 年的 57.9% 至 2016 年的 67.1%,同比增長 16%

***算法在 2016 年的調查中有了新的上榜名單:

  • K-近鄰,46%
  • 主成分分析,43%
  • 隨機森林,38%
  • 優化,24%
  • 神經網絡 – 深度學習,19%
  • 奇異值分解,16%

***幅下降的有:

  • 關聯規則,從 2011 年的 28.6% 至 2016 年的 15.3%,同比下降 47%
  • 隆起造型,從 2011 年的 4.8% 至 2016 年的 3.1%,同比下降 36%
  • 因素分析,從 2011 年的 18.6% 至 2016 年的 14.2%,同比下降 24%
  • 生存分析,從 2011 年的 9.3% 至 2016 年的 7.9%,同比下降 15%

下表顯示了不同的算法類型的使用:監督算法、無監督算法、元算法,以及職業類型決定的對算法的使用。我們排除 NA(4.5%)和其他(3%)的職業類型。

職業類型% 投票者比例平均算法使用個數% 監督算法使用度% 無監督算法使用度% 元使用度%其他方法使用度

表 1:根據職業類型顯示的不同算法使用度

我們注意到,幾乎每個人都使用監督學習算法。

政府和產業業數據科學家比學生和學術研究人員使用更多不同類型的算法,而產業數據科學家們更傾向于使用元算法。

接下來,我們根據職業類型分析了前 10 名的算法+深度學習使用情況。

表 2:根據職業類型分類的 10 大算法+深度學習使用情況

為了更明顯的看到差異,我們計算了具體職業分類相比于平均算法使用度的一個算法偏差,即偏差(ALG,類型)=使用(ALG,類型)/使用(ALG,所有的)

圖 2:職業對算法的使用偏好

我們注意到,產業數據科學家們更傾向于使用回歸、可視化、統計、隨機森林和時間序列。政府/非營利更傾向于使用可視化、主成分分析和時間序列。學術研究人員更傾向于使用主成分分析和深度學習。學生普遍使用更少的算法,但多為文本挖掘和深度學習。

接下來,我們看看某一具體地域的參與度,表示整體的 KDnuggets 的用戶:

  • 美國/加拿大,40%
  • 歐洲,32%
  • 亞洲,18%
  • 拉丁美洲,5%
  • 非洲/中東,3.4%
  • 澳洲/新西蘭,2.2%

由于在 2011 年的調查中,我們將產業/政府分在了一組,而將學術研究/學生分在了第二組,并計算了算法對于業界/政府的親切度:

  1. N(Alg,Ind_Gov) / N(Alg,Aca_Stu)  
  2. ------------------------------- - 1  
  3. N(Ind_Gov) / N(Aca_Stu) 

因此親切度為 0 的算法表示它在產業/政府和學術研究人員或學生之間的使用情況對等。越高 IG 親切度表示算法越被產業界普遍使用,反之越接近「學術」。

最「產業」的算法是:

  • 異常檢測,1.61
  • 生存分析,1.39
  • 因子分析,0.83
  • 時間序列/序列,0.69
  • 關聯規則,0.5

而 uplifting modeling 又是最「產業的算法」,令人驚訝的發現是,它的使用率極低 – 只有 3.1% – 是本次調查的算法中***的。

最學術的算法是:

  • 常規神經網絡,-0.35
  • 樸素貝葉斯,-0.35
  • 支持向量機,-0.24
  • 深度學習,-0.19
  • EM,-0.17

下圖顯示了所有的算法及其產業/學術親切度。

圖 3:KDnuggets 投票:最常被數據科學家使用的算法:產業界 VS 學術界

下表有關于算法的細節、兩次調查中使用算法的比例、以及像上面解釋的產業親切度。

接下來的圖表展示了算法的細節,按列

  • N:根據使用度排名
  • 算法:算法名稱,
  • 類型:S – 監督,U – 無監督,M – 元,Z – 其他,
  • 在 2016 年調查中使用這種算法的調查者比例
  • 在 2011 年調查中使用這種算法的調查者比例
  • 變動(%2016 年/2011% – 1),
  • 產業親切度(如上所述)

表 3:KDnuggets 2016 調查:數據科學家使用的算法

責任編輯:武曉燕 來源: 36大數據
相關推薦

2016-10-21 19:44:08

數據科學家算法

2016-09-22 14:28:33

數據科學家算法

2017-08-04 15:53:10

大數據真偽數據科學家

2018-03-27 11:02:55

2016-05-11 10:36:16

數據科學家數據科學大數據

2017-01-23 16:00:25

數據科學家大數據數學家

2018-03-06 11:02:43

數據可視化標配

2019-12-11 19:19:19

算法數據科學家代碼

2016-12-06 08:47:18

數據算法

2012-12-26 10:51:20

數據科學家

2018-12-24 08:37:44

數據科學家數據模型

2018-02-28 15:03:03

數據科學家數據分析職業

2018-10-18 09:00:00

機器學習機器學習算法數據科學家

2018-10-16 14:37:34

數據科學家數據分析數據科學

2015-08-25 13:20:29

數據科學

2016-04-11 14:15:06

數據科學數據挖掘工具

2020-03-20 14:40:48

數據科學Python學習

2012-06-12 09:33:59

2019-09-26 08:43:34

算法數據庫Python

2019-06-05 15:17:45

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人免费观看男女羞羞视频 | 亚洲午夜视频 | 国产不卡视频 | 亚州一区二区三区 | 日韩高清成人 | 亚洲色图图片 | 国产亚洲精品久久午夜玫瑰园 | 日本三级电影免费 | 欧美精品一区二区三区在线播放 | www.色53色.com | 成人免费网站www网站高清 | 免费三级av| 爱草在线 | 在线看av网址 | 亚洲 中文 欧美 日韩 在线观看 | 欧美日韩国产一区 | 欧美成人免费在线视频 | 羞羞的视频在线看 | 亚洲中国字幕 | 在线a视频网站 | 亚洲国产精品久久久 | 夜夜骑首页 | 一级片免费视频 | 亚洲精品一二三 | www成人免费视频 | 欧美一区二区三区久久精品 | 成人毛片一区二区三区 | 美女黄网站 | 精品视频久久久 | 国产精品自拍av | 精品视频一区二区三区在线观看 | 精品国产一区二区三区性色 | 天堂免费看片 | 中文字幕亚洲欧美 | 国产欧美日韩精品在线观看 | 精品国产乱码久久久久久果冻传媒 | 久久久精品网站 | 国产精品亚洲精品 | 国产日韩欧美精品一区二区三区 | 亚洲视频免费在线播放 | 伊人性伊人情综合网 |