數據科學家用得最多的十種數據挖掘算法

作者：佚名 2017-06-01 16:25:36

產業數據科學家們更傾向于使用回歸、可視化、統計、隨機森林和時間序列。政府/非營利更傾向于使用可視化、主成分分析和時間序列。學術研究人員更傾向于使用主成分分析和深度學習。學生普遍使用更少的算法，但多為文本挖掘和深度學習。

圖 1 ：數據科學家使用度***的 10 大算法

文末有全部算法的集合列表

每個受訪者平均使用 8.1 個算法，這相比于 2011 的相似調查顯示的結果有了巨大的增長

與 2011 年關于數據分析/數據挖掘的調查相比，我們注意到最常用的方法仍然是回歸、聚類、決策樹/Rules 和可視化。相對來說***的增長是由 (pct2016 /pct2011 – 1) 測定的以下算法：

***算法在 2016 年的調查中有了新的上榜名單：

***幅下降的有：

下表顯示了不同的算法類型的使用：監督算法、無監督算法、元算法，以及職業類型決定的對算法的使用。我們排除 NA(4.5%)和其他(3%)的職業類型。

職業類型% 投票者比例平均算法使用個數% 監督算法使用度% 無監督算法使用度% 元使用度%其他方法使用度

表 1：根據職業類型顯示的不同算法使用度

我們注意到，幾乎每個人都使用監督學習算法。

政府和產業業數據科學家比學生和學術研究人員使用更多不同類型的算法，而產業數據科學家們更傾向于使用元算法。

接下來，我們根據職業類型分析了前 10 名的算法+深度學習使用情況。

表 2：根據職業類型分類的 10 大算法+深度學習使用情況

為了更明顯的看到差異，我們計算了具體職業分類相比于平均算法使用度的一個算法偏差，即偏差(ALG，類型)=使用(ALG，類型)/使用(ALG，所有的)

圖 2：職業對算法的使用偏好

我們注意到，產業數據科學家們更傾向于使用回歸、可視化、統計、隨機森林和時間序列。政府/非營利更傾向于使用可視化、主成分分析和時間序列。學術研究人員更傾向于使用主成分分析和深度學習。學生普遍使用更少的算法，但多為文本挖掘和深度學習。

接下來，我們看看某一具體地域的參與度，表示整體的 KDnuggets 的用戶：

由于在 2011 年的調查中，我們將產業/政府分在了一組，而將學術研究/學生分在了第二組，并計算了算法對于業界/政府的親切度：

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)  
------------------------------- - 1  
N(Ind_Gov) / N(Aca_Stu)

因此親切度為 0 的算法表示它在產業/政府和學術研究人員或學生之間的使用情況對等。越高 IG 親切度表示算法越被產業界普遍使用，反之越接近「學術」。

最「產業」的算法是：

而 uplifting modeling 又是最「產業的算法」，令人驚訝的發現是，它的使用率極低 – 只有 3.1% – 是本次調查的算法中***的。

最學術的算法是：

下圖顯示了所有的算法及其產業/學術親切度。

圖 3：KDnuggets 投票：最常被數據科學家使用的算法：產業界 VS 學術界

下表有關于算法的細節、兩次調查中使用算法的比例、以及像上面解釋的產業親切度。

接下來的圖表展示了算法的細節，按列

表 3：KDnuggets 2016 調查：數據科學家使用的算法

責任編輯：武曉燕來源： 36大數據

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看