數據科學領域的核心技能和新興技能分別有哪些?
近年來隨著大數據的迅速發展,各種各樣的數據分析技能也逐漸大熱,為了找到數據科學領域目前最常用的技能和未來最流行的應用趨勢,我們進行了一項調查。
我們確定了數據科學技能的兩個主要類別:一個是大多數受訪者擁有的13種核心技能,另一個是大多數還沒用但想要應用的熱門新興技能。
本次調查主要有以下兩個問題:
- 您目前擁有哪些技能(可以在工作或研究中使用的水平)?
- 您想增加或提高哪些技能?
本次調查獲得了1500以上的票數,樣本足夠大,可以做出有意義的推斷。
下面的圖1中,X軸顯示已經具有的技能 ,即第一個民意調查問題的答案,Y軸顯示想要的技能 ,即第二個民意調查問題的答案。每個圓圈的大小與擁有該技能的選民比例成正比,而顏色則取決于想要/擁有的比例(紅色高,數值大于1;藍色低,數值小于1)。
注:其他大數據工具適用 于Hadoop或Spark以外的大數據工具。
注意此圖中的兩個主要類別。
圖表右側藍色虛線框中的第1類包括超過40%的選民所擁有的技能,其需要/擁有的比率小于1。我們稱其為核心數據科學技能,具體內容參考表1。
其中,最需要增加或改進的技能是機器學習(41%)和Python(37%)。增長最少的技能是Excel,只有7%的人希望增加或提高其Excel技能。
第二個集群是圖1左側用紅色邊框標記的部分,包括當前不那么受歡迎的技能(擁有比率<30%),但是卻在增長,想要/擁有的比率超過1,參見表2。
有趣的是,盡管有觀點認為Hadoop在下降,但在這次調查中,有更多的人希望學習Hadoop,而不是已經流行的技能,因此它可能會越來越流行。
我們沒有把Julia放2在熱門/新興技能中,盡管它的想要/擁有比率為3.4,因為只有2%的選民選擇它,它還沒有得到足夠的支持。
剩下的技能如XGBoost、軟件工程、Java、MATLAB、SAS的擁有比率為10%-30%,但想要/擁有比率沒有增長,小于1。
下面是關于本次調查的更多細節。圖2將所有技能按擁有百分比遞減排列。
圖3顯示了受訪者希望添加或改進的技能以及他們所擁有的技能。
我們看到,當前數據科學家最想要添加的技能是深度學習、Tensorflow、機器學習和Python。
本次調查的受訪者的就業類型分布如下:
- 工業/個體經營:64.4%
- 政府/非營利組織:7.2%
- 學術界/大學:7.0%
- 學生:14.3%
- 其他/NA:7.1%
- 區域分布為:
- 美國/加拿大:37.9%
- 歐洲:28.3%
- 亞洲:19.3%
- 拉丁美洲:6.1%
- 非洲/中東:4.8%
- 其他:3.5%