真的缺數據科學家嗎? 如今到底有多少數據科學家?
2011年,麥肯錫發布的《大數據》報告稱,“僅美國就面臨著14萬至19萬名具有分析專長的人才短缺,以及150萬名具備理解并基于大數據分析做出決策能力的管理人員和分析師的短缺”。
2014年,我們調查了數據科學家的數量,當時的估計為50名至10萬名,且當時并沒有看到數據科學家大量短缺的證據。2014年,我們在indeed.com網站上僅發現了約1000個“數據科學家”的招聘廣告。
2016年,我們研究了德勤的一項研究。德勤在研究中預測:到2018年,企業將需要100萬名數據科學家。
現在已經是2018年了,所以我們可以檢驗上述預測的準確程度,并且嘗試回答以下三個問題:
- 現在是否存在數據科學家的短缺?
- 現階段有多少“數據科學家”?無論是名義上的還是實際職能上的。
- 數據科學家的未來前景如何?
1 數據科學家短缺嗎?
第一個問題的答案似乎是肯定的。
LinkedIn公司在2018年8月發布的美國勞動力報告中提到:“對數據科學家的需求空前高漲……具有數據科學技能的人才短缺問題幾乎存在于美國的所有大城市。在全美國范圍內,共缺少151717名具有數據科學技能的人,其中紐約市(34032人)、舊金山灣區(31798人)和洛杉磯(12251人)的人才短缺尤為嚴重。”
值得注意的是,LinkedIn報告中的人才短缺是指具有“數據科學技能”的人,而不一定是擁有“數據科學家”頭銜的人。
我們可以通過兩個熱門的求職網站——indeed和Glassdoor——來估計對“數據科學家”的需求。
在indeed.com網站上搜索美國的“data scientist”(加引號),只能找到約4800個工作崗位。
(注意:在indeed網站上進行搜索時使用引號十分重要。搜索沒有加引號的data scientist可以找到約3萬個工作崗位,但我們不確定這些工作崗位中有多少是針對其他領域的科學家的。)
美國是數據科學家最大的市場,卻非唯一的市場。通過在indeed的區域性站點(indeed.co.uk、indeed.fr、indeed.de、indeed.co.in等)上進行搜索,我們可以發現其他國家對數據科學家也有強烈的需求:
在Glassdoor網站上輸入“Data Scientist”進行搜索,可發現美國大約有2.6萬個工作崗位(刪除引號也會得到同樣的結果)。
2 現階段有多少“數據科學家”?
谷歌搜索將數據科學家定義為:“受雇用于分析和解釋復雜的數字數據(如網站的使用統計數據)的人,從而協助企業做出決策。”
由于數據科學是集統計學、計算機科學、機器學習和商業于一體的交叉學科,因此在業界和學術界有許多人雖從事這項工作卻沒有正式的數據科學家頭銜。因而我們可以通過調查流行的數據科學平臺來估計當前數據科學家的數量。
Kaggle(現在是Google的一部分)是一個數據科學和數據分析的競賽平臺,它聲稱是世界上最大的活躍數據科學家社區。雖然并非所有數據科學家都參加過Kaggle比賽或擁有Kaggle賬戶,且并非Kaggle上的所有人員都從事數據科學工作,但我們可以合理地假設數據科學家群體與Kaggle人員群體存在大量重疊。 2017年6月,Kaggle的社區成員數量突破了100萬。2018年9月19日的Kaggle電子郵件稱,他們的社區成員數量在2018年8月超過了200萬。由于并非所有Kaggle成員都是活躍的,所以Kaggle的社區成員總數可能是全球從事數據科學的人的數量最大值。
KDnuggets網站現在每個月有超過50萬名獨立訪客,由于網站專注于幫助數據科學家和機器學習工程師更好地完成他們的工作,因而我們可以合理地認為網站的大多數訪客都在數據科學或機器學習領域工作,無論他們的實際頭銜是什么。但由于部分訪客可能是無意中隨機訪問了KDnuggets,因而我們可以了解網站的訂閱者或粉絲——這個更活躍的子集。
KDnuggets目前在Twitter、LinkedIn、Facebook、RSS和電子郵件上擁有約24萬名訂閱者或粉絲。雖然不同平臺的人會有一些重疊,但對于全球眾多的數據科學家來說,大約20萬的人數預估似乎是合理的最小值。
在LinkedIn上,有許多致力于數據科學的組織。盡管這些組織的參與度一直在下降,但我們可以粗略地估計他們的成員數量。以下是三個最大的數據科學組織的預估成員數量:
這些組織成員的頭銜有著巨大的多樣性,這些頭銜包括數據科學家、數據分析師、統計學家、生物信息學家、神經科學家、市場營銷主管、計算機科學家等等……可以肯定地說,任何從事著傳統數據科學家所從事的工作的人都可被認為屬于這一類別。隨著越來越多的人需要通過分析數據來獲得見解或做出關鍵決策,傳統上職位和職責不同的人們都熱衷于學習數據分析這一新技術,以適應自己的領域。這雖然并不能使他們從根本上成為數據科學家,但他們確實擁有該領域的知識和才能。
我們還可以從數據科學家的LinkedIn個人資料中獲取一些有用信息,這些資料顯示有超過10萬人擁有數據科學家頭銜。

圖1:LinkedIn數據科學家簡介(按行業和地點分類)
在LinkedIn上搜索“數據科學家”(加引號很重要),我們發現超過10萬人擁有該頭銜。 因此,如果全球有20萬到100萬人在做一些與數據科學相關的工作,那么他們中的大多數人都沒有數據科學家的頭銜。
我們還可以通過查看與數據科學最相關的語言和平臺(R、Python、機器學習庫、Spark和Jupyter)相關的活動來估算大型數據分析/可視化/統計社區的規模。
Apache Spark Meetups上現有22.5萬名成員,而且每個月都在增長。 Intel Capital估計全球有100萬R程序員。 根據python.org網站上的公開數據,現在已有約275萬次的下載量。 Jupyter項目目前擁有約300萬用戶。 這些數字可以為我們提供全球數據分析師或數據科學家數量的粗略上限。
3 數據科學家的未來前景
數據科學家近期的前景看起來很光明。
2017年的LinkedIn新興就業報告稱,2017年的機器學習工程師比5年前增加了9.8倍。 在LinkedIn報告上,機器學習工程師、數據科學家和大數據工程師躋身新興崗位之列。 自2012年以來,數據科學家增加了650%以上。

圖2:LinkedIn十大新興職位及其增長情況(2012年至2017年)。
根據美國勞工統計局的數據,未來十年的就業增長預計將超過前十年的增長,到2026年數據科學或數據分析領域將創造1150萬個就業崗位。

IBM最近宣稱,到2020年,數據科學和分析職位的數量預計將增加近36.4萬個,達到約272萬個。 因而無論目前數據專業人員的真實數量是多少,他們的數量在不久的將來很可能會繼續增長。
然而,從長遠來看,自動化將取代業內的許多工作,數據科學家的工作也不例外。 如今,DataRobot和H2O等公司已經為數據科學問題提供了自動化的解決方案。
2015年KDnuggets民意調查中的受訪者認為,大多數專家級的預測分析或數據科學任務將在2025年實現自動化。為了保住工作崗位,數據科學家應該專注于培養更難自動化的技能,如業務理解、解釋和講故事的能力。