“數據科學家”將成無用之人?
第一條,需要“數學、統計、計算機等專業碩士學位,博士優先”。小左本科畢業不久,順利的話,碩士要三年,博士再三年。這樣算來,起碼是六年以后的事了。小左在大學里也曾想過考研,最終由于家庭經濟原因而放棄了。如今看來,要實現自己這個夢想,考研是必須的。專業當然是選計算機比較理想,因其相比于數學和統計,與數據挖掘更接近。但在要不要讀博士的問題上,小左陷入了深深的沉思。最后決定,先讀完碩士再說吧。
接著看第二條,“有三年以上數據分析或數據挖掘方面經驗,有數據挖掘項目實施經驗者優先”,這是年限要往上加的節奏了。顯然,讀完計算機碩士,職業也基本定了,就先干幾年數據分析。
第三條和第四條的英文字母讓小左有些目不暇接:“3. 熟悉一種或者幾種數據分析方面的工具,比如MATLAB、R、SPSS、SAS等,R優先;4. 熟悉一種或者幾種主流數據庫,如MySQL、Oracle、SQL Server等,具有數據腳本編寫能力以及Hadoop經驗者優先”。小左此前雖然也學過一些計算機編程,但對這些工具,除了SPSS、Oracle、SQL Server等有所耳聞,其他還真沒有聽說過,另外,“R”是什么,這么厲害?看來要學的東西還真不少啊!小左感到無形的壓力在逐漸加重。
第五條看上去有點玄奧:需要“信仰并熱愛大數據”。小左心想,大數據是用來“信仰”的嗎,莫不成了一種宗教?他有些不太明白,這句不會是某個像京東劉總那樣的領導心血來潮想到的吧?
相比于第五條,第六條相對明白一點:要“較強的數據敏感度,邏輯分析能力,良好的口頭表達和文檔寫作能力”。在小左看來,自己曾受過一些邏輯和寫作方面的訓練,加上當過營銷員的口才,后三項能力應該是沒有問題的,而第一項“數據敏感度”可能是最需要加強的。
最后一條與小左對于大數據的理解最為貼近,也更加具體:“能從大數據中挖掘用戶本質屬性,并分析用戶行為和個性化需求,并不斷挖掘新的用戶屬性數據并據此產生創新的應用”。按小左的理解,大數據本來就是對復雜現實世界的反映,需要找出不同數據背后所反映的一些規律性、模式性的東西,從而更好地滿足用戶需求。只要把握了用戶需求,各類創新的應用自會源源而來。
上述要求確實不算低。用小左跟同學閑聊時開玩笑的話說:這數據科學家應該是來自某個星星,與“都教授”是一個層次的。
確實,“數據科學家”被知識管理專家托馬斯·德文波特(Thomas H. Davenport)稱為“21世紀性感的工作”(the Sexiest Job)。但另一方面,據麥肯錫全球研究院2011年的預估,僅在美國,大數據方面的技術人才缺口為14-19萬,管理人才缺口達到150萬;“數據科學家”的概念則仍在形成過程中,目前尚無一所高校培育這方面的專業人才。
單從技術層面看,數據科學應該是計算機、數學和統計幾個學科的交叉。但是數據分析技術僅是數據科學家工作的一部分,企業顯然并不滿足于招聘只懂得技術的人,而是希望Ta同時能與業務有良好的溝通,最好還能有一定的創造性,能于數據海洋中慧眼識珠。
從目前很多大數據的分析文章中,我們可以看到對數據科學家的各種理解。如有的作者提出數據科學家應該要精通技術和數學,熟悉公司業務,有非凡的創造力,能將數據結構化和可視化,使冷冰冰的數據變得有意義;有很多作者提出,數據科學家要會用數據來講精彩的故事,故事先于數據;還有的認為數據科學家應當是數據黑客、分析師、溝通師和信托理財規劃師的混合體。
德文波特對此作出總結,“數據科學家最基本、最普遍的技能是會寫代碼,從長遠看,是用各方能夠理解的語言進行溝通,用數據來講故事——無論是口頭的還是書面的——最好是二者兼備……他們必須要有強烈的好奇性”,更高意義上,他們要能“形成自己的分析工具,甚至能開展學術類研究”。
看多了各種對數據科學家近乎神化的描述,不由讓人想起管理學大師德魯克曾經講過的一個小故事:
“15年前,當‘運籌學’剛開始流行的時候,有人開出了從事運籌學研究的學者應具備的條件。他們提出的要求是,一位運籌學者應該是一位‘萬能博士’。他應該懂得一切,而且對人類各方面的知識都能做出最佳的應用。甚至有人說,運籌學者必須具有62門自然科學與人文科學的知識。如果真能找到這樣一位‘萬能博士’,讓他來研究庫存水平或生產規劃問題,那豈不是絕大的浪費!”。
無疑,今天的“數據科學家”與當時的“運籌學家”處于同樣的境遇。六十年過去了,我們并沒有看到在企業,即使是最卓越的企業中,有所謂的“運籌學者”在進行科學的管理,這就足夠引起警醒:要么我們對于數據科學家的崗位要求期望值有些高了;要么這個崗位根本沒有那么重要。
如果回顧上個世紀以來科學管理的發展歷程,就能清楚地看到數據科學家的工作其實與泰勒、戴明所分析的工作是一脈相承的。只不過后兩者更偏于體力勞動者的工作,而數據科學家更多面向知識工作者,嘗試借助于云計算、物聯網等新型信息技術的數據采集、存儲和處理能力,提升他們的工作效能。但就像企業在推廣科學管理和全面質量管理的過程非常強調有全員的參與和支持,最終要內化為企業的文化和精神一樣,大數據分析演化之路也絕非一兩個精英能夠推動的,它也將是一種文化。希望靠某一個天才型的崗位來驅動和改善企業的運營和決策,只是企業的一廂情愿。更有可能出現的結果是:數據科學家的工作將由一個核心專業團隊來推動,盡量吸引更多的員工參與,而不是找一個來自星星的都教授這樣的超人來承擔。
當然,對于小左這種正在幻想著的年齡的青年而言,成為一名優秀的數據科學家的愿望仍然顯得那么真實而可貴。當他一旦打定主意,努力前程,夢想也許并沒有看上去那么遙遠。