數據科學家:21世紀最性感的職業
2006年Jonathan Goldman到商業社交網站LinkedIn工作,那時的LinkedIn還只是剛創業不久,網站注冊人數不到8百萬,但是很多成員會邀請自己的朋友和同學加入,因此注冊人數迅速增加。但是用戶要找到已經在網站注冊的用戶不太容易,比例達不到管理人員的期望值。很明顯,有些社交體驗缺失了。如同一位LinkedIn管理者說的,“這就好像,你到了會議接待處,結果發現一個人都不認識,你只好站到一邊,一個人小酌——很可能你早早地離開了。”
Goldman是斯坦福物理學博士畢業,他非常著迷于越來越多的用戶關聯和豐富的用戶個人資料。這些原本只能帶來一堆雜亂的數據和笨拙的分析,但是,當他開始探究用戶之間的聯系時,他開始看到新的可能。于是他開始組織他的理論,檢驗他的猜想,建立模型,預測用戶愿意與誰建立聯系。他感到,他正在開發的新功能,能帶給用戶價值。但是LinkedIn的工程師們當時忙于提升網站性能,沒有理睬,有些同事則公開表示不看好Goldman的想法:為什么用戶想要LinkedIn告訴他們該和哪些用戶建立聯系呢?網站已經有一個導入通訊錄的功能,能導入用戶的所有聯系人。
幸運的是,公司的聯合創世人兼當時的CEO Reid Hoffman根據自己在PayPal的經驗,相信數據分析的強大力量,給予了Goldman高度的自主權。其中一項就是,Goldman可以繞開傳統的產品發布流程,而以廣告的形式把這個小模塊發布在網站***的頁面上。
通過這個模塊,Goldman開始了他的試驗,用戶可能認識一些人,比如和用戶來自同一個學校或工作單位, 卻還沒有在網站上建立起這些關系,如果把這些名字告訴用戶,他們會作何反應。他根據用戶在網站上注冊時填寫的背景資料,找出了每個用戶可能最想與之建立聯系的三個用戶,然后定制了一套廣告。幾天之內,很明顯地,奇妙的事情發生了,這些廣告的點擊率***的高。接下來,Goldman根據“閉環理論”改進了他的推薦方法,閉環理論指的是如果你同時認識張三和李四,那么張三和李四很可能也相互認識。同時,Goldman和他的團隊讓用戶對每個推薦的操作可以一鍵搞定。
很快LinkedIn的高層開始認識到這是個很好的主意,并將其列為標準功能。從那時起,事情真的開始起飛了。“你可能認識的人(People You May Know)”廣告獲得了30%的點擊率,比其他任何的站內推廣廣告點擊率都要高,共計產生了數百萬個新頁面瀏覽。得益于這項新功能,LinkedIn的成長速度大幅提升。
新新職業
Goldman 是一個很好的例子來說明組織中的重要新成員——“數據科學家”。這是非常高階的專業崗位,要有在數據海洋中尋寶的好奇心和相應訓練。這個頭銜存在有幾年了,***次出現是2008由 D.J. Patil(本文作者之一)和Jeff Hammerbacher提出的,他們后來分別成為了LinkedIn和Facebook的數據和分析團隊的負責人。但現在已經有數千位數據科學家工作于創業公司和成熟的大型企業。他們在行業里的忽然走俏,反應了這樣一個現狀,企業需要處理的信息正以從未遇見過的規模和渠道涌現。如果你的機構存儲了幾個PB的數據,或者對于你的生意最重要的信息是表格式的,而不再是行列的數據,或者要回答你***的問題需要各種分析手段的“混搭”,你趕上大數據時代了。
現階段對于大數據的主要熱情都集中在大數據的處理技術上,比如,使用最廣泛的分布式文件處理系統Hadoop,和相關的開源工具、云計算、數據可視化技術。這些突破性技術都是非常重要的,重要程度就不亞于有能力與腦力運用好技術的人。對數據科學家的需求快速增加,已經超過了供給,事實上,人才缺乏開始嚴重制約某些行業。Greylock Partners是一家投資初創企業的風投公司,曾經投資過Facebook, LinkedIn, Palo Alto Networks和Workday,它非常擔憂緊張的人才儲備,因而建立了自己的招聘團隊,負責給自己投資的公司輸送人才。招聘團隊的負責人Dan Portillo說,“這些公司一旦有了數據,就需要有人管理數據,發現真知。”
他們是誰?
從大數據中獲利需要雇傭稀缺的數據科學家,管理人員面臨三大挑戰,識別人才,吸引人才,善用人才。和其他職責明確的崗位相比,這三項任務都不那么直接明了。首先,目前沒有高校項目培養相關人才,同時,數據科學家在組織中處于什么位置,如何讓他們創造***價值,如何衡量他們的作用,這些都沒有公認的標準。
因此,要想挖掘出數據科學家,首先要明白他們在業務中能干什么,其次,他們需要哪些技能?哪些現有的領域會用到這些技能?
數據科學家首要任務是在數據的海洋中探索發現,他們更喜歡用這種方式看待周圍的世界。他們要在數字王國里游刃有余,把大量散亂的數據變成結構化的可供分析的數據,還要找出豐富的數據源,整合其他可能不完整的數據源,并清理成結果數據集。新的競爭環境中,挑戰不斷地變化,新數據不斷地流入,數據科學家需要幫助決策者穿梭于各種分析,從臨時數據分析(ad hoc)到持續的數據交互分析。
數據科學家會遇到技術的局限性,但不會讓技術阻擾他們尋找新穎的解決方案。當他們有所發現,便交流他們的發現,建議新的業務方向。通常他們很有創造力的展示視覺化的信息,也讓找到的模式清晰而有說服力。他們會把蘊含在數據中的規律建議給產品經理和主管們,從而影響產品,流程,和決策。
由于這中行當還處于初級階段,數據科學家常常會推廣他們自己開發的工具,甚至進行學術研究。雅虎之前雇傭的一批數據科學家開發出了Hadoop。Facebook的數據團隊開發了在Hadoop上編程的Hive語言。很多其他的數據科學家都豐富或者優化了這套工具,尤其是數據驅動的公司,比如谷歌,亞馬遜,微軟,沃爾瑪,eBay,LinkedIn, 和twitter。
什么樣的人有能力做這些呢?什么技能讓數據科學家成功呢?你可以把他們看成是數據駭客,分析師,溝通高手,值得信任的咨詢師,這些東西組合到一起***威力,也極其少見。
數據科學家最基本最通用的技能是寫代碼。也許五年后不太會這樣了,那時很多人都會在他們的名片上印著“數據科學家”。一個更保值的技能是用所有相關方面都能聽得懂語言進行溝通,另一個是用數據講故事的特殊能力,通過口頭表達或者視覺效果,或者兩者都有。
但我們覺得,數據科學家占支配地位的品質應該是強烈的好奇心,想要深入問題內部的渴望,找到最核心的問題,提取成清晰的結論,并要經得起檢驗。比如,我們所知道的一位數據科學家,他研究的是欺詐問題,但他發現這個問題和DNA排序問題非常類似,在融合了兩個完全不相干的世界之后,他和他的團隊找到了一種能大幅降低欺詐損失的解決方案。
現在你大概清楚了為什么這個新興的角色會被稱為 “科學家”。比如實驗物理學家,同樣也需要設計儀器,收集數據,反復試驗,并最終展示結果。因此,很多公司尋找能處理復雜數據的人才,可很多招到的不錯的人才都是有物理或社會科學領域的學習和工作背景。有些***的最有前途的數據科學家是研究復雜科學的博士生,比如生態學或者系統生物學。George是硅谷Intuit公司的數據科學團隊的負責人,本身是天文學博士畢業。更普遍的是,當今業界許多數據科學家畢業于計算機科學,數學,經濟學,和任何數據和計算密集型的領域。
原文來源:hbr.org