精英數據科學家應該具備這些能力和特質
數據科學家的需求仍然很高,幾乎每個行業的企業都希望從其蓬勃發展的信息資源中獲得最大價值。
“隨著企業開始充分利用內部數據資產,以及審視數百個第三方數據源的整合,數據科學家的作用也在變得越來越重要,”咨詢公司Protiviti總監Greg Boyd這樣說。
“過去,負責數據的團隊只是IT部門的后臺,執行關鍵數據庫任務,確保各種公司系統得到數據‘燃料’的支持,這讓企業高管能夠報告運營情況并提供財務結果。”
這個角色很重要,但冉冉升起的業務明星都是那些精明的數據科學家,他們不僅能夠利用復雜的統計和可視化技術處理大量數據,而且具有極強的敏銳度,讓他們可以從數據中得到前瞻性的洞察,這些洞察有助于預測潛在結果,并減少對企業的潛在威脅。
那么,成為數據科學家需要具備哪些條件呢?下面就是我們根據IT領導者、行業分析師、數據科學家的看法,總結出的一些重要屬性和技能。
批判性思維
數據科學家應該是具有批判性的思想家,能夠在提出意見或作出判斷之前,針對特定主題或問題對事實進行客觀的分析。
咨詢公司普華永道負責數據分析的全球人工智能和創新負責人Anand Rao表示:“他們需要了解業務問題或業務決策,并能夠‘模擬’或‘抽象’解決問題的關鍵,而不是那些無關的、可以忽略的事情。這項技能比其他任何因素都更多地決定著數據科學家能否取得成功。”
數據科學家需要有經驗,但也要能夠摒棄先見,Zeta Global公司首席信息官Jeffry Nimeroff補充說。
Nimeroff說:“這種特質是要知道在任何領域工作都能有所期待,但也知道經驗和直覺是不完美的。有經驗是件好事,如果我們過于自滿,那風險也是存在的。這就是摒棄先見的重要性所在。”
這并不是說要以新手的視角來看待事情,而是要從多個角度重新審視,或者能夠評估問題和情況。
寫代碼
頂尖的數據科學家知道如何寫代碼,并且能夠輕松處理各種編程任務。
Rao說:“數據科學的語言選擇正在朝著Python方向傾斜,R語言也有大量追隨者。”此外,還有其他一些正在使用中的語言,例如Scala、Clojure、Java和Octave。
“要成為一名非常成功的數據科學家,編程技能就需要同時覆蓋到計算方面——處理大量數據、處理實時數據、云計算、非結構化數據以及統計——和工作與統計模型方面——如回滾、優化、集群、決策樹、隨機森林等。”
安全軟件公司McAfee的首席數據科學家Celeste Fralick說,大數據從20世紀90年代末開始產生影響力以來,就要求越來越多的數據科學家理解并能夠使用諸如Python、C ++或Java等語言進行編碼。
如果一個數據科學家不懂如何寫代碼,那么就應該聘請一群會寫代碼的人。“把數據科學家和開發人員組成一個團隊,這被證明是非常成效的,”Fralick這樣說。
數學
對于不喜歡或不擅長數學的人來說,數據科學可能不是一個很好的職業選擇。
Boyd表示:“在我們與全球組織的合作中,我們認識了很多希望開發復雜財務或運營模式的客戶,為了使這些模型具有統計相關性,就需要有大量的數據。數據科學家的角色,就是利用他們在數學方面的深厚專業知識,開發出可用于開發或轉移關鍵業務戰略的統計模型。”
數據科學家應該是擅長數學和統計學的,同時具備與業務線主管密切協作的能力,以確保業務可以信賴其結果和建議的方式,與業務線主管溝通在復雜的“黑盒子”中實際發生了什么。
機器學習、深度學習、人工智能
計算能力不斷提高,連接性增加,以及收集到的海量數據,很多行業都在飛速的發展中。 “數據科學家需要走在研究前沿,知道在什么時候運用什么技術。很多時候,數據科學家會采用那些‘性感’而新奇的技術,而他們實際要解決的問題遠沒有那么復雜。”
數據科學家需要對他們要解決的問題有著深入的了解,數據本身會告訴你需要什么。Fralick說:“意識到生態系統的計算成本、可解釋性、延遲、帶寬,以及其他系統邊界條件,還有客戶的成熟度,這可以幫助數據科學家知道他們應該運用哪種技術。”的確如此,只要他們對這種技術是了解的。
統計方面的能力也是很重要的。Fralick說,大多數雇主都沒有考慮這方面的技能,因為他們輕而易舉地就能使用各種自動化工具和開源軟件。“但是,了解統計數據是理解這些工具和軟件所做假設的關鍵能力,”她說。
數據存儲公司Micron首席信息官Trevor Schulze說,僅僅理解機器學習算法的功能接口是不夠的。“為了選擇合適的算法,數據科學家需要了解方法中的統計數據以及數據準備技術,以最大限度地提高任何模型的整體性能。”
Schulze說,計算機科學能力也很重要。因為數據科學的工作主要是在鍵盤上進行的,所以堅實的軟件工程基礎能起到幫助作用。
溝通能力
溝通技巧的重要性不言而喻。如今各種技術幾乎沒有哪些技術是在真空中使用的;系統、應用、數據和人員之間總是存在著整合。數據科學也是如此,能夠利用數據與利益相關者進行交流,這是一個重要特質。
“用數據‘講故事’的能力,是可以把數學結果轉化為可操作的洞察或者干預。作為業務、技術和數據的交叉點,數據科學家需要善于向每個利益相關者‘講故事’。”
這其中包括,向業務主管傳達數據的商業利益;技術和計算資源;數據質量、隱私和機密性方面的挑戰;以及該組織感興趣的其他領域。
Nimeroff表示,作為一名優秀的溝通者,能夠將具有挑戰性的技術信息提煉成完整的、準確且易于呈現的形式。“數據科學家必須記住,他們執行所產生的結果,可以并且將用于支持業務的特定行動。因此,要確保受眾理解并接受擺在他們面前的所有內容,包括問題、數據、成功標準和結果,這是至關重要的。”
Schulze說,優秀的數據科學家必須具有商業頭腦和好奇心,才能充分地與業務利益相關者溝通,了解問題并確定哪些數據可能是相關的。
此外,數據科學家需要能夠向業務領導者解釋算法。Schulze說:“解釋算法是如何實現預測的,是獲得領導者對作為業務流程一部分的預測模型的信任的關鍵技能。”
數據架構
數據科學家必須從一開始、到模型、再到業務決策的過程中,就了解數據的所有情況。
“如果不去了解架構可能會對樣本規模的推論和假設產生這樣嚴重的影響,這就會導致錯誤的結果和決策,”Fralick說。
更糟糕的是,架構內部也可能會發生變化。Fralick說,如果不了解對模型的影響是從何而起的話,數據科學家最終可能會“不得不重做模型”,或者突然遇到模型不準確的情況而不知道其中原因。
Fraclick表示,雖然Hadoop通過將代碼傳遞給數據(而不是相反)來通過提供大數據,但了解數據流或數據管道的復雜性對于確保基于事實的決策制定是至關重要的。
風險分析、過程改進、系統工程
敏銳的數據科學家需要了解分析業務風險、改進流程以及系統工程等概念。
Fralick表示:“我所知的優秀數據科學家無一不具備這些能力。他們緊密合作,對內焦點是數據科學家,對外專注于客戶。”
對內,數據科學家應該謹記“科學家”三個字,遵循良好的科學理論,Fralick這樣說。
在模型開發開始時進行風險分析可以降低風險。“表面上看,這些都是數據科學家了解客戶想要解決什么問題索要具備的技能。”
Fralick表示,將支出與流程改進聯系起來,了解固有的那些公司風險,以及可能影響數據或模型結果的其他系統,這些可以通過數據科學家的努力實現更高的客戶滿意度。
解決問題的能力和良好的商業直覺
一般來說,偉大的數據科學家所展現的特質,與任何一個好的問題解決者都是相同的。Nimeroff表示:“”他們會從多角度看待世界,他們會在動用所有工具之前,先了解他們應該做什么,他們以嚴謹而完整的方式工作,并且能夠順利地解釋他們的執行結果。”
當評估數據科學家等職位的技術專業人士時,Nimeroff會尋找這些特質。“這種方法成功的幾率要比失敗的幾率高得多,并且也確保了潛在的優勢得以最大化,因為批判性思維已經走到了最前沿。”
尋找一位優秀的數據科學家,就是要尋找擁有某種矛盾性技能的人:可以應對數據處理,并創建有用的模型;能直觀地理解他們正在嘗試解決的業務問題、數據的結構和細微差別、以及模型的工作原理,商業軟件供應商Paytronix Systems的Paytronix Data Insights主管Lee Barnes這樣說道。
“其中第一個是最容易找到的;大多數擁有良好數學能力,擁有數學統計學、工程學或其他科學學科學位的人,可能在這方面是非常出色的。第二個卻很難找到。令人驚訝的是,很多人建立了復雜的模型,但是當他們被問及為什么他們認為這個模型能夠奏效、或者為什么他們選擇這個方法的時候,他們卻無法給出一個很好的答案。”
這些人也許能夠解釋模型有多準確,“但是,如果不理解模型為什么以及如何工作,就很難對他們的模型抱有很大的信心。能夠對于正在做的事情有更深入的了解和直覺,這樣的人才是真正的數據科學家,并且可能在這個領域擁有成功的職業生涯。”Barnes說。