大數據才是核心競爭力,揭開年薪百萬的數據科學家的神秘面紗
一句話來描述數據科學家,他們是從混亂數據中理出價值的人,是大數據的專家。
數據科學家具備數據的提取的能力;.統計分析能力;數據洞察與信息挖掘能力;.數據的可視化表示等能力。他們能采用科學方法、運用數據挖掘工具對復雜多量的數字、符號、文字、網址、音頻或視頻等信息進行數字化重現與認識,并能尋找新的數據洞察結果。
我們正處于一個大數據飛速發展的時代,隨著網絡和硬件的發展,數據存儲與計算能力大幅度提升,我們所做的一切事,不論是在互聯網中或者是互聯網之外,都會留下數字的痕跡。比如刷卡購物,網絡搜索,手機上網,乃至在網上每一個小小的點擊都可以被一一記錄下來。
這些數據有傳統數據完全不同的特點:

大數據特征
這些數據需要對多源多樣的動態數據做實時的關聯分析和挖掘。這也決定了傳統的商業智能、數據庫技術等已無法發揮其作用。用傳統的數據處理技術和方法沒法處理、管理和使用,這些都給數據的處理帶來了新挑戰--這就是大數據。大數據將這些不同來源、不同結構的數據全部結合在一起進行關聯分析,并從中提取所需的價值。
數據的價值到底有多大?
數據科學家的核心作用在于發掘數據的最佳商業價值,通過挖掘這類數據發現行業洞見,而并非簡單地使大數據項目落地。未來,企業能否對來源多樣、海量雜亂的數據進行有效分析和利用,推動產品創新,成為衡量企業競爭力的新標尺。
美國洛杉磯的一家企業宣稱,他們將全球夜景的歷史數據建立模型,在過濾掉波動之后,做出了投資房地產和消費的研究報告。麥當勞則通過外送服務,在售賣漢堡的同時獲得了用戶的精準地址,這些地址數據匯集之后,就變成了一份絕妙的房地產業的內部數據。
物流公司的數據原來只服務于運營需要,但一經再利用,物流公司就華麗轉身為金融公司,數據用以評估客戶的信用,提供無抵押貸款,或者拿運送途中的貨品作為抵押提供貸款;物流公司甚至可以轉變為金融信息服務公司來判斷各個細分經濟領域的運行和走勢。
華爾街“德溫特資本市場”公司首席執行官保羅·霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進而判斷民眾情緒,再以“1”到“50”進行打分。根據打分結果,霍廷再決定如何處理手中數以百萬美元計的股票。霍廷的判斷原則很簡單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。
沃爾沃集團通過在卡車產品中安裝傳感器和嵌入式CPU,采集剎車到中央門鎖系統等形形色色的車輛使用的數據信息,將這些來自不同客戶的使用數據進行分析,可以讓產品部門提早發現產品潛在的問題。“產品設計方面的缺陷,此前可能需要有50萬臺銷量的時候才能暴露出來,而現在只需要1000臺,我們就能發現潛在的缺陷。”
據國家發改委官員的統計,涪陵榨菜這幾年在全國各地區銷售份額變化,能夠反映人口流動趨勢,一個被稱為“榨菜指數”的宏觀經濟指標就誕生了。國家發改委規劃司官員發現,涪陵榨菜在華南地區銷售份額由2007年的49%、2008年的48%、2009年的47.58%、2010年的38.50%下滑到2011年的29.99%。這個數據表明,華南地區人口流出速度非常快。他們依據“榨菜指標”,將全國分為人口流入區和人口流出區兩部分,針對兩個區的不同人口結構,在政策制定上將會有所不同。
數據科學與數據分析的本質區別
數據科學是一個多學科領域,專注于從大量原始和結構化數據中找到切實可行的見解。數據科學家的主要目標是找出問題并找出潛在的研究途徑,而不用擔心具體的答案,更多的重點放在尋找正確的問題上。專家通過預測潛在趨勢,探索不同和不相關的數據來源,并找到更好的分析信息的方式來實現這一點。
數據分析專注于在現有的數據集里面,處理和執行統計分析。分析人員集中于創建捕獲,處理和組織數據的方法,以發現當前問題的切實可行的見解,并建立呈現此數據的最佳方式。

數據科學與數據分析的區別
數據科學家有多緊俏?
在各行各業,大數據技術應用也越來越廣泛,對于數據人才的需求也越來越大。
在2015年年初,美國總統發布了白宮的一個新職位——首席數據科學家,并且任命 DJ Patil 擔此重任,而 DJ Patil 正是本書中的受訪者之一。
在未來6年,僅美國本土就可能缺少14萬~19萬具備深入分析數據能力的專業人才,能夠通過分析大數據支撐企業做出有效決策的數據管理人員和分析師也有150萬人的缺口。從這個角度說,數據科學家是大數據時代最緊缺的人才并不為過。
數據科學家能為企業做什么?
隨著數據量的迅猛增長,今天企業搜集的數據比以往任何時候都要多,不僅在企業內部,在外部的組織網絡和更廣泛的消費領域亦是如此。企業文化的轉變對組織運營產生了巨大影響。
在新數字化企業及其周圍的環境里,數據成為了組織的基石。從創新到所有決策,數據推動著企業的發展,并使得各級組織的運營更為高效。可以這樣說,數據將成為每個企業獲取下一個核心競爭力的要素。
數據科學家在企業能處理以下事務:

數據科學家職責
你的企業需要數據科學家嗎?
數據科學家主要從事數據分析工作,從海量數據中挖掘有價值的信息。如果一個項目只是側重數據的獲取與存儲,那么可能需要的是熟悉平臺架構的數據庫工程師或架構師;如果項目側重數據分析,那么數據科學家就是必需的。
事實上,如果公司的核心業務不是機器學習,那么你所做的數據科學很可能只會帶來很少的收益。但是如果愿意投入,將這些成果積少成多,或者你可能很幸運地偶然發現一個金礦項目,都會讓價值增加,但這種事情可遇不可求。
如何挑選數據科學家
數據科學家所需的基本技能和能力與其他發揮信息數據最大用途的工作相同,即深度分析的能力、扎實的數據挖掘技能以及對統計分析方法和工具的了解。同時,數據科學家還需引導有價值和有意義的見解,這要求其能夠深刻理解行業動態和發展趨勢、客戶的需求與行為以及企業內部的業務流程等。數據科學家必須掌握所有形式的數據,并不斷地利用這些資源推動業務實現創新與突破。
單就近幾年數據科學的發展來看,成為一名數據科學家至少需要了解以下幾個方面的技能分支,企業在招聘的時候可以以這些技能為參考依據。

數據科學家必備技能
企業如何合理的使用數據科學家
數據科學家不是魔法師,當所需的數據不可得或者質量很差的時候,數據科學家能做的很有限,這已經超過了技術的范疇。企業管理者如果能從全局出發部署數據戰略,才能真正解決當下數據科學家的痛點,這樣數據科學家才能發揮作用解決公司的痛點。
在企業中,數據科學家并應該不是孤立的個體,而應該是一個團隊。數據科學家之間的交流與協作是必需的,這樣才更有利于數據處理工作的開展和數據產品的開發。文思海輝金融事業群商業智能事業部解決方案高級經理馬寧認為,一個人難以精通與數據業務相關的方方面面的問題,因此企業應該成立一個數據科學團隊,團隊中的每個人都可以專注于自身擅長的領域。