在大數據的世界里,您可能會經常聽到兩個詞語:數據科學(Data Science)和數據分析(Data Analytics)。它們雖然從字面上有些相似,但是在大數據的背景下它們強調的是不同的能力和技能方面。下面,我將從職業決策與規劃的角度,和您討論兩者之間的差異。
一、知識儲備
無論是數據分析還是數據科學領域,都正在變得更加豐富、更加專業化。因此,如果您想進入這兩種職業領域中的任何一種,都需要做好充分的準備,以滿足各項實際工作的需求。其中:
數據分析
數據分析領域的相關工作,往往需要事先對RDBMS(關系數據庫管理系統,Relational Database Management System)和操作數據結構模式(Structure Schema)的SQL、以及查詢開發等方面有所了解。同時,您也需要具備使用R或Python語言,進行統計編程的相關知識。此外,機器學習(Machine Learning,ML)、人工智能(Artificial Intelligence,AI)、自定義算法的開發、以及圍繞著信息收集與存儲的數據管理知識,也會讓您達到事半功倍的效果。簡而言之,您需要擁有IT、計算機科學、數學、以及統計學的相關應用知識與技能。
數據科學
數據科學家往往具有計算機科學、信息技術、應用數學或統計學的教育背景。這些核心知識可以為您開展提供、收集、組織、處理和建模業務數據,做好準備。同時,您也可以了解并掌握有關數據可視化、基于API的數據收集與準備等方面的專業知識。這些對于您開展探索性數據分析,遵循和建立模型,以及對模型進行定制化設計與測試等工作,都十分有益。此外,您在基于AI的預測性建模時,前面提到的ML和AI領域的相關技能也總歸是技不壓身的。
2. 工作角色和職責
無論是數據分析師還是數據科學家,根據專業水平和企業性質的差異,他們的日常角色和工作職能也會有所不同。主要體現在:
數據分析
數據分析師往往主要聚焦于分析、可視化、以及挖掘那些特定于業務的數據。其角色職能包括:
- 清理、處理、驗證、以及例證(exemplify)數據的完整性
- 對大型數據集進行探索性數據分析
- 實施??ETL??(抽取extract、轉換transform、加載load)管道,并進行數據挖掘
- 使用邏輯回歸、KNN(K最鄰近,K-NearestNeighbor分類算法)、隨機森林、以及決策樹,進行統計分析
- 在編寫自動化代碼的同時,構建和管理機器學習(ML)庫
- 使用ML工具和算法獲得新的數據洞見
- 識別數據模型,進而做出明智的、以數據為支持的預測
數據科學
數據科學主要涉及到從業務的上下文數據中,獲得洞見并得出推論。其角色職能包括:
- 收集和解釋數據
- 識別數據集中的相關模式
- 執行基于SQL的數據查詢和子查詢
- 使用SQL、Python、SAS(統計分析軟件)等RDBMS工具去查詢數據
- 熟練掌握各種預測性、規范性、描述性和診斷性的分析工具
- 掌握Tableau和IBM Cognos Analytics等可視化工具的使用
3. 基本技能組合
由于這兩個角色都屬于專業領域,因此它們需要特定的技能集,才能勝任日常的基本工作。具體而言:
數據分析
除了具有問題解決能力的中級統計(intermediate statistics)知識和高級分析技能外,數據分析師的技能還包括:
- 能夠通過Microsoft Excel和SQL數據庫,對數據進行切片和切塊
- 運用商業智能工具生成相關報告
- 通過運用Python、R和SAS等工具,來管理、操作和使用數據集
- 相對于IT工程經驗,數據分析師更需要掌握學習統計、數據庫管理、數據建模、以及預測分析等技能。
數據科學
作為數據科學家,您除了需要精通數學、高級統計學、預測性建模、以及機器學習之外,還需要掌握如下領域的軟件知識:
- Hadoop和Spark針對大數據工具的專業知識
- SQL、NoSQL和PostgreSQL數據庫方面的專業知識
- 了解數據可視化工具和諸如Scala和Python之類的語言
4. 工具譜
常言道:“工欲善其事,必先利其器。”好的工具無論是對于數據分析,還是數據科學都是至關重要。為了便于下載和選用,我將當前市場上的工具,有針對性地進行了分類:
數據分析
- 數據可視化類:Splunk、QlikView、Power BI、以及Tableau
- ETL類:Talend
- 大數據處理類:Spark和RapidMiner
- 數據分析類:Microsoft Excel、R、以及Python
數據科學
- 應用數據科學類:SAS、KNIME、RapidMiner、PowerBI、以及DataRobot
- ETL類:Apache Kafka
- 大數據處理類:Apache Hadoop、Spark
- 數據可視化類:Tableau、BigML、Trifacta、QlikView、MicroStrategy、以及Google Analytics
- 數據分析類:Microsoft Excel、Apache Flink、SAP Hana、MongoDB、MiniTab、以及SPSS
- 編程類:R、Julia、以及Python
- 編程庫類:可用于針對基于Python數據建模的TensorFlow
5. 職業機會
有了前面的信息,您一定想知道在企業中,會有哪些適合數據分析和數據科學領域的熱門職業可供選擇呢?
數據分析
- 商業智能分析師
- 數據分析師
- 定量分析師
- 數據分析顧問
- 運營分析師
- 營銷分析師
- 項目經理
- IT系統分析師
- 運輸物流專家
數據科學
- 數據分析師
- 數據工程師
- 數據庫管理員
- 機器學習工程師
- 數據科學家
- 數據架構師
- 統計員
- 業務分析師
- 數據和分析經理
小結
根據上述比較,我們不難發現企業對于數據科學家本身、以及技能上的要求,要比對普通數據分析師的要求高出一些。不過,在職場上,人們通常會以數據分析師的身份開始他們的職業生涯,然后再逐漸轉向數據科學領域。對于初學者而言,您也可以從數據架構、以及數據工程的相關職位開始,不斷打磨和歷練自己,最終成為該領域的專家。
譯者介紹
陳峻 (Julian Chen),51CTO社區編輯,具有十多年的IT項目實施經驗,善于對內外部資源與風險實施管控,專注傳播網絡與信息安全知識與經驗;持續以博文、專題和譯文等形式,分享前沿技術與新知;經常以線上、線下等方式,開展信息安全類培訓與授課。
原文標題:??Data Analysis vs. Data Science: 5 Things to Consider??,作者:GAURAV SIYAL