成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據科學家vs數據分析師,到底有啥區別?

大數據
本文旨在闡明成為數據科學家和數據分析師到底意味著什么。一起來看看~

[[330191]]

大數據文摘出品

來源:medium

編譯:Fisher、夏雅薇

數據科學和機器學習兩個領域很容易混淆,從職責描述上還是大家的普遍印象里,這兩個職位都差不多。相較之下,數據科學和數據分析這兩個職位更容易區分。它們雖有關鍵差別,但也有相似之處。

有人會說,要成為一名數據科學家,要先從數據分析的工作做起。

作者在兩個領域都待過,本文旨在闡明成為數據科學家和數據分析師到底意味著什么。一起來看看~

之前我是數據分析師的時候,我想繼續深造成為一名數據科學家,我意識到兩者有很大不同。并不是說數據科學與數據分析用完全不一樣的工具和編程語言,我甚至覺得數據科學是數據分析的一種形式,因為最終你是在與數據打交道——轉換格式,進行可視化,得出可用的結論。

數據科學家

代碼示例,用于擬合數據科學中的模型并做預測。來源:作者的屏幕截圖。

換一個角度看數據科學,這是一個實施自動化統計的行業,使用各種模型來進行分類和預測。下面是成為一名數據科學家必備的一些技能:

  • Python 或者 R
  • SQL
  • Jupyter Notebook
  • 算法/建模

(1) Python——根據我個人經驗,大部分公司傾向于用Python而不是R作為主要編程語言。雖然職位描述里可能會同時列出兩者;但是,我猜你身邊的大多數人——比如機器學習工程師、數據工程師和軟件工程師——都不怎么熟悉R。因此,要想成為一名更全面的數據科學家,Python應該更有用。

(2) SQL——乍看之下更像是數據分析師的技能,確實如此,但SQL仍是你從事數據科學必備的技能。工作中數據集往往不會直接發給你的,這跟學術界不同,你需要通過SQL獲得自己的數據集。現在有很多SQL的分支,比如PostgreSQL、MySQL、Microsoft SQL Server T-SQL,以及Oracle SQL。它們都屬于同一種查詢語言,形式接近,但平臺不同。因此,會其中任何一種就行,換到另一種SQL很容易。

(3) Jupyter Notebook——數據科學家的游樂場,既可以用于編程也可以建模。你可以把Jupyter當作一個研究工具,你可以編程,寫代碼,注釋掉代碼,調用sklearn、pandas和numpy這些庫來建模和測試。

(4) 算法——數據科學家的主要職責是用算法來快速準確地預測、分類,以及根據數據來給建議。每當你用新的數據來訓練模型,就會得到一些新的結果。關鍵的算法通常分成兩大類:無監督學習(如聚類)和有監督學習(如分類/回歸)。

一些具體的關鍵算法:

  • 隨機森林(系綜分類)
  • Logistic回歸(分類——不是回歸)
  • K-Means(聚類)
  • K-最近鄰(分類/回歸)

總的來說,數據科學家要做很多事,但主要職責是:

  • 與有關部門一起定義要解決的問題
  • 獲取數據(使用SQL)
  • 探索性的數據分析、特征工程、模型構建、預測(使用Python、Jupyter Notebook、各種算法)
  • 根據工作場景,將代碼編制成.py文件和/或用于部署的模型

數據分析師

[[330192]]

數據分析師與業務分析師、商業情報分析師,甚至Tableau開發人員有著相似的頭銜。數據分析的重點是描述和可視化數據所包含的信息,然后向非技術用戶傳達并做進一步的解釋說明。做預測分析的數據分析師跟數據科學家的工作有很多重疊部分——與數據科學家有更多相似之處,但不是通過自動化、算法化的方法來輸出預測的。

數據分析師需要具備的一些主要技能有:

  • SQL
  • Excel
  • Tableau(或者其他可視化工具,比如Google Data Studio)

(1) SQL——前文提到過數據科學家如何使用SQL,數據分析師也會進行類似的操作。但是,SQL對數據分析師更重要。數據科學家可能只是簡單地從表單中選擇列就可以了,而數據分析師卻要執行更為復雜的查詢操作(例如,常用的表單表達式,數據透視表,窗口函數,子查詢)。不同公司情況不同,有時候數據分析師更接近數據工程師,而非數據科學家。

(2) Excel——很老派,但依然很強大,你甚至可以用它做預測分析和趨勢分析。主要的坑爹之處是跟Python比速度太慢。

(3) Tableau——可視化工具,但根據我的經驗,大多數公司都把它明確列為數據分析師的必備技能。在Tableau中可以拖放數據到預設圖表,簡單強大;還有更多復雜的高級功能,比如計算字段,連接到一個實時的SQL數據庫而非基于靜態的Excel表單進行分析。

總的來說,數據分析師也要做很多事,但主要職能是:

  • 與相關部門定義要解決的業務問題
  • 獲取數據(使用SQL)
  • 探索性的數據分析、趨勢分析和可視化(使用Excel和Tableau)——根據工作場景,向有關部門展示從數據中獲得的發現,并提供可行性的建議

相似點

前面已經概述了一些相似點,總結一下,數據科學家和數據分析師在所用編程語言、平臺/工具,以及所解決的問題方面,都有共同之處。

這些工具包括但不限于SQL、Tableau,以及相似的分析流程,定義問題、分析數據和輸出結果。

差異

盡管有相似之處,但這兩個領域之間仍然有差異。

一部分差異主要在分析的自動化上——數據科學家專注于使用Python等語言編寫算法,進行自動化分析和預測;而數據分析師則使用靜態的或者過往的數據,在某些情況下會使用Tableau和SQL等工具去做預測。

總結

[[330193]]

數據科學和數據分析的共同點很多,不僅僅是名稱里都有“數據”而已;但同時它們也有重要的區別。無論你想成為數據科學家還是數據分析師,我希望這篇文章對你有用。如果你已經是這兩個角色當中的一員,那么我希望你學到了一些新的東西。

相關報道:

https://towardsdatascience.com/data-science-vs-data-analysis-heres-the-difference-4d3da0a90f4

【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】

     大數據文摘二維碼

戳這里,看該作者更多好文

 

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2018-10-16 14:37:34

數據科學家數據分析數據科學

2019-08-13 21:44:46

數據科學家數據分析師數據

2017-08-04 15:53:10

大數據真偽數據科學家

2012-03-16 13:12:06

2020-07-30 23:25:07

數據分析師數據科學家職位

2015-07-28 17:00:30

2018-08-19 15:39:56

數據分析數據科學數據工程師

2019-02-25 22:57:22

數據工程師數據科學機器學習

2015-11-04 10:10:05

信息圖數據分析科學家

2017-03-07 10:37:05

非數據數據分析

2013-11-12 09:27:01

大數據科學家大數據

2015-10-08 10:09:42

2018-12-24 08:37:44

數據科學家數據模型

2020-12-09 06:25:19

ETL數據分析數據科學家

2012-12-26 10:51:20

數據科學家

2019-04-16 15:06:41

數據科學職業BI

2022-07-04 11:27:02

標簽數據指標標簽體系

2023-06-26 11:59:52

標簽質量梳理

2015-12-18 16:32:36

Taste?Analy大數據云計算

2018-03-30 08:58:34

Web 開發Python
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www.天天操.com | 国产伦精品一区二区三区精品视频 | 另类视频区| 搞av.com| 国产激情一区二区三区 | 羞羞视频一区二区 | 亚州精品天堂中文字幕 | 少妇诱惑av| 亚洲一区二区三区四区av | 在线国产一区二区 | 亚洲顶级毛片 | 毛片网站在线观看 | 国产欧美精品在线观看 | 天天澡天天狠天天天做 | 亚洲精品99999 | 欧美一区二区三区视频在线播放 | 嫩草视频在线看 | 国产成人高清成人av片在线看 | 日韩中文在线观看 | 国产精品1区2区3区 欧美 中文字幕 | a精品视频| 草草影院ccyy | 国产在线精品一区二区 | 小川阿佐美pgd-606在线 | 一区二区三区av夏目彩春 | 中文字幕日韩欧美 | 免费欧美| 亚洲精品美女在线观看 | 国产精品国产精品国产专区不卡 | 欧美综合久久久 | 成人免费淫片aa视频免费 | 黄 色 毛片免费 | 精品综合 | 欧美午夜久久 | 精品久久一 | 国产在线视频一区二区董小宛性色 | 欧美精品首页 | 精品国产青草久久久久福利 | 国产欧美视频一区二区三区 | 黄色毛片在线播放 | 日韩黄色小视频 |