機器學習工程師與數據科學家的大斗法
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)
隨著人工智能的發展,市場上出現了一些新的工作崗位。但對于這些新興領域的新興職業,我們很多人難以分辨其間的不同之處,尤其是機器學習工程師和數據科學家的作用有何區別,這很令人困惑。
閱讀了不同的文章、博客并觀看了一些視頻之后,筆者想通過對比二者之間的差異來更清晰地介紹它們。
先類比一下。作家和教授之間有什么區別?可以說這兩者都知道一種語言的“規則和語法”,其中一個是講故事的人,另一個是“規則”的嚴格實踐者。
數據科學家對原始數據進行處理分析,連接點并使用其他可視化工具講述故事。他們通常具有較廣泛的技能,深入了解的知識不超過一兩個。他們更多偏向是在創意方面,像一個藝術家。
機器學習工程師則將數據視為必須接收并能以某種適當的形式高效輸出的東西。他們的技能需要與實施細節相關的高效。
兩者之間可能有很多重疊之處,但數據科學家可以是機器學習工程師,反之則不然。也許隨著他們獲得更多經驗,機器學習工程師就是數據科學家,這樣的說法會實現。

機器學習與數據科學的維恩圖
就洞察力或學習等方面而言,數據科學需要具有一定商業頭腦的人才,而機器學習則需要關于系統預測的人才。例如:
- 數據科學:“在城鎮的這一部分,每2英里約有一個加油站”
- 機器學習:“自從看到加油站以來,我們走了兩英里,所以現在就要開始尋找另一個加油站”
接著再來看看Netflix的例子。
我們都知道Netflix會根據之前的選擇來智能地推薦電影。該推薦系統可與機器學習算法配合使用,從而使用推薦系統提供合適的電影選擇。
當談論Netflix中的數據科學時,我們所要研究的模式包括在特定時間觀看的評論者數量、其年齡和性別組成以及許多其他情況。這些決策用于改善業務前景。當企業需要借助數據來回答問題或解決問題時,數據科學家的工作就是從原始數據和非結構化數據中提供有用的見解。
數據科學家需要的技能:
- 統計
- 數據挖掘和清理
- 數據可視化
- 非結構化數據管理技術
- 編程語言,例如R和Python
- 了解SQL數據庫
- 使用Hadoop、Hive和Pig等大數據工具
機器學習工程師需要的技能:
- 計算機科學基礎
- 統計建模
- 數據評估和建模
- 了解和應用算法
- 自然語言處理
- 數據架構設計
- 文本表示技術
綜上可見,數據科學家和機器學習工程師的工作還是有很大區別的,不要混淆它們。確定好自己所具有的技能條件和個人興趣更適合哪個職位,并有意識地培養自己某個方向的技能,為未來做好準備。