成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深度剖析:數據工程師vs數據科學家

大數據
了解數據工程師和數據科學家之間的差異非常重要。 誤解或不了解其差異,會導致團隊在處理大數據時失敗或者表現不及預期。一個核心的誤解是每個職位各自的優點和弱點。 我認為,其中一些誤解來源于描述數據科學家和數據工程師的圖表。

了解數據工程師和數據科學家之間的差異非常重要。 誤解或不了解其差異,會導致團隊在處理大數據時失敗或者表現不及預期。

一個核心的誤解是每個職位各自的優點和弱點。 我認為,其中一些誤解來源于描述數據科學家和數據工程師的圖表。

深度剖析:數據工程師vs數據科學家
圖1.關于數據科學家和數據工程師過度簡化的維恩圖。 來自Jesse Anderson的插圖

像圖1這樣的維恩圖,過度簡化了崗位的復雜性,以及崗位的區別之處。它使兩個崗位看上去可以互換。 是的,這兩個崗位都處理大數據。 不過,每個崗位利用大數據,無論是創造價值,還是創造數據管線的做法都是截然不同的。這種差異來自每個崗位的基本技能。

何為數據科學家和數據工程師?

當我與組織機構合作,處理它們的團隊架構時,我不用維恩圖去描述一名數據工程師和一名數據科學家之間的關系。 我繪制的圖如圖2所示。

深度剖析:數據工程師vs數據科學家
圖2.顯示數據科學家和數據工程師的核心能力及其重疊技能的圖表。 Jesse Anderson和大數據研究所的插圖

數據科學家的技能

數學與統計學(有時物理也可以)是數據科學家的核心。 在基于這種數學背景,他們正創建高級分析能力。 他們通過數學應用來創建機器學習模型和人工智能模型。

如同軟件工程一樣,數據科學家將不得不與業務端進行交流。 這包括充分了解領域,以獲得洞察力。 數據科學家通常負責分析數據以幫助業務,這需要一定的商業敏銳度。 最后,他們的結果需要以可理解的方式提供給業務方。這要求數據科學家有能力用口述和視覺結果的形式,與業務方交流那些復雜的結果和觀察情況,以似的業務方能夠理解并且基于此展開決策。

關于數據科學家,我一言以概之的定義是:數據科學家是通過編程來強化他們的數學和統計背景能力來進行分析數據、創造數學模型的人。

數據科學家的一個常見特征是,他們不得不選擇了編程,以實現他們除了編程以外無法做到的事情。 當我與數據科學家交談時,他們經常向我傾訴的一件事情。 為了完成更復雜的分析,或者由于其他方面難以克服的問題,他們學會了如何編程。 他們的編程和系統搭建技能達不到你從程序員或數據工程師那里會看到的水平 – 他們也沒必要達到。

數據工程師的技能

編程能力是數據工程師的核心。這種能力背景通常是Java,Scala或Python的編程經驗。 他們的工作重點或專業能力主要在分布式系統和大數據方面。 數據工程師具有高級編程和系統構建技能。

對于數據工程師,我對其一言以蔽之的定義是:數據工程師是在圍繞大數據建立創建軟件解決方案上具備專業技能的人。

利用這些工程技能,他們可以創建數據管線。 創建數據管線可能聽起來很簡單或微不足道,但在大數據這種規模上,這意味著將10-30種不同的大數據技術整合在一起。 更重要的是,數據工程師是理解并選擇“適合處理某種工作的工具”的人。 數據工程師深入了解各種技術和框架,以及如何將它們組合在一起以創建解決方案,從而使公司的業務流程具備數據管線。

在我的經驗中,數據工程師只是盡可能低限度地參與集群的運維(與此處討論有關數據工程師的說法相反)。 雖然某些數據科學技術確實需要設置一個運維或者數據運維崗位,不過絕大多數技術都沒有。 就像大多數程序員一樣,我不允許他們直接訪問生產系統。 這主要是系統管理員或運維人員的工作。

重疊技能

數據科學家和數據工程師技能之間存在重疊。 然而,重疊永遠發生在每個人能力的不規則邊緣。

比方說,這兩個崗位在“分析”上重疊了。 但是,數據科學家的分析技能將遠遠超過數據工程師的分析技能。 數據工程師可以執行一些基本到中級的分析,但很難進行數據科學家所做的高級分析。

數據科學家和數據工程師在編程能力上有所重疊。 不過,數據工程師的編程技能遠遠超出了數據科學家的編程技能。 讓數據科學家創建數據管線早已遠離了他們技能優勢邊界,但卻是數據工程師的優勢所在。 在這種情況下,這兩個角色是互補的,數據工程師對數據科學家的工作起支持作用。

您會注意到,數據科學家和數據工程師之間還存在一個大數據方面的重疊。 通過更好地了解每個崗位的技能,您現在可以更好的理解這種技能重疊。 數據工程師使用他們的編程和系統構建技能來創建大數據管線。 數據科學家利用他們更加有限的編程技能,運用他們的高級數學技能, 利用已經存在的數據管線創建高級數據產品。 “創建和使用”之間的這種差異,是在處理大數據時,團隊失敗或者表現不佳的核心之處。一個團隊,如果期望他們的數據科學家創建數據管線,最后將會極其失望。

當機構把事情搞錯了

不幸的是,一個機構誤解每個崗位的核心技能和職位角色相當常見。一些機構認為數據科學家可以創建數據管線。 數據科學家可以將就地創建數據管線。 數據科學家創建數據管道的問題有幾個方面。 請記住,數據科學家只是不得不學習編程和大數據。 他們是聰明的人,最終確實可以解決問題,但創建數據管線并不是他們的核心競爭力。

從管理角度來看,數據科學團隊將陷入困境。 您將環顧四周或聽取其他團隊的意見,并將他們的進度與本團隊的進度進行比較。 看起來,好像數據科學團隊根本沒有產出,或者表現不佳。 這是一種基于對數據科學家核心競爭力的誤解,所產生的不公平的評估。

數據科學家從事數據工程

我見過公司要求數據科學家們做數據工程師所做的事情。 數據科學家的效率為20-30%。 數據科學家并不知道數據工程師所知道的事情。 創建數據管道并非易事 – 它需要高級編程技能,大數據框架理解和系統創建。 這些不是普通數據科學家所擁有的技能。 數據科學家可以獲得這些技能; 然而,這段時間的投資回報率(ROI)非常低。 不要誤解我:數據科學家確實需要編程和大數據技能,而不是數據工程師需要的水平。

在數據管線創建中,相對來說業余的數據科學家也會碰到這種問題:數據科學家會在選擇工具上犯錯誤、進行錯誤的選擇,而數據工程師則不會。 數據科學家通常不清楚或者不理解處理一個任務所需要的合適工具。對于所有任務都使用單一工具(往往是一個錯誤的工具),最終把一切都搞砸?,F實情況是,為了處理不同的工作,需要許多不同的工具。 合格的數據工程師會知道這些,數據科學家通常不會知道這些。

最近的一個例子是,數據科學家使用Apache Spark處理幾十GB數據集。 的確,Spark可以處理這么多數據。 但是,一個小型數據程序會更快,也會執行的更好。他們的Spark任務需要10-15分鐘才能執行,然而小數據的關系型數據庫只需要0.01秒來完成同樣的事情。 在這種情況下,數據科學家解決了這個問題,但卻不明白這項工作的正確工具是什么。 在一天內完成這種消耗15分鐘時間的工作16次,(這是低端的數據分析),你的數據科學家每天就要花四個小時等待,因為他們正在使用錯誤的工具來完成這個任務。

在另一個機構中,他們的數據科學家沒有任何數據工程資源。 數據科學家會處理這些問題,直到他們遇到無法解決的數據工程問題并且卡住。 他們向業務部門報告說,他們無法完成任務,就在那里讓工作只完成了一半就停了下來。這導致數據科學家們截止到那個時刻都在浪費時間,并且據他們估計,就只因為無法完成工作,數百萬美元的價值在那里懸而未決。

如果讓一位數據科學家做數據工程師工作,一個更令人擔憂的表現是數據科學家會感到沮喪并辭職。 我在許多機構中,和處理數據工程師工作的許多數據科學家交談過。 對話總是一樣的 :數據科學家抱怨他們來公司是為了從事數據科學工作,而不是數據工程工作的。 他們把事情做完就需要完成數據工程工作,但讓數據科學家做數據工程師的工作會讓他們發瘋。 他們會選擇辭職,而您將會需要用3-6個月的時間來完成數據工程。 我在另一篇文章中更多地討論了這些問題。

數據工程師與數據科學家的比率

決定數據工程師和數據科學家的比率是一個常見問題。在確定這個比率時,常見需要考慮的問題包括數據管線有多復雜,數據管線有多成熟,以及數據工程團隊需要擁有多少經驗。

擁有比數據工程師更多的數據科學家通常是個問題。 它通常意味著,機構正在讓他們的數據科學家進行數據工程工作。 正如我之前所說的,這會進而導致各種各樣的問題。

為每個數據科學家搭配2-3位數據工程師是一個常見配置。 對于一些具有更復雜數據工程要求的機構,這個數字可以是每個數據科學家配備4-5名數據工程師。 這包括那些數據工程和數據科學處于不同匯報組織結構中的機構。 您需要更多的數據工程師,因為創建數據管線需要比創建ML / AI部分花費更多的時間和精力。

我在《數據工程團隊》一書中,更多地討論了數據工程和數據科學團隊應該如何相互交流。

數據工程師從事數據科學研究

一個遠非常見的情況是數據工程師開始進行數據科學工作。 隨著數據工程師開始提高他們的數學和統計技能,這是一個向上的推動力。 隨著數據科學變得更加標準化,這種向上的推動力變得越來越普遍。 它導致了一種全新的工程師類型出現。

對機器學習工程師的需求

讓我們直面這個事實:數據科學家來自學術背景。 他們通常擁有博士學位或碩士學位。 問題在于,他們寧愿寫一篇關于問題的論文,而不是將某些東西投入生產。 其他時候,他們的編程能力只會擴展到在R中創建一些東西。把用R編寫的東西放到生產中本身就是一個問題。 他們不像工程師那樣思考如何建立系統。

數據科學家面臨的一般問題是,他們不是將工作投入生產、創建數據管線以及公開這些AI / ML結果的工程師。

為了應對學術思維與“投入生產的需求”之間的差異,我們觀察到了一種新型的工程師。 現在,這位工程師大多可以在美國看到。他們的頭銜是機器學習工程師。

深度剖析:數據工程師vs數據科學家
圖3.顯示機器學習工程師與數據科學家和數據工程師的匹配情況的圖表。 Jesse Anderson和大數據研究所的插圖

機器學習工程師主要來自數據工程背景。 他們經歷了足夠多的交叉培訓,變得同時熟練掌握數據工程和數據科學。 一種不常見的途徑是數據科學家在數據工程方面進行交叉訓練。

對機器學習工程師,我一言以蔽之的定義是:機器學習工程師是坐在數據科學和數據工程的十字路口,并且熟練掌握數據工程和數據科學兩方面的人。

如圖2所示,您可能想知道在數據科學與數據工程之間存在的差距里會發生什么。 這正是機器學習工程師所處的位置,如圖3所示。它們是數據工程師創建的數據管線與數據科學家所創造東西之間的橋梁。 機器學習工程師負責獲取數據科學家發現或創造的內容,并使其在生產環境中發揮價值(值得注意的是,數據科學家創建的大部分內容并非在生產上有價值, 并且大部分被用技巧拼湊起來能夠工作)。

機器學習工程師的工作,主要是創建數據科學管線的最后一步。 這可能需要幾個部分。 它可能是將數據科學家的代碼從R / Python重寫為Java / Scala。 它可能是從軟件工程的角度優化ML / AI代碼,保證數據科學家寫的代碼能夠運行良好(或者干脆就是能夠運行)。 機器學習工程師具有足夠的工程背景,可以在一個領域(數據科學)保障所必需的工程規范,這些領域以并不遵循良好的工程原理而著稱。

在生產環境中運行的模型需要維護和輸入,而普通的軟件并不需要。 機器學習模型可能過時,并開始給出不正確或扭曲事實的結果。 這可能來自數據屬性的改變,新數據的增加,或惡意性質的攻擊。 無論是哪種方式導致的,機器學習工程師都需要時刻注意他們的模型中需要修改的部分,這可能導致模型的重新訓練或調整。

機器學習工程師和數據工程師

數據工程師向機器學習工程師的過渡是一個緩慢的過程。 坦率來講,我們將看到,變成機器學習工程師需要作出什么變化和變成數據科學家需要作出什么變化是非常相似的。

為了解釋我的“緩慢變化”的意思,我將分享那些我見過的從數據工程師轉變為機器學習工程師的人的經驗。 他們花了數年時間做軟件工程師和數據工程師的開發工作。 他們一直對統計學或數學感興趣。 其他時候,他們只是厭倦了作為一名數據工程師所遇到的限制。 無論哪種方式,這種轉變需要數年時間。 參加初級統計課程或初級學習機器課程之后,我沒發現人們能立刻成為機器學習工程師。

正如我將數據科學家視為偏學術一樣,數據工程師也不剛好是適合做機器學習工程師的。 一個工程師喜歡世界里的真和假,黑和白,以及1和0。他們不喜歡不確定性。 通過機器學習,模型的猜測存在一定程度的不確定性(工程師也不喜歡猜測)。 與大多數工程師不同,機器學習工程師可以跨越數據工程的確定性和數據科學的不確定性。

機器學習工程師日益增加的價值

進行數據科學的門檻正在逐漸降低。優秀實踐正在逐步充實。 最常見的算法變為共識。 更好的消息是,有人已經編碼并優化了這些算法。

這種不斷增長的成熟性,使得數據科學家和機器學習工程師更容易將算法投入生產而無需編碼。 我們也看到,數據科學變得更加自動化,有著更為自驅動的過程。 Google的AutoML就代表了這樣一種趨勢,工具會自動為您找到優秀算法,無需成熟數據科學家的工作即可獲得結果。 DataRobot是另一種自動化技術,它為數據尋找優秀的數據科學算法。 它還將幫助機器學習工程師將算法投入生產。

這些工具不會取代硬核的數據科學,但它將使數據科學家能夠專注于數據科學中更困難的部分。 它將使機器學習工程師變得越來越有生產力。 我們將逐漸看到,機器學習工程師的負擔會越發減少,自動化算法越發增加。

未來應該期望機器學習工程師達到何種水平的生產力?我對這一點感到左右為難。簡單來說,機器學習工程師是否要為他們的Web開發人員做Wordpress配置員? 在這種場景下,機器學習工程師可以通過眾所周知的標準用例來提高工作效率,只有數據科學家才能處理真正的自定義工作。 或者,機器學習工程師會重新成為數據庫管理員嗎? 在對模型已知的深入了解,他們可以使用已知的、千篇一律的方法來配置模型,在50-80%的時候獲得正確的結果,并且這足以滿足所有需求。 要獲得真正準確的結果,您會需要一位數據科學家。

機器學習工程師和數據科學家的生產力的關鍵,將會是他們的工具。 現在工具缺乏成熟度,這就是為什么我會好奇他們將來會有多么高效。

我希望數據科學的入門門檻繼續降低。 這將使機器學習工程師能夠在不大量增加知識的情況下完成更多的數據科學工作。 我希望機器學習工程師的角色在美國和全世界范圍內變得越來越普遍。

該怎么做?

現在您已經看到了數據科學家和數據工程師之間的差異,您需要環顧整個機構,看看您需要在哪些地方作出改變。 這是我幫助其他機構完成的一項變革,他們已經看到了巨大的成果。 在數據科學小組似乎陷入困境、無法有作為的情況下,我們創建了數據工程團隊,向數據科學和數據工程團隊展示了如何協同工作,并制定了正確的流程。

這些變化使數據科學團隊的生產力從20%提高到90%。 團隊能夠用相同數量的人做更多事情。 數據科學家們更開心,因為他們沒有進行數據工程。 管理層可以開始基于備受期待的大數據提供價值。

您也許還會遇到一個新崗位,機器學習工程師。 隨著您的數據科學和數據工程團隊的成熟,您需要檢查團隊之間的差距。 您可能需要提拔一位數據工程師,在他的努力路徑上讓他成為機器學習工程師,或直接聘請一位機器學習工程師。

最后,大數據的絕大多數問題都是人和團隊的問題。 它們不是技術問題(至少在最初階段不是)。 技術通常會受到指責,因為責怪技術要比團隊自省容易得多。 在您解決人事問題之前,您不會遇到真正棘手的技術問題,也不會創造出您所期望的大數據能夠帶來的價值。 誠實地審視您的團隊和您的機構,看看您需要在哪里作出改變。

 

責任編輯:未麗燕 來源: 簡書
相關推薦

2017-08-04 15:53:10

大數據真偽數據科學家

2019-04-26 14:27:07

大數據數據科學數據工程師

2020-09-19 17:40:29

編寫代碼工具技術

2018-08-19 15:39:56

數據分析數據科學數據工程師

2020-07-19 15:17:41

機器學習技術工程師

2020-03-13 14:13:48

機器學習數據科學編程

2012-12-26 10:51:20

數據科學家

2018-12-24 08:37:44

數據科學家數據模型

2020-04-29 13:45:42

機器學習ML數據科學家

2020-05-29 10:16:45

數據科學數據科學家軟件工程師

2018-03-20 13:04:55

GDPR數據科學數據保護

2020-06-15 15:43:23

數據科學家數據分析師數據科學

2018-03-30 08:58:34

Web 開發Python

2018-02-28 15:03:03

數據科學家數據分析職業

2018-10-16 14:37:34

數據科學家數據分析數據科學

2012-06-12 09:33:59

2020-04-16 18:09:10

Pandas函數開發

2018-08-20 19:24:40

數據科學數據清理數據分析

2012-12-06 15:36:55

CIO

2019-08-26 09:47:56

數據科學家數據分析
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 丝袜 亚洲 欧美 日韩 综合 | 91xxx在线观看 | 中文字幕第90页 | 99一级毛片| 久久最新 | 在线观看视频一区二区三区 | 国产精品a久久久久 | 午夜寂寞福利视频 | 欧美另类视频 | 久久久成人免费一区二区 | 国产精品123区 | 日韩在线中文字幕 | 国产欧美精品区一区二区三区 | 国产伦精品一区二区三区精品视频 | 日韩一级免费观看 | 欧美aⅴ| 中文字幕av色 | 99久久国产综合精品麻豆 | 国产美女一区二区 | 欧美日韩国产一区二区三区不卡 | 国产最好的av国产大片 | 羞羞网站在线观看 | 一区二区三区高清 | 有码在线| 久久久噜噜噜久久中文字幕色伊伊 | 欧美videosex性极品hd | www.日本在线播放 | 国产 日韩 欧美 中文 在线播放 | 亚洲免费视频网站 | 天天操网| 久久综合一区二区三区 | 欧美美女爱爱 | 奇米四色在线观看 | 国产欧美一区二区三区久久 | 国产精品国产自产拍高清 | 色视频网站在线观看 | 免费黄色大片 | 欧美精品一区二区免费视频 | 久久精品久久久久久 | 亚洲中午字幕 | 日日日操 |