我,一位數據科學家,用親身經歷告訴你:為啥數據科學家都在離職
大數據文摘出品
來源:medium
編譯:Fisher
本文的作者就是一位數據科學家,做了這么久,他覺得有必要將這個行業(yè)的苦惱公之于眾,為那些想進入這個行業(yè)的人們做個參考。
話不多說,來和文摘菌一起看看吧~
是的,我是一名數據科學家,你也沒看錯標題,總得有人來說這件事。我們都讀過很多文章,說數據科學是21世紀“最性感”的工作,數據科學家可以賺得盆滿缽滿,以至于數據科學看起來是完全夢幻般的美妙工作。考慮到這個領域里有大量高技術人才在沉迷于解決復雜的問題,這份工作值得熱愛。
但事實是,數據科學家們通常“每周花1-2個小時尋找新工作”,這是《金融時報》的一篇文章中提到的。此外,這篇文章還指出,“表示自己正在尋找新工作的開發(fā)者中,機器學習專家位居榜首,占14.3%。數據科學家緊隨其后,占13.2%。”這些數據是Stack Overflow在一次基于64000名開發(fā)者的調查中得到的。
我也曾處于這個狀態(tài),我自己最近也換了另一份數據科學的工作。
那么,為什么這么多的數據科學家要找新工作呢?
在我回答這個問題之前,我應該澄清一下,我現在仍然是數據科學家。總體上,我熱愛這份工作,我也不想勸退那些有志成為數據科學家的人,因為這份工作充滿樂趣、令人振奮且回報豐厚。這篇文章是有意要唱唱反調,揭示一下這個職業(yè)里存在的一些負面問題。
在我看來,很多數據科學家對工作的不滿意,可以歸結為四大原因。
期望與現實不符
大數據就像是青少年口中的性:每個人都在談論它,沒人真的知道怎么去做,但是每個人都認為別人在做,所以每個人都聲稱自己在做……——Dan Ariely
這句話太貼切了。我認識的許多資歷不深的數據科學家(包括我自己),想進入數據科學領域是為了用最新的很酷的機器學習算法來解決復雜問題,并且產生巨大的商業(yè)影響。這可能會讓我們覺得自己正做著的工作比先前做的任何事都更重要。但事實往往并非如此。
我認為,期望與現實不符是很多數據科學家離開的最終原因。原因有很多,我不可能列出一個詳盡的清單,但這篇帖子基本列舉了我遇到的一些原因。
每個公司的情況都不一樣,所以我講的并不能代表所有公司,但確實很多公司在雇傭數據科學家時并沒有配套的基礎設施,好開始從AI中獲取商業(yè)價值。這造成了AI系統的冷啟動問題。再加上這些公司在雇用資歷不深的數據科學家之前,沒有雇用資深或有足夠經驗的從業(yè)者,這就導致雙方都感到失望和不愉快。數據科學家很可能是來寫智能的機器學習算法以助力商業(yè)洞察的,但他們做不到這點,因為他們首先要做的是建立數據基礎設施和/或創(chuàng)建分析報告。相反,公司只想要一張圖表,好每天在董事會上展示。于是公司感到失望,因為他們沒能看到價值被迅速創(chuàng)造出來,這一切都會使數據科學家對自己扮演的角色感到不愉快。
在Robert Chang給新手數據科學家提建議的一篇博客中,有句話非常精辟:“評估我們的抱負與我們所處環(huán)境的前進軌道有多一致,這點很重要。找到與你自身的前進軌道最相符的項目、團隊和公司。”
這話強調了雇主和數據科學家之間的雙向關系。如果公司不合適,或者公司目標與數據科學家的目標不同,那么數據科學家另尋出路只是時間問題。
如果有興趣,Samson Hu有一系列精彩的文章,描述了Wish公司的分析團隊是如何建立的,我覺得也很有見地。
讓數據科學家感到失望的另一個原因與我自己對學術界的失望很相似:我一度以為自己能給世界各處的人帶來影響,而不只局限于公司內部。事實上,如果公司的核心業(yè)務不是機器學習(我的前雇主是一家媒體出版公司),那么很可能你所做的數據科學只能帶來很小的增量收益。這些收益積累起來可能會變得可觀,或者你可能很幸運碰到一個“金礦”項目,但這些情況很少見。
政治至上
關于政治的話題,已經有一篇出色的文章專門介紹了——《數據科學行業(yè)里最困難的事:政治》。我強烈推薦你讀一下。這篇文章的前幾句話基本概括了我想說的內容:
當年我早上六點起床學習支持向量機的時候,我想:“這真是太難了! 不過,嘿嘿,至少對于未來的雇主我會變得非常有價值!”。如果現在能搞到時光機,我一定會回到過去,對自己大罵一聲“傻冒!”。
如果你當真以為了解很多機器學習算法會讓你成為最有價值的數據科學家,請回到上面我講的第一點:期望與現實不符。
事實是,你需要讓公司里最有權力的人對你有個不錯的看法。而這可能意味著,你必須經常做一些臨時安排的工作,比如從數據庫中獲取數字,以便在適當的時候呈給適當的人,或者做一些簡單的項目,只是為了讓某些人對你有個恰當的了解。在我的前公司,我不得不做很多這樣的事。盡管讓人覺得沮喪,但這是工作中必不可少的部分。
有任何關于數據的事兒,公司都會來找你
在你盡一切努力取悅合適的人之后,那些大權在握的人卻常常不理解“數據科學家”的含義。這意味著你將既是分析專家又是匯報員,還有別忘了你也將是數據庫專家。
不只有非技術型的主管會對你的技能做出過多假設。別的技術型的同事會假設你了解跟數據相關的一切:你懂得Spark、Hadoop、Hive、Pig、SQL、Neo4J、MySQL、Python、R、Scala、Tensorflow、A/B測試、NLP、一切跟機器學習有關的事(還有任何你能想到的與數據有關的事——順便說一下,如果你看到一個職位描述上寫了所有這些東西,請保持清醒。這份職位描述顯然來自一個并不知道自己的數據戰(zhàn)略是啥的公司,他們會雇任何人,因為他們認為雇任何一個數據人員都能解決他們所有的數據問題)。
事情還不止于此。因為你懂得這一切,而且你顯然可以拿到所有的數據,所以你應該能回答一切問題,而且是在……好吧,在五分鐘之內就把答案發(fā)送到相關人員的收件箱里。
對你來說,嘗試去告訴大家你實際知道和掌握的東西,可能很困難。不是因為有任何人會真的看不起你,而是因為作為一個沒有什么行業(yè)經驗的新手數據科學家,你會擔心別人看不起你。這樣的處境可能相當艱難。
在一個孤立團隊中工作
當我們去看成功的數據產品時,我們往往會看到精心設計的用戶界面、智能的功能,而最重要的是具備有用的輸出結果,最起碼能讓用戶感覺到解決了一個相關的問題。如果數據科學家只把時間花在學習如何編寫和執(zhí)行機器學習算法上,那么對于推動項目成功并產生價值的整個團隊而言,他們只是這個團隊的一小部分(盡管是必不可少的)。這意味著一個孤立工作的數據科學團隊將很難提供價值!
盡管如此,許多公司的數據科學團隊仍然在執(zhí)行團隊自身的項目,編寫代碼來嘗試解決一個問題。在某些情況下這就足夠了。例如,如果公司需要的只是一份靜態(tài)電子表格,每季度生成一次,那么這足以提供一些價值。與此相反,如果目標是要優(yōu)化一個預訂網站的智能建議功能,那么這將需要許多不同的技能,對于絕大多數的數據科學家,不能期望他們有這個能力(這種事只有那些數據科學家中的獨角獸能搞定)。因此,如果是一個孤立的數據科學團隊在承擔這個項目,項目很可能會失敗(或者要花很長時間,因為在大型公司里組織幾個孤立團隊進行項目協作并不容易)。
因此,要在行業(yè)里成為一個卓有成效的數據科學家,僅僅玩轉Kaggle競賽、完成一些在線課程是不夠的。很不幸(或幸運,取決于你從什么角度去看),你需要懂得公司里的等級制度和政治是怎么運作的。去找一家與你的前進軌道一致的公司,這應是你在尋找一份數據科學工作時的關鍵目標。但是,你仍可能需要重新調整你對行業(yè)的期待。
有任何評論、問題或者異議,請自由發(fā)表意見。建設性的討論是非常必要的,能夠幫助胸懷抱負的數據科學家在職業(yè)規(guī)劃上做出明智決策。
感謝你的閱讀,希望我沒有把你勸退。
相關報道:
https://towardsdatascience.com/why-so-many-data-scientists-are-leaving-their-jobs-a1f0329d7ea4
【本文是51CTO專欄機構大數據文摘的原創(chuàng)譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】