為什么這么多數據科學家選擇辭職
數據科學家的挫折
是的,我是數據科學家。
我們讀了很多關于數據科學是21世紀最性感的工作的故事,以及作為一個數據科學家人你可以賺到的誘人的錢,這看起來像是一份絕對理想的工作。
考慮到這個領域有大量高技能的人專門去解決復雜的問題(是的,“專門去”是一件積極的事情),這份工作有很多值得熱愛的地方。
但事實是,正如英國《金融時報》這篇文章所述,數據科學家通常“每周花1-2小時尋找新工作”。
此外,文章還指出,“機器學習專家在開發者名單中排名第一,占14.3%。數據科學家緊隨其后,為13.2%。”這些數據是由堆棧溢出在基于6.4萬名開發人員的調查中收集的。 我也是如此,最近我自己也換了數據科學工作。 那么為什么這么多數據科學家在尋找新的工作呢?
在回答這個問題之前,我應該澄清一下,我仍然是一個數據科學家人。總的來說,我喜歡這份工作,我不想阻止其他人渴望成為數據科學家,因為這份工作有趣、刺激且有回報。這篇文章的目的是唱反調,揭露這項工作的一些負面影響。 在我看來,我認為許多數據科學家對他們的工作不滿意有四大原因。
期望與現實不符
我認識的許多初級數據科學家(包括我自己)都想進入數據科學領域,因為這一切都是為了用對企業產生巨大影響的全新機器學習算法來解決復雜的問題。
這是一個機會,讓我們覺得我們正在做的工作比我們以前做過的任何事情都重要。然而,情況往往并非如此。 在我看來,期望與現實不符的事實是許多數據科學家離開的最終原因。這有很多原因,我不能列一個詳盡的清單,但這篇文章基本上是我遇到的一些原因的清單。
每家公司都不一樣,所以我不能代表他們所有人,除了許多公司雇傭沒有合適基礎設施的數據科學家來開始從人工智能中獲取價值。
這導致了人工智能中的冷啟動問題。再加上這些公司在雇用初級員工之前沒有雇用資深/有經驗的數據從業者,你現在已經為雙方找到了一個幻滅和不愉快的關系的秘訣。
數據科學家人可能是來編寫智能機器學習算法來提高洞察力的,但他們不能這樣做,因為他們的第一項工作是整理數據基礎設施或創建分析報告。
相比之下,該公司只想要一張他們可以每天在董事會上展示的圖表。然后公司會感到沮喪,因為他們認為價值沒有被足夠快地驅動,所有這些導致數據科學家對他們的角色不滿意。
羅伯特·張在他的博客文章中給初級數據科學家提出了一個非常有見地的建議: 重要的是要評估我們的愿望與我們所處環境的關鍵路徑有多一致。尋找關鍵路徑與你的最一致的項目、團隊和公司。
這突出了雇主和數據科學家之間的雙向關系。如果公司不在正確的地方,或者目標與數據科學家一致,那么數據科學家找到其他東西只是時間問題。
對于那些感興趣的人來說,胡參孫有一個關于分析團隊如何在Wish建立的精彩系列,我也覺得非常有見地。
數據科學家失望的另一個原因與我對學術界失望的原因相似:我相信我將能夠對世界各地的人們產生巨大的影響,而不僅僅是在公司內部。
事實上,如果公司的核心業務不是機器學習(我以前的雇主是一家媒體出版公司),那么你所做的數據科學很可能只會帶來微小的增量收益。這些可以累積成一些非常重要的東西,或者你可能幸運地偶然發現了一個金礦項目,但這并不常見。
政治至高無上
《政治》雜志已經有一篇精彩的文章專門討論這個問題:數據科學中最難的事情:政治,我敦促你閱讀它。
那篇文章的前幾句話差不多概括了我想說的話: 當我早上6點醒來學習支持向量機時,我想:“這真的很難!但是,嘿,至少我會對我未來的雇主變得非常有價值!”。
如果我能得到德洛爾,我會回到過去,打電話給“公牛隊”我自己。 如果你真的認為知道很多機器學習算法會讓你成為最有價值的數據科學家,那么回到我上面的第一點:期望與現實不符。
事實是,商界最有影響力的人需要對你有一個好的印象。這可能意味著你必須不斷地做一些特別的工作,比如從數據庫中獲取數字,在合適的時間給合適的人,做簡單的項目,這樣合適的人才會對你有正確的看法。在我以前的地方,我不得不經常這樣做。盡管令人沮喪,但這是工作中不可或缺的一部分。
對于任何數據,你都是最直接的人
在做任何事情取悅合適的人之后,那些有影響力的人往往不明白“數據科學家”是什么意思。這意味著你將成為分析專家,也將成為報告專家,別忘了你也將成為數據庫專家。 對你的技能做出過多假設的不只是非技術高管。
技術領域的其他同事認為你知道所有相關的數據。你知道你在Spark、Hadoop、Hive、Pig、SQL、Neo4J、MySQL、Python、r、Scala、Tensorflow、A/B測試、NLP、任何機器學習(以及任何其他你能想到的與of — BTW有關的數據,如果你看到一份寫有所有這些內容的工作規范,請保持清晰。
這是一家公司的工作規范,該公司不知道他們的數據策略是什么,他們會雇用任何人,因為他們認為雇用任何數據人員都可以解決他們所有的數據問題)。
但它并沒有就此止步。因為你知道所有這些,而且你顯然可以訪問所有的數據,所以你應該能夠通過……得到所有問題的答案。
嗯,它應該在5分鐘前到達相關人員的收件箱。 試圖告訴每個人你實際知道和控制的事情可能很難。不是因為實際上有人會對你不以為然,而是因為作為一個沒有什么行業經驗的年輕數據科學家人,你會擔心人們會對你不以為然。這可能是一個相當困難的情況。
在孤立的團隊中工作
當我們看到成功的數據產品時,我們通常會看到經過專業設計的用戶界面,它具有智能功能,最重要的是,它是一種有用的輸出,至少用戶可以通過它來解決相關的問題。
現在,如果一個數據科學家人只花時間學習如何編寫和執行機器學習算法,那么他們只能是團隊中的一小部分(盡管是必要的),這將導致一個生產有價值產品的項目的成功。這意味著獨立工作的數據科學團隊將難以提供價值!
盡管如此,許多公司仍然有數據科學團隊,他們提出自己的項目并編寫代碼來嘗試解決問題。在某些情況下,這就足夠了。
例如,如果所需要的只是一個每季度制作一次的靜態電子表格,那么它可以提供一些價值。另一方面,如果目標是在定制的網站構建產品中優化提供智能建議,那么這將涉及許多不同的技能,絕大多數數據科學家不應該期望這些技能(只有真正的數據科學獨角獸才能解決這個問題)。
因此,如果項目由一個獨立的數據科學團隊承擔,它很可能會失敗(或者需要很長時間,因為在大型企業中組織獨立的團隊來從事協作項目并不容易)。
因此,要成為一個有效的數據科學家,僅僅在Kaggle比賽中表現出色并完成一些在線課程是不夠的。幸運的是(取決于你對它的看法),它涉及到理解等級制度和政治在商業中是如何運作的。
在尋找一份能滿足你需求的數據科學工作時,找到一家與你的關鍵路徑相一致的公司應該是一個關鍵目標。然而,您可能仍然需要重新調整您對數據科學角色的期望。