成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

都是數據科學家,為什么TA薪水比你高?

大數據 數據分析
同樣做數據科學,為什么有人賺得多,有人賺的少?為了科學地回答這個問題,Kaggle 進行了一項系統的調查,從 2018 年 Kaggle ML & DS 調查問卷中總結出 124 條「該做」和「不該做」之事。

同樣做數據科學,為什么有人賺得多,有人賺的少?為了科學地回答這個問題,Kaggle 進行了一項系統的調查。結果表明,行業、經驗、掌握的數據類型等是影響數據科學家薪酬的主要因素。行業是自己選的,經驗是自己攢的,這些都沒啥好說的。至于數據類型,你會的更高級就賺得越多。

如何提高薪酬?本文作者從 2018 年 Kaggle ML & DS 調查問卷中總結出 124 條「該做」和「不該做」之事。

做什么能為你的數據科學職業生涯加碼?很多人已經非常清楚鞏固數據科學職業和加薪的重要因素。但我從沒有見過一個系統的、基于數據的方法來回答這個問題。所以我想通過建模來解釋「哪些因素可以提高數據科學家的市場價值」。有些你可能已經了解,但有些可能真的有助于你加薪呢~

完整研究報告及代碼地址:

https://www.kaggle.com/andresionek/what-makes-a-kaggler-valuable

根據數據估計薪酬

我們只能做這種研究,因為 Kaggle 已經發布了其第二次年度機器學習和數據科學調查的數據。該調查于 2018 年 10 月展開,耗時一周,共獲得 23859 份回復。結果包括一些原始數據,如什么人在研究數據、不同行業中機器學習的情況、新數據科學家進入該領域的最佳方式。

有了這些數據,我們想了解影響 Kaggler 薪酬的因素(我們把回復調查的人稱之為 Kaggler)。我們想讓你了解什么對市場更有價值,這樣你就可以停止把時間花在投資回報率(ROI)低的事情上,并加速獲得更高的報酬。根據這些從數據中提煉出來的見解,我希望你有一天能夠像 Babineaux 一樣——躺在錢堆上。

[[251654]]

Huel Babineaux,《絕命毒師》和《風騷律師》中的角色。圖源:AMC

在進入正題之前,我們可以先做一些基本的探索性數據分析(EDA)。首先看一下大家的薪水↓↓

數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

薪酬主要集中分布在較低的水平范圍內(每年 1 萬美元),在 10 萬美元左右還有另一個高峰。很多學生也填寫了這份調查問卷,看看他們賺多少?

數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

不出所料,學生們賺得不多,因為他們還沒有正式工作。既然如此,我們可以把學生從數據中剔除并確定收入前 20% 的 Kaggler 薪酬是多少。

數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

根據這些數據,我們定義了用于建模的目標變量,如下:

我們將計算一個 Kaggler 年收入超過 10 萬美元的概率。

數據科學中的性別不平衡

在繼續建模之前,我想告訴你的是,在收入最高的 20%Kaggler 中存在性別不平衡,但是其余的 80% 中不存在這種現象。這意味著男性高管的薪資要高于女性。如下圖所示:

數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

預測模型

為了創建模型,我們從 29 個問題中提取了 138 個可以解釋高薪的特征。經過一定的數據清洗之后,我們運行了 Logistic 回歸和隨機森林模型。

經過評估,我們發現 Logistic 回歸表現更好。該模型在提取特征系數方面也具有優勢。這可以幫助我們理解每個特征對(收入最高的 20%Kaggler)最終結果有何貢獻。我們做了欠采樣、交叉驗證及網格搜索,代碼見完整版調查報告。

  1. ### -- ### -- LogisticRegression -- ### -- ### 
  2. MODEL PERFORMANCE ON TEST DATA* 
  3. Accuracy:  0.8167438271604939 
  4. AUC:  0.8963917030007695 
  5. Confusion Matrix:  
  6. [[1817  411] 
  7.  [  64  300]] 
  8. Type 1 error:  0.18447037701974867 
  9. Type 2 error:  0.17582417582417584 

模型性能:薪水前 20% 和后 80% 的預測分數。數據:Kaggle 第二次年度機器學習和數據科學調查。

幫你加薪的幾個方法

選擇特征之后,我們的模型總共有 124 個特征。從它們的系數我們總結了幾點幫你加薪的建議。

我們模型的截距是 0。這意味著每個人都是從 0 分開始的。接下來你可以在你分數的基礎上加分或減分,這取決于你針對每個問題給出的答案。

  • 正系數:系數為正表示肯定的答案有助于你擠進前 20%
  • 負系數:系數為負表示肯定的回答不利于你擠進前 20%

模型系數。數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

學生身份可能是挫敗感強、薪水低的一個原因。走出學校門找份工作吧!做一名數據科學家很不錯,但軟件工程師薪水更高。為什么不去做一名 B 型數據科學家(注:B 型數據科學家具有很強的編程能力,可能是經過訓練的軟件工程師。詳見:

https://medium.com/@jamesdensmore/there-are-two-types-of-data-scientists-and-two-types-of-problems-to-solve-a149a0148e64)并將模型部署到生產中呢?

模型系數。數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

如果想致富,不要再待在學界/教育界了。從完整的 EDA 調查中可以看出,與其它領域相比,學界/教育界的平均薪水最低,模型的系數也佐證了這一點。作為對數據科學的未來最重要的領域之一,學界/教育的平均薪資水平居然最低,這讓人非常沮喪。如果你想多賺點錢,投身計算機/技術行業有利于你擠進薪水的前 20%。

模型系數。數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

顯然,經驗越豐富,賺得就越多。所以看開點,你不太可能憑借兩年經驗就成為收入前 20% 的 Kaggler 之一。

模型系數。數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

說到活動,試著構建原型或機器學習服務。探索機器學習在新領域的應用并利用它來改進產品或工作流,這也是離年入 10 萬美元更近一步的方法。

另一方面,如果你的工作主要是運用商業智能來分析和理解影響產品或商業決策的數據,那就不要期望高薪了。運行數據基礎架構也是如此。

使用云計算服務!習慣使用 AWS 或其它領先的云供應商,如谷歌或微軟。

模型系數。數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

有些機器學習框架可能會增加你的市場價值。學習并使用 SparkMLlib、Xgboost、TensorFlow 會讓你的簡歷更有分量。

模型系數。數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

說到可能會增加薪酬的數據類型,不妨試著學學時間序列(Time Series)和地理空間數據(Geospatial Data)。所有人都在用數值型數據(Numerical Data),所以先學好基礎數據,如果你想獲得高薪,那就去學習更高級的數據類型。

模型系數。數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

原文鏈接:https://towardsdatascience.com/what-makes-a-data-scientist-valuable-b723e6e814aa

【本文是51CTO專欄機構“機器之心”的原創譯文,微信公眾號“機器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2019-08-26 09:47:56

數據科學家數據分析

2018-02-28 15:03:03

數據科學家數據分析職業

2017-08-04 15:53:10

大數據真偽數據科學家

2018-01-25 14:19:32

深度學習數據科學遷移學習

2020-08-10 15:08:25

數據科學Kaggle數據集

2019-07-05 15:52:03

數據科學家大數據機器學習

2022-07-15 09:00:00

SQL數據庫據科學家

2012-12-26 10:51:20

數據科學家

2012-12-06 15:36:55

CIO

2018-12-24 08:37:44

數據科學家數據模型

2018-11-05 10:10:38

Jupyter數據科學家web

2018-10-16 14:37:34

數據科學家數據分析數據科學

2012-06-12 09:33:59

2019-08-28 08:08:47

數據科學家數據工程師數據科學

2018-06-21 08:04:25

數據科學正態分布高斯

2014-07-03 09:38:19

2012-12-27 09:52:23

數據科學家大數據

2015-08-25 13:20:29

數據科學

2022-04-25 09:48:31

數據科學崗位離職

2016-04-11 14:15:06

數據科學數據挖掘工具
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久久久久图文区 | 国产精品毛片一区二区三区 | 日韩精品一区二区三区高清免费 | 国产免费观看久久黄av片涩av | 国产一区 | 国产视频福利一区 | 国产一区久久久 | 欧美午夜视频 | 蜜臀网 | 久久久久久久久久影视 | 中文字幕av色 | 91精品综合久久久久久五月天 | 中文字幕免费在线 | 久久69精品久久久久久久电影好 | 免费性视频 | 日本三级做a全过程在线观看 | 日韩视频免费看 | 成人一区二区电影 | 91色啪 | 91porn国产成人福利 | 欧美自拍另类 | 日本不卡一区 | 狠狠操在线 | 精品中文字幕一区 | 国产精品不卡 | 欧美精品一区二区三区在线播放 | 2019中文字幕视频 | 视频在线一区二区 | 亚洲欧美日韩成人在线 | 亚洲欧美在线观看 | 成人精品国产 | 天堂成人国产精品一区 | 日韩欧美国产精品一区二区 | 中文字幕在线人 | 久久av一区 | 日韩电影一区 | 亚洲精品第一国产综合野 | 中文字幕av高清 | 久久999| 精品亚洲二区 | 精品久久久久久亚洲精品 |