成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

“數據分析崗位”招聘情況分析!| Excel版

大數據 數據分析
為了練習Excel技能,以及實踐數據分析的流程。我用Web Scraper爬取了前程無憂4月16日全國發布的約2500條數據分析的職位信息,對數據分析崗位的招聘情況進行簡單的分析。整個過程分為五個步驟:明確目的,觀察數據,清洗數據,分析過程,得出結論。

為了練習Excel技能,以及實踐數據分析的流程。我用Web Scraper爬取了前程無憂4月16日全國發布的約2500條數據分析的職位信息,對數據分析崗位的招聘情況進行簡單的分析。整個過程分為五個步驟:明確目的,觀察數據,清洗數據,分析過程,得出結論。

01 明確目的

一切數據分析都是以業務為核心目的。本次項目的目的是通過數據分析崗位的招聘信息,包括地區分布、薪資水平、職位要求等,了解***數據分析崗位的情況。

02 觀察數據

“數據分析崗位”招聘情況分析!| Execl版

  • positionName:職位名稱
  • link:職位詳情頁鏈接
  • companyName:公司名稱
  • city:工作城市
  • salary:薪資
  • Releasedate:發布日期
  • companyType:公司類型
  • Field:公司領域
  • conmpanySize:公司規模
  • JD:職位描述
  • address:公司地址
  • companyProfile:公司簡介
  • info:招聘信息 (源于爬取的原因包含了公司地點、工作經驗、教育要求、招聘人數、發布時間,以|分隔)
  • positionLables:職能類別
  • keyword:職位關鍵字
  • positionAdvantage:福利

首先看一下哪些字段數據可以去除。link為職位詳情頁鏈接,是爬取二級頁面需要的;Releasedate是職位發布時間,都為4月16日,這兩列可以刪除。

JD:職位描述、address:公司地址、companyProfile:公司簡介、keyword:職位關鍵字

雖然JD中的職位描述比info中信息更準確,但此次初級分析不對文本進行挖掘,所以先隱藏。盡量不刪除數據,而是隱藏,保證原始數據的完整性,以后可能會用到。

03 清洗數據

檢查數據缺失:Excel中可以通過選取該列,在屏幕的右下角查看計數,以此判別有無缺失數據,缺失值很大程度上影響分析結果。如果某一字段缺失數據較多(超過50%),分析過程中要考慮是否刪除該字段,因為缺失過多就沒有業務意義了。

salary、companyType、Field、conmpanySize都存在一小部分的缺失,不影響實際分析。

檢查數據是否有臟數據:臟數據包括亂碼,錯位,重復值,未匹配數據,加密數據等。能影響到分析的都算臟數據,沒有一致化也可以算。

數據標準結構:就是將特殊結構的數據進行轉換和規整。

我們首先把 city、salary、info拆開。

“數據分析崗位”招聘情況分析!| Execl版

先將salary拆成***薪水和***薪水。比較麻煩的是薪水的表示方式有“XX元/天”,“X-X萬/年”,“X-X千/月”,“X-X萬/月”,還有空白項。

以天結算的可能是兼職,數量很少直接刪除。

空白項是因為崗位鏈接是公司主頁,而不是前程無憂的職位詳情頁,所以沒有爬取到。空白項大概占總量的2%,缺失值可以以業務知識或經驗推測填充、可以同一指標的計算結果(均值、中位數、眾數等)填充、也可以用回歸、貝葉斯形式化方法的基于推理的工具或決策樹歸納確定。這里簡單采用均值填充。

現在只剩“X-X萬/年”,“X-X千/月”,“X-X萬/月”三種類型,我打算統一以“X-X千/月”表示。

先用篩選中的“文本篩選”選出所有以“萬/年”表示薪資的項:

“數據分析崗位”招聘情況分析!| Execl版

使用分列,以 ‘ - ’ 為分隔符號把salary分為兩列,再對***薪水列使用LEFT和FIND結合,截取單位前的數字:

“數據分析崗位”招聘情況分析!| Execl版

換算一下單位,取小數點后一位,“X-X萬/年”就轉變為“X-X千/月”了。

“數據分析崗位”招聘情況分析!| Execl版

然后篩選出“X-X萬/月”的項,同樣分列---> 截取***薪數字--->換算單位:

“數據分析崗位”招聘情況分析!| Execl版

***篩選出“X-X千/月”的項,分列---> 截取***薪數字,但不用換算單位了。***得到的bottom和top列是公式,用復制-->粘貼為“值”,將公式轉化為數值。

“數據分析崗位”招聘情況分析!| Execl版

出現了文本與數字交替的情況,

“數據分析崗位”招聘情況分析!| Execl版

給每個單元格做一次數字運算,全部轉換為數字。***得到統一單位和格式的***薪水和***薪水。

“數據分析崗位”招聘情況分析!| Execl版

我們簡單取***薪和***薪的平均數作為該崗位薪資。這是數據來源的缺陷,因為我們并不能知道應聘者實際能拿多少,這是薪水計算的誤差。

“數據分析崗位”招聘情況分析!| Execl版

剛才說用均值填充缺失值,均值計算為9.3,對avgsalary為0的項進行填充。薪資項的處理就完成了。

然后是info項,info項的格式類似

“數據分析崗位”招聘情況分析!| Execl版

以 ‘ | ’ 為分隔符分列,但有的單位在此處填寫了學歷要求,有的單位沒有,而是把學歷要求寫在JD中。導致education項中有一部分的數據錯位為招聘人數。

“數據分析崗位”招聘情況分析!| Execl版

我把薪資小于5千/月的填充為大專要求,小于15千/月的填充為本科要求,大于15千/月的填充為碩士要求,不過這樣誤差應該會非常大!

然后是city列,用數據透視表統計各城市出現的次數,降序。將小于10個招聘崗位的城市統一歸入“其他城市”標簽。

“數據分析崗位”招聘情況分析!| Execl版

數據是否一致化:一致化指的是數據是否有統一的標準或命名。我們看一下表格中的positionName,非常不一致。

“數據分析崗位”招聘情況分析!| Execl版

我們需要將數據分析強相關的職位挑選出來,不然會影響分析結果。

用關鍵詞查找的思路,找出包含有數據分析、分析師、數據運營等關鍵詞的崗位,排除掉“品牌專員”、“人力資源總監”、“會計”等非純數據分析的崗位。用FIND函數和IF函數結合,1為包含,0不包含。將1過濾出來,這就是需要分析的最終數據。

“數據分析崗位”招聘情況分析!| Execl版

以下是排除掉的崗位,約160個,占總崗位數的6.8%。

“數據分析崗位”招聘情況分析!| Execl版

04 分析過程

因為主要數據均是文本格式,所以偏向匯總統計的計算。如果數值型的數據比較多,就會涉及到統計、比例等概念。如果有時間類數據,那么還會有趨勢、變化的概念。

整體分析使用數據透視表完成,先利用數據透視表獲得匯總型統計。

1)工作經驗vs崗位數量

“數據分析崗位”招聘情況分析!| Execl版

廣州和上海的數據分析崗位遠多于其他城市。3年以下時間段的缺口更大。無工作經驗的應屆畢業生似乎比1年以下經驗的更吃香。但因為很多公司對學歷的要求寫在詳細的崗位描述中,而不是直接選擇的。所以很多顯示為無工作經驗的崗位,其實在崗位描述中是對工作年限進行了要求的,所以這里的統計很不準確。

2)企業規模vs崗位數量

“數據分析崗位”招聘情況分析!| Execl版

看起來50-150人和150-500人的中小型公司需要的數據分析師更多。

但這樣的分析并不準確。因為這只是一個匯總數據,而不是比例數據。如果北京的互聯網公司特別多,那么即使有1000多個崗位發布也不算缺口大,如果南京的互聯網公司少,即使只招聘30個,也是充滿需求的。

還有一種情況是企業剛好招聘滿數據分析師,就不發布崗位了,數據包含的只是正在招聘數據分析師的企業,這些都是限制分析的因素。

3)工作經驗vs薪資水平

“數據分析崗位”招聘情況分析!| Execl版

排除不準確的無工作經驗項,薪水確實是和工作年限成正比的。

北京、上海、深圳的平均薪資***,超過10千/月。崗位需求***的廣州平均薪資僅為8.57千/月。

崗位需求量很低的南昌和珠海,因為有個別高薪崗位,所以拉高了平均薪資。

“數據分析崗位”招聘情況分析!| Execl版

4)使用公司領域標簽生成詞云圖,可以看到對數據分析崗位需求最多的是電子商務和互聯網類型的企業。

有各種各樣的傳統行業,如“服裝”“皮革”“紡織”等對數據分析師也有需求。

“數據分析崗位”招聘情況分析!| Execl版

5)“五險一金”“獎金”“補貼”是公司提到最多的福利。

[[263682]]

需要明確:

1、***的分析,是拿數據分析師們的在職數據,而不是企業招聘數據。

2、承認招聘數據的非客觀性,招聘要求與對數據分析師的實際要求是有差異的。

責任編輯:未麗燕 來源: 博客園
相關推薦

2016-10-17 14:14:55

大數據人才招聘

2021-03-18 22:06:01

數據分析編程語言大數據

2012-06-07 09:51:20

2021-06-04 12:56:22

數據分析崗位

2017-04-11 09:08:02

數據分析Python

2015-08-14 10:28:09

大數據

2015-08-21 14:34:46

Excel

2021-06-09 11:06:00

數據分析Excel

2021-07-10 07:40:27

Excel數據分析大數據

2020-07-28 08:31:05

數據分析技術IT

2015-08-11 15:52:52

大數據數據分析

2020-10-25 15:24:04

數據分析打工技術

2020-05-13 11:32:28

數據分析數值分析

2017-09-21 10:34:38

留存分析數據分析留存

2021-11-11 11:27:55

大數據分析系統

2013-01-29 09:57:23

數據分析

2015-10-26 10:41:10

數據分析思想指南

2013-02-25 10:44:13

數據分析大數據關聯分析

2017-12-13 10:04:05

2022-11-14 10:36:55

數據科學數據分析
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产午夜精品一区二区三区 | 操操日| 日韩高清一区二区 | 97操操| 久久久久国产精品一区二区 | 成人免费视频网站在线看 | 午夜精品久久久久久 | 国产在线精品一区二区 | 久久久免费 | 一区精品国产欧美在线 | 91在线精品视频 | 国产一区日韩在线 | 69电影网| aaa综合国产 | 精精国产xxxx视频在线播放 | 国产精品美女在线观看 | 国产一区亚洲二区三区 | 91偷拍精品一区二区三区 | 懂色av一区二区三区在线播放 | 亚洲有码转帖 | 视频一区二区在线观看 | 亚洲精品一区在线 | 成人激情视频在线播放 | 在线观看国产wwwa级羞羞视频 | 欧美精品久久久久久久久久 | 91亚洲国产 | 成人亚洲网站 | 国产精品成人一区二区三区 | 日韩精品四区 | 成人在线观看免费视频 | 国产偷自视频区视频 | 成人在线视频一区 | 免费激情网站 | 久久久久久久久久久久久久av | 妖精视频一区二区三区 | 国产精品久久久久久久久久久久久 | 日韩欧美手机在线 | 欧美精品久久久久久久久久 | 激情欧美一区二区三区中文字幕 | 成人精品国产免费网站 | 久久久久久久久久久丰满 |