用爬蟲分析互聯網大數據行業薪資情況
前言:
隨著互聯網大數據行業的日漸興盛,越來越多的人投身其中,也有很多的朋友對此有著濃厚的興趣,想要投身其中。從本期開始我們將分四期帶大家走進互聯網大數據行業,分別了解數據挖掘&機器學習、數據分析、算法&深度學習、數據產品經理這四個不同的與大數據相關的職位。
數據來源:
我們未來四期的數據主要來源于拉勾網,目前比較火的招聘網站獵聘、boss直聘、拉勾都有比較多的互聯網職位介紹。我們基于以下幾點原因選擇拉勾:1.薪資大多有直接的范圍,較少為面議 2. 企業數量較全,基本上涵蓋了互聯網相關公司 3.url地址相對比較規整,方便進行批量爬取。數據展示頁面如下:
該部分使用Python中Selenium爬取,部分代碼如下:
- while True:
- try:
- for j in range(15):
- xpath = '//*[@id="s_position_list"]/ul/li['+str(j+1)+']'
- a = driver.find_element_by_xpath(xpath)
- job_desc.append(a.text)
- job_code.append(a.find_element_by_class_name('position_link' ).get_attribute('data-lg-tj-cid'))
- js="var q=document.documentElement.scrollTop=10000"
- driver.execute_script(js)
- driver.find_element_by_class_name('pager_next').click()
- except:
- break
薪資情況:
我們將從多個角度去了解大家所關注的薪資情況,首先看一下各個城市的機會多少與平均月薪,如下圖(氣泡大小表示職位數量,柱形圖高度表示平均月薪):
可以看到,排名第八的武漢職位數量已經是北京的四十分之一了,排名靠后的城市職位數量小于20個。這一定程度體現了數據挖掘&機器學習職位在北上廣深杭的集中性,除了五大城市之外,成都、南京、武漢未來也有著無限潛力。
下面看一下不同的工作經驗所對應的職位數量與薪資情況:
可以看到拉勾網上大多的工作機會是針對于有工作經驗的求職者。3年、5年工作經驗也成為了兩個比較重要的門檻,薪資會有明顯的提示,這樣說明了企業對于經驗的看重
下面看一企業對于學歷的要求:
需要注意的是,拉勾網上的學歷要求為最低要求,實際工作中大家的平均學歷會遠高于圖上所顯示的。
我們來結合城市和經驗看一下不同城市工作經驗的提升對薪資的提升幅度:
北京在各個工作經驗層面的薪資均處于全國領先位置,這也表明了帝都互聯網中心的地位。在工作經驗5-10年的對比上,廣州的漲幅落后于其他幾大城市,有在廣州工作的朋友可以與我們分享下,這是否具有一定的現實性。
各大公司拉勾網提供平均月薪:
我們選取了在拉勾網上提供職位最多的十五家公司,BAT&TMD均在其中,也包括了搜狗、微博、網易這些知名互聯網公司。出人意料的是提供職位薪資最高的是新浪微博,眾所周知,一個企業內的實際平均薪資情況十分復雜,上述數據也只是其在拉勾網上放出職位的情況,僅供參考。
以上圖表我們使用R語言ggplot繪制,代碼如下(以公司薪資圖為例):
- ggplot(company_com,aes(x=reorder(company,-salary),y=salary,fill=as.character(rep(1:5,each=3))))+
- geom_bar(stat= 'identity' )+
- geom_text(aes(label=round(salary,2),y= salary+1),size=5)+
- theme_wsj()+
- scale_fill_wsj()+
- scale_color_wsj()+
- ggtitle('各類公司拉勾網職位平均月薪(K)')+
- theme(axis.text.x = element_text(size=12),
- axis.text.y = element_blank(),
- plot.title = element_text(hjust=0.5,size=25),
- legend.position='none',
- panel.grid = element_blank(),
- axis.title = element_blank(),
- axis.text = element_text(face='bold',hjus=0.8,size=10,angle=15)
- )
期望月薪計算:
我們用線性回歸模型,簡易地幫助大家計算一下所可以期待的薪資情況(數據為月薪,單位為K),我們僅選取了經驗、城市、學歷三個因素,并沒有考慮交互項、高次項等因素,結果僅供參考,實際情況要復雜很多:
所需技能&福利:
想要得到不錯的年薪,除了上述一些硬件條件,個人所掌握的實際技能實際上會起到更加重要的作用,我們就來看一下入職數據挖掘&機器學習所需掌握的技能:
順利入職之后,我們又可以得到什么樣的福利呢,可以看一下下圖:
我們可以看到除了傳統的福利,技術氛圍好、大牛云集、海量數據也成為了數據挖掘&機器學習職位用來吸引求職者的重要籌碼。
最后祝愿目前已經從事和有志于從事數據挖掘工作的同學都能有一份滿意的工作。
作者介紹:徐麟,目前就職于上海唯品會產品技術中心,哥大統計數據狗,從事數據挖掘&分析工作,喜歡用R&Python玩一些不一樣的數據