Python or Java？大數據解讀學什么語言更賺錢

作者：徐濤 2018-08-28 12:43:20

本文主要用Python爬取拉勾網不同編程語言職位信息，包括：Python崗、Java崗、C++崗、PHP崗、C#崗位(5崗);用R語言對影響薪資的因素進行分析。

本文主要用Python爬取拉勾網不同編程語言職位信息，包括：Python崗、Java崗、C++崗、PHP崗、C#崗位(5崗);用R語言對影響薪資的因素進行分析。由于拉勾網的職位信息只顯示30頁，一頁15個職位信息，如果單獨爬取一個城市的崗位信息，只有幾頁是匹配的信息，信息量太小，分析沒有說服力。因此，本文爬取拉勾網全國職位信息。主要三部分內容：

爬取拉勾網5崗職位信息--以Python崗為例
以Python崗位信息為例，分析影響薪資的因素
5崗之間薪水因素影響比較分析

一、爬取拉勾網5崗職位信息--以Python崗為例

我們抓取的信息包括Python崗位名稱、公司名稱、薪資、工作經驗、學歷、公司規模、公司福利。

##以python崗位為例，運用selenium+Chrome()爬取崗位信息 
# coding=UTF-8 
from lxml import etree 
from selenium import webdriver 
import time 
import csv 
 
browser = webdriver.Chrome() 
browser.get('https://www.lagou.com/jobs/list_PYTHON?px=default&city=%E5%85%A8%E5%9B%BD#filterBox') 
browser.implicitly_wait(10) 
 
def get_dates(selector): 
        items = selector.xpath('//*[@id="s_position_list"]/ul/li') 
        for item in items: 
            yield { 
                'Name': item.xpath('div[1]/div[1]/div[1]/a/h3/text()')[0], 
                'Company': item.xpath('div[1]/div[2]/div[1]/a/text()')[0], 
                'Salary': item.xpath('div[1]/div[1]/div[2]/div/span/text()')[0], 
                'Education': item.xpath('div[1]/div[1]/div[2]/div//text()')[3].strip(), 
                'Size': item.xpath('div[1]/div[2]/div[2]/text()')[0].strip(), 
                'Welfare': item.xpath('div[2]/div[2]/text()')[0] 
            } 
def main(): 
    i = 0 
    for i in range(30): 
        selector = etree.HTML(browser.page_source) 
        browser.find_element_by_xpath('//*[@id="order"]/li/div[4]/div[2]').click() 
        time.sleep(5) 
        print('第{}頁抓取完畢'.format(i+1)) 
        for item in get_dates(selector): 
            print(item) 
        with open('Py.csv', 'a', newline='') as csvfile:  ##Py.csv是文件的保存路徑，這里默認保存在工作目錄 
            fieldnames = ['Name', 'Company', 'Salary', 'Education', 'Size', 'Welfare'] 
            writer = csv.DictWriter(csvfile, fieldnames=fieldnames) 
            writer.writeheader() 
            for item in get_dates(selector): 
                writer.writerow(item) 
        time.sleep(5) 
    browser.close() 
if __name__=='__main__': 
    main()

抓取結果如下：

將抓取結果循環寫入csv文件：

此外還抓取了Java崗、C++崗、PHP崗、C#崗位4崗的信息，代碼和抓取Python崗位信息類似。

二、以Python崗位信息為例，分析影響薪資的因素

這里包括數據清洗部分和數據分析部分兩部分內容。

數據清洗部分

data<-read.csv("E://Data For R/RData/Py.csv") 
data[sample(1:nrow(data),size=10),]

在抓取過程中，由于將python字典循環寫入csv文件，因此列名也被循環寫在csv文件中。

考慮本文主要分析影響薪資的因素，這里去除Name和Company兩列。

##去除Name和Company兩列 
DATA<-data[,-c(1,2)] 
##將python字典循環寫入csv文件時，標題也會被寫入，去除多余的標題 
##查找哪些行是標題重復的行 
which(DATA$Salary %in% "Salary") 
 [1]  16  32  48  64  80  96 102 118 134 150 166 182 198 214 230 246 262 278 294 310 326 342 358 374 390 406 422 438 454 470 486 502 518 
[34] 534 550 566 
##去除多余的標題所在的行 
DATA<-DATA[-(which(DATA$Salary %in% "Salary")),] 
dim(DATA) 
[1] 545   4

1.變量Salary

變量Salary一般都是范圍值，用“-”連接，但是不排除有XXK以上，例如10k以上這種表示形式，或者其他形式，這里需要處理一下。

##如果薪資是一個范圍值，都是"-"連接，注意，薪資是一個范圍值，匹配末尾結束k值需要注意，有大寫K和小寫k兩種形式。 
newdata<-DATA[grep('\\-',DATA$Salary),] 
dim(newdata) 
[1] 544   4 
##對比前面dim(DATA)，說明薪水少了一行，Salary具有其他的表示形式。 
##這里將范圍薪水的值分成底薪和高薪兩部分，后面取平均值來表示薪水 
library(tidyr) 
library(stringr) 
newdata<-separate(data=newdata,col=Salary,into=c("lowsalary","highsalary"),sep="-") 
##分別去除后面的k值，注意k有大寫和小寫兩種形式 
newdata$lowsalary<-str_replace(newdata$lowsalary,'k|K',"")##  |表示或的關系 
newdata$highsalary<-str_replace(newdata$highsalary,'k|K',"") 
newdata$lowsalary<-as.numeric(newdata$lowsalary)##轉換數據類型 
newdata$highsalary<-as.numeric(newdata$highsalary) 
newdata$salary<-(newdata$lowsalary+newdata$highsalary)/2 
newdadat<-newdata[,-c(1,2)]##去除原有的lowsalary和highsalary

2.變量Education

###Education部分 
##首先將Education中工作經驗和學歷分開 
newdata<-separate(data = newdata,col=Education,into=c("Experience","Graduate"),sep = '/') 
table(newdata$Experience) 
經驗1-3年     經驗1年以下       經驗3-5年      經驗5-10年        經驗不限  經驗應屆畢業生   
 187               6             261              46              37               7  
table(newdata$Graduate) 
 本科  不限  大專  碩士  
  447    27    63     7

3.變量Size

##此處以公司人數作為描述公司規模的標準 
newdata<-separate(data=newdata,col=Size,into=c('Type','Rong','Number'),sep='/') 
table(newdata$Number) 
 
 15-50人   150-500人  2000人以上    50-150人  500-2000人    少于15人  
   76         139         117         119          82          11  
table(newdata$Rong) 
A輪          B輪          C輪    D輪及以上   不需要融資     上市公司       天使輪       未融資   
86           81           54           30          132           80           33           48  
##將Type去除    
newdata<-newdata[,-3]

4.變量Welfare

Welfare<-newdata[,"Welfare"] 
##將Welfare去除 
newdata<-newdata[,-5] 
head(newdata)

到此，數據清洗部分內容全部結束。

數據分析部分

1.工資與工作年限的關系

library(ggplot2) 
ggplot(newdata,aes(x=Experience,y=salary))+geom_boxplot(col="red")

符合大眾的認知，從事python的應屆畢業生起始工資平均值在5K左右，且薪資水平跨度最小，經驗5-10年，工資水平跨度***，主要可能是因為，有一部分轉為技術管理崗位，工資較低的可能還在繼續碼代碼，是不是對廣大同胞們的警告啊.......

2.工資與學歷的關系(專科，本科，研究生，不限)

ggplot(newdata,aes(x=Graduate,y=salary))+geom_boxplot(col="red")

這里是否能說明學歷在一定程度上的重要性?學歷本科的工資跨度比較大，因為工作經驗的不同導致了薪資的差異。

3.工資與公司融資的關系

ggplot(newdata,aes(x=Rong,y=salary))+geom_boxplot(col="red")

對于這部分知識是盲點，但是可以看出融資公司(上市也是一種融資方式)比沒有融資的公司平均工資要高出不少，這部分是不是可以是以后找工作的一個風向標。。。

4.工資與公司大小的關系

公司規模越大，平均的工資也越高。

5.工資與工作時間和學歷的關系

library(ggthemes) 
library(scales) 
ggplot(newdata,aes(x=Experience,y=salary,fill=factor(Graduate)))+ 
geom_boxplot()+ 
geom_hline(aes(yintercept=20),color="red",linetype="dashed",lwd=1)+ 
scale_y_continuous(labels=dollar_format())+theme_few()

這張圖告訴我們，在大部分情況下，沒(Ren)錢(Chou)就要多讀書。不管是經驗經驗1年以下、經驗3-5年、經驗5-10年、經驗不限的情況下，擁有碩士學歷的平均收入都普遍高于本科，本科都高于大專。(這里完全沒有歧視低學歷之意)

6.公司福利的云圖

##公司福利的云圖 
library(jiebaR) 
Welfare<-as.character(Welfare) 
wk = worker() 
seg_words<-wk[Welfare] 
library(plyr) 
library(wordcloud) 
tableWord<-count(seg_words) 
windowsFonts(myFont=windowsFont("華文彩云")) ##使用華文彩云字體 
wordcloud(tableWord[,1],tableWord[,2],random.order=F,col= rainbow(100),family="myFont")