成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

Python拉勾網數據采集與可視化

作者：挖掘機小王子 2018-03-07 11:35:49

大數據數據可視化

本文是先采集拉勾網上面的數據，采集的是Python崗位的數據，然后用Python進行可視化。主要涉及的是爬蟲&數據可視化的知識。先用Python來抓取拉勾網上面的數據，采用的是簡單好用的requests模塊。

全文簡介

本文是先采集拉勾網上面的數據，采集的是Python崗位的數據，然后用Python進行可視化。主要涉及的是爬蟲&數據可視化的知識。

爬蟲部分

先用Python來抓取拉勾網上面的數據，采用的是簡單好用的requests模塊。主要注意的地方是，拉勾網屬于動態網頁，所以會用到瀏覽器的F12開發者工具進行抓包。抓包以后會發現，其實網頁是一個POST的形式，所以要提交數據，提交的數據如下圖：

真實網址是：https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&isSchoolJob=0

在上圖也可以輕松發現：kd是查詢關鍵詞，pn是頁數，可以實現翻頁。

代碼實現

import requests # 網絡請求 
import re 
import time 
import random 
 
# post的網址 
url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&isSchoolJob=0' 
 
# 反爬措施 
header = {'Host': 'www.lagou.com', 
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36', 
'Accept': 'application/json, text/javascript, */*; q=0.01', 
'Accept-Language': 'zh-CN,en-US;q=0.7,en;q=0.3', 
'Accept-Encoding': 'gzip, deflate, br', 
'Referer': 'https://www.lagou.com/jobs/list_Python?labelWords=&fromSearch=true&suginput=', 
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8', 
'X-Requested-With': 'XMLHttpRequest', 
'X-Anit-Forge-Token': 'None', 
'X-Anit-Forge-Code': '0', 
'Content-Length': '26', 
'Cookie': 'user_trace_token=20171103191801-9206e24f-9ca2-40ab-95a3-23947c0b972a; _ga=GA1.2.545192972.1509707889; LGUID=20171103191805-a9838dac-c088-11e7-9704-5254005c3644; JSESSIONID=ABAAABAACDBABJB2EE720304E451B2CEFA1723CE83F19CC; _gat=1; LGSID=20171228225143-9edb51dd-ebde-11e7-b670-525400f775ce; PRE_UTM=; PRE_HOST=www.baidu.com; PRE_SITE=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DKkJPgBHAnny1nUKaLpx2oDfUXv9ItIF3kBAWM2-fDNu%26ck%3D3065.1.126.376.140.374.139.129%26shh%3Dwww.baidu.com%26sht%3Dmonline_3_dg%26wd%3D%26eqid%3Db0ec59d100013c7f000000055a4504f6; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; LGRID=20171228225224-b6cc7abd-ebde-11e7-9f67-5254005c3644; index_location_city=%E5%85%A8%E5%9B%BD; TG-TRACK-CODE=index_search; SEARCH_ID=3ec21cea985a4a5fa2ab279d868560c8', 
'Connection': 'keep-alive', 
'Pragma': 'no-cache', 
'Cache-Control': 'no-cache'} 
 
for n in range(30): 
     
    # 要提交的數據 
    form = {'first':'false', 
            'kd':'Python', 
            'pn':str(n)} 
     
    time.sleep(random.randint(2,5)) 
     
    # 提交數據 
    html = requests.post(url,data=form,headers = header) 
     
    # 提取數據 
    data = re.findall('{"companyId":.*?,"positionName":"(.*?)","workYear":"(.*?)","education":"(.*?)","jobNature":"(.*?)","financeStage":"(.*?)","companyLogo":".*?","industryField":".*?","city":"(.*?)","salary":"(.*?)","positionId":.*?,"positionAdvantage":"(.*?)","companyShortName":"(.*?)","district"',html.text) 
     
    # 轉換成數據框 
     
    data = pd.DataFrame(data) 
     
    # 保存在本地 
    data.to_csv(r'D:\Windows 7 Documents\Desktop\My\LaGouDataMatlab.csv',header = False, index = False, mode = 'a+')

注意：抓取數據的時候不要爬取太快，除非你有其他的反爬措施，比如更換IP等，另外不需登錄，我在代碼加入了time模塊，用于限制爬取速度。

數據可視化

下載下來的數據長成這個樣子：

注意標題(也就是列明)是我自己添加的。

導入模塊并配置繪圖風格

import pandas as pd # 數據框操作 
import numpy as np  
import matplotlib.pyplot as plt # 繪圖 
import jieba # 分詞 
from wordcloud import WordCloud # 詞云可視化 
import matplotlib as mpl  # 配置字體 
from pyecharts import Geo # 地理圖 
 
mpl.rcParams["font.sans-serif"] = ["Microsoft YaHei"] 
# 配置繪圖風格 
plt.rcParams["axes.labelsize"] = 16.    
plt.rcParams["xtick.labelsize"] = 14. 
plt.rcParams["ytick.labelsize"] = 14. 
plt.rcParams["legend.fontsize"] = 12. 
plt.rcParams["figure.figsize"] = [15., 15.]

注意：導入模塊的時候其他都容易解決，除了wordcloud這個模塊，這個模塊我建議大家手動安裝，如果pip安裝的話，會提示你缺少C++14.0之類的錯誤，導致安裝不上。手動下載whl文件就可以順利安裝了。

數據預覽

# 導入數據 
data = pd.read_csv('D:\\Windows 7 Documents\\Desktop\\My\\LaGouDataPython.csv',encoding='gbk')  # 導入數據 
data.head()

read_csv路徑不要帶有中文

data.tail()

學歷要求

data['學歷要求'].value_counts().plot(kind='barh',rot=0)  
plt.show()

工作經驗

data['工作經驗'].value_counts().plot(kind='bar',rot=0,color='b') 
plt.show()

Python熱門崗位

final = ''   
stopwords = ['PYTHON','python','Python','工程師','（','）','/'] # 停止詞 
for n in range(data.shape[0]): 
     
    seg_list = list(jieba.cut(data['崗位職稱'][n])) 
    
    for seg in seg_list:   
        if seg not in stopwords:   
                final = final + seg + ' ' 
# final 得到的詞匯

工作地點

data['工作地點'].value_counts().plot(kind='pie',autopct='%1.2f%%',explode = np.linspace(0,1.5,25))  
plt.show()

工作地理圖

# 提取數據框 
data2 = list(map(lambda x:(data['工作地點'][x],eval(re.split('k|K',data['工資'][x])[0])*1000),range(len(data)))) 
# 提取價格信息 
data3 = pd.DataFrame(data2) 
# 轉化成Geo需要的格式 
data4 = list(map(lambda x:(data3.groupby(0).mean()[1].index[x],data3.groupby(0).mean()[1].values[x]),range(len(data3.groupby(0))))) 
# 地理位置展示 
geo = Geo("全國Python工資布局", "制作人:挖掘機小王子", title_color="#fff", title_pos="left", width=1200, height=600, 
background_color='#404a59') 
attr, value = geo.cast(data4) 
geo.add("", attr, value, type="heatmap", is_visualmap=True, visual_range=[0, 300], visual_text_color='#fff') 
# 中國地圖Python工資，此分布是最低薪資 
geo

關于作者：

姓名：麥艷濤(原姓貊)

網名：挖掘機小王子

個人網站：挖掘機小王子

責任編輯：未麗燕來源： Python中文社區

Python 可視化數據

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：不卡欧美 | 亚洲一区二区av在线 | www精品| 午夜不卡福利视频 | jizz亚洲人| 久久精品成人 | 台湾av在线 | 日韩精品一区二区三区 | 亚洲日韩视频 | 99热热精品 | 台湾a级理论片在线观看 | 成人在线免费电影 | 国产精品精品视频一区二区三区 | 成人国产精品免费观看视频 | 福利精品| 国产欧美日韩精品一区二区三区 | 国产美女视频 | 精品成人av | 久久精品国产一区二区三区不卡 | 碰碰视频 | 欧美精品在线播放 | 一区二区三区免费在线观看 | 国产精品伦理一区 | 日本超碰 | 久久久免费电影 | 天天操天天射天天 | 91精品国产综合久久久动漫日韩 | 欧美三级电影在线播放 | 黄色在线观看网址 | 欧美在线a| 免费一级片| 黄色欧美 | 一级欧美黄色片 | 免费在线成人网 | 中文字幕免费视频 | 日本粉嫩一区二区三区视频 | www国产亚洲精品久久网站 | 最近日韩中文字幕 | 日本精品视频一区二区三区四区 | 亚洲在线免费 | 日韩一区二区三区精品 |