從拉勾網爬的招聘數據 解析中國數據挖掘人才能掙多少錢
緣起是因為數據挖掘入行不久,一直上拉勾網看各種公司的招聘JD,人工看一方面是時間很消耗,更嚴重的是抓不住重點,最近剛好入手python爬蟲,試圖簡化這部分工作。另一方面學習爬蟲之后,發現自己整天上網手動翻網頁找信息這個動作很low,所以花了兩天的時間連爬取帶寫文檔。文檔中同時附上github代碼,各位想上手python的童鞋可以下載玩一下,(自知代碼粗淺,大牛求放過~)
工具:windows7,python3.4,IDE PyCharm 4.5
Python代碼:
抓取 https://github.com/lichald/python/blob/master/python34/spider
分詞https://github.com/lichald/python/blob/master/python34/wordcut
樣本規模,:拉勾網20151020根據“數據挖掘”關鍵字可以搜索到的Jobs。工作數量450個,招聘公司318家,分布在21個城市。工作數量最多的前五名分別為北京、上海、深圳、廣州、杭州(排名分先后),占工作總數的88%,基于二八法則,取這五個城市的樣本作為分析基礎,其他城市暫不考慮。
1.數據挖掘在哪個城市需求更加旺盛?
從總值上看,北京在數據挖掘崗位open的職位數量和公司數量上占據絕對優勢,甚至超過后面4個城市的數值加和;僅就北京和上海相比,公司數量是3倍,職位數量是4倍。從公司平均招聘人數上看,北京也領先于其他城市。即使排除拉勾網base在北京中關村地利優勢和3W咖啡的線下優勢,北京的數值依然是遙遙領先。
2.公司如何定價員工的工作資歷?
從主流數量上看,工作經歷在1-5年的現在需求最旺盛,且大多數公司均會給到11-25K的價位。且對于11-15K、16-20K、21-25K三個細分檔次的價位,用人單位對于1-3年工作經驗的人11-15K是主流價碼,優秀的人可以提升至16-20K,更優秀的再提升至21-25K;用人單位對于3-5年工作經驗的人21-25K是主流價碼,有經驗但能力欠缺的降至16-20K,再弱一些的就降至11-15K。
還有一個非常有意思的現象是,有相當一部分企業對于“經驗不限”的情況大多數也愿意給出11-15K和21-25K的價位,說明在互聯網領域仍有企業是看重能力而不是資歷,對于經驗有相當的自由度。另外對于5-10年的人員數量非常低,排除專業獵頭分的蛋糕之外,也可能說明這個行業的專家非常少,或者是企業的數據挖掘需求還遠沒有達到需要專家的級別。這兩點結合來看,專家權威效應不明顯,企業看重能力而非資歷,對于這個行業的新人是利好的消息。
請注意,企業對于1年以下經驗的人招聘數量和薪資認可方面都是非常低的,說明新人前1-2年先不著急跳槽,好好打好基本功,迎接之后的量質轉換!
3.高薪資都存在哪些高大上的行業?
數據聲明:在拉勾網上發布職位的公司一般都會貼上兩個以上的標簽,本文將對這些標簽重復計算。例如宜信公司標簽是<移動互聯網·金融>,則在這兩個領域分別會計數。圖中移動互聯網的絕對值非常高,說明移動互聯網是一種主流的趨勢。
移動互聯網的主流薪資認可是11-25K范圍,且能夠容納的人員數量非常多,說明該行業不差錢。數據服務是這行里面的默默無聞的耕耘者,有很多新興企業,提供數據服務,也是通過高新來吸引人才。電商、O2O、文化(主要是視頻)、廣告、金融幾個行業對數據挖掘人才需求的數量和質量相差無幾。如果希望從事一份體面的數據挖掘工作,可以考慮從這些行業中來找。
4.公司處于何種階段會需要數據挖掘?
融到錢的公司(途徑包括各種輪和上市)對于數據挖掘的需求明顯高于其他,早在天使輪就有體現。就成功融資的這些企業來講,11-15K的人在AB輪時達到頂峰,說明這階段應該是數據挖掘部門急劇膨脹的階段,需要比較多的初級數據挖掘人員;21-25K的人員在ABCD和上市之后的需求保持持平,說明對于有能力的資深人士,需求是一直存在的,而且可能滿足要求的人員較少,公司之間的流動性比較高,招聘需求一直穩定存在。
平均收入是根據人數加權得出,從中可以看出,“成功融資”、“未融資”、“不需要融資”呈依次遞減的水平,在融資領域內,平均收入水平依據成熟度而顯示逐步上升。
如果你是希望通過跳槽來獲取更高的收入11-20K,不考慮期權的因素下,成熟度高的已成功融資、如CD輪或者上市的公司是最理想的選擇,這些公司總體平均收入比較高,未來有進一步上升的潛力;如果覺得競爭太激烈,可以退而求其次,將目標放在AB輪,這些公司對此檔人員的需求最高,但平均收入不一定高。(但事情一體兩面,如果你選擇時機得當,AB輪獲得股權期權,將來成功套現,也將是一筆不小的收入)。
5.企業發展到何種規模需要數據挖掘?
對于11-15K的等級,在企業發展階段呈現先上升后下降的趨勢,其中150-500人是需求的頂峰;對于16-25K的人員,企業發展階段是持續上升的需求,其中在50-500人階段呈現出一個小高峰??梢岳斫馄髽I在發展到150-500人之前,15K以下的數據挖掘即可滿足需要,但在之后數據量的膨脹導致數據的價值陡增,對于21K以上的中高級人才產生巨大的渴求。
從人員加權平均收入來看,隨著規模的增長是在不斷上升的,企業的發展越大,數據挖掘越容易產生價值。
如果你熱衷于數據挖掘領域創造價值,大公司將是不錯的歷練平臺;但如果可以接受11-15K水平的初級人員,150-500人的公司將會是一個不錯的跳板。
6.數據挖掘工具的運用與收入之間的關系?
數據說明:從每個網頁中抓取JD說明,根據python中jieba庫進行文本分詞,并計算出現頻次,并建立自己的分詞標簽字典。
數據說明:詞頻占比=該詞詞頻/所有詞詞頻。平均每個JD中出現次數=詞頻/JD數。在JD中,非關系型數據庫、腳本語言和關系型數據庫是三種主要被提及的工具,平均每個job中均會提及一次以上。說明這些是必備技能。具體取了排名前30的原始詞做成云圖如下。
以Hadoop為代表的非關系型數據庫,以python和java為代表的語言,以SQL為代表的關系型數據庫構成工具的主流。
數據說明:面積圖為對應詞出現的頻次總數,折線圖為詞頻/job數量的比例、代表平均每個職位描述中出現某詞的頻次。
從折線圖上看,在6-15K、16-25K、26-100K三個階段內,絕大多數工具需求都呈現正三角形的結構,即“小大小”的情況,可以理解為在25K以前,薪資隨著工具的提升而不斷提升,26K以后需要有其他非軟件工具技能來獲得職業生涯的突破。
從工作數量上看,hadoop、python、java的數值很高,說明獲得絕大多數公司的認可,所以這三門工具是在數據挖掘領域走向人生巔峰的必備良藥。