成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

寫了個簡單爬蟲,收集 Boss 直聘自動駕駛崗位

開發(fā) 前端
架構Selenium 模擬瀏覽器動作,除了加載需要的數(shù)據(jù)外,還會加載圖片、JS、CSS等不必要的內(nèi)容,導致網(wǎng)絡資源和計算資源消耗增加,爬取速度變慢,爬取規(guī)模受限。

朋友想知道 Boss 直聘上關于自動駕駛的崗位有哪些 ,于是,筆者寫了一個簡單的爬蟲 crawler-boss ,將全國大城市相關崗位的信息收集起來。

這篇文章,筆者想分享爬蟲 crawler-boss 的設計思路。

圖片圖片

一、基本原理 Selenium + chromedriver

對于很多動態(tài)渲染的網(wǎng)頁而言,想要抓取它的數(shù)據(jù),就需要對網(wǎng)頁的 JS 代碼以及 Ajax 接口等進行分析。

而當 JS 代碼混亂,難以分析,Ajax 的接口又含有很多加密參數(shù)的時候,就非常難以直接找出規(guī)律,那么上述過程會花費大量的時間和精力。

圖片圖片

上圖中, Boss  直聘接口參數(shù)比較多,筆者并不想花太多時間研究這些參數(shù),于是筆者選擇了另一種方案:Selenium + chromedriver。

Selenium是 web 瀏覽器自動化測試的工具,它可以模擬用戶與所有主流瀏覽器之間的交互,比如點擊,輸入,抓取,拖拽等等。

由于網(wǎng)頁大多采用是 JavaScript 動態(tài)渲染,使得爬蟲返回的結果可能與用戶實際看到的網(wǎng)頁并不一致。我們看到的網(wǎng)頁可能是經(jīng)過 Ajax 加載,或者是JavaScript以及其他算法計算后生成的。

因此,我們可以使用 Selenium直接模擬瀏覽器運行,我們?nèi)庋劭吹降氖鞘裁礃樱軌蜃ト〉臄?shù)據(jù)就是什么樣。

二、安裝 chromedriver

WebDriver 是 Selenium 的核心組件 , 負責控制瀏覽器進行各種操作。WebDriver 可以通過不同的驅(qū)動程序與不同的瀏覽器進行通信,比如 ChromeDriver、FirefoxDriver 等。

1、查看當前Google瀏覽器版本

打開Google瀏覽器,網(wǎng)址欄輸入:chrome://settings/help

圖片圖片

2、下載對應版本的chromedriver

對照你的版本下載,當你使用的是 Chrome 版本 115 或更高版本,就點最上面的鏈接:

https://chromedriver.chromium.org/downloads/

圖片圖片

找到你對應的版本,我這里是122.0.6261.129。

圖片圖片

下載完成之后,將文件解壓后,拷貝到 /usr/local/bin/ 目錄 。

圖片圖片

安裝完 chromedriver 后,Java 應用中添加如下依賴:

<dependency>
    <groupId>org.seleniumhq.selenium</groupId>
    <artifactId>selenium-server</artifactId>
    <version>3.141.59</version>
</dependency>

然后通過如下代碼,測試環(huán)境是否 OK 。

public static void main(String[] args) {
      WebDriver webDriver = new ChromeDriver();
      webDriver.get("https://juejin.cn");
}

點擊運行,如果打開了掘金網(wǎng)頁說明環(huán)境配置成功。

三、流程分析

1、進入搜索頁面 , 搜索框中輸入‘自動駕駛’。

圖片圖片

圖片圖片

2、搜索結果若出現(xiàn)登錄浮窗,則關閉,將頁面中職位列表通過 class 截取出來,保存到數(shù)據(jù)庫。

圖片圖片

圖片圖片

3、點擊下一頁

圖片圖片

圖片圖片

四、爬蟲演示

執(zhí)行完成之后,職位記錄表新增了接近 2000 條記錄。

圖片圖片

五、寫到最后

當我們將 Selenium 作為爬蟲工具時,盡管它有很多優(yōu)點,但也存在明顯的缺點。

Selenium 模擬瀏覽器動作,除了加載需要的數(shù)據(jù)外,還會加載圖片、JS、CSS等不必要的內(nèi)容,導致網(wǎng)絡資源和計算資源消耗增加,爬取速度變慢,爬取規(guī)模受限。

因此,長期大規(guī)模使用 Selenium 作為生產(chǎn)工具不是一個明智的選擇。

然而,如果只是想在個人電腦上快速抓取少量數(shù)據(jù),Selenium 確實是一個非常方便的工具。

最后, crawler-boss 的源碼實現(xiàn)非常簡單,假如同學們感興趣,可以關注公眾號,回復 「爬蟲」即可獲取。

參考文檔:

https://zhuanlan.zhihu.com/p/137710454

https://juejin.cn/post/7284318118993068051

責任編輯:武曉燕 來源: 勇哥Java實戰(zhàn)
相關推薦

2024-01-16 09:28:09

智能汽車

2015-07-02 14:07:19

Boss直聘

2022-10-27 10:18:25

自動駕駛

2021-11-18 09:50:35

自動駕駛輔助駕駛人工智能

2022-07-12 09:42:10

自動駕駛技術

2021-04-15 06:24:50

人工智能AI自動駕駛

2018-10-24 14:16:33

自動駕駛道路測試牌照

2019-11-25 09:55:34

自動駕駛人工智能無人駕駛

2022-02-17 10:22:17

汽車智能自動駕駛

2023-03-15 11:54:32

無人駕駛系統(tǒng)

2021-11-01 13:53:24

自動駕駛數(shù)據(jù)人工智能

2021-11-18 22:43:56

自動駕駛技術安全

2022-04-12 09:21:50

AIPython自動駕駛

2020-09-28 14:00:06

自動駕駛AI網(wǎng)絡

2019-09-19 14:10:12

人工智能物聯(lián)網(wǎng)自動駕駛

2021-12-16 10:45:22

自動駕駛數(shù)據(jù)人工智能

2021-12-01 10:21:27

自動駕駛技術人工智能

2021-04-30 11:44:04

自動駕駛智能化汽車

2020-01-09 08:42:23

自動駕駛AI人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久777777 | 精品一二三区 | 一级特黄网站 | 日本又色又爽又黄又高潮 | 亚洲精品一区二区久 | 午夜精品一区二区三区在线观看 | 少妇精品久久久久久久久久 | av在线免费不卡 | 成年人网站免费 | 日本三级电影免费 | 日本精品久久久一区二区三区 | 国产精品爱久久久久久久 | av在线免费观看网站 | 中文字幕成人免费视频 | 久久久久久久久久久久久久国产 | 最新中文字幕在线 | 91aiai| 亚洲综合视频 | 97人澡人人添人人爽欧美 | 亚洲欧美一区二区三区国产精品 | 国产午夜在线观看 | 91精品久久久久久久久久小网站 | 中文字幕欧美一区 | 国产日韩久久久久69影院 | 日韩成人中文字幕 | 午夜免费福利影院 | 99reav| 国产成人免费在线观看 | 日日夜夜天天干 | 99视频网| 91亚洲免费 | 日本视频免费观看 | 成年免费大片黄在线观看岛国 | 国产精品一区二区三区在线 | 亚洲成人一区二区三区 | 日本天天操 | 亚洲国产精品久久久 | www.色婷婷 | 精品亚洲永久免费精品 | 福利视频网 | 在线观看h视频 |