成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用 Puppeteer 實現一個自動化機器人

開發 前端 自動化
Puppeteer 是 Node.js 的一個函數庫,可用來操控瀏覽器,是 Google 的項目,可以應用的范圍包括:前端的自動化測試、爬蟲、表單提交等。

 [[390866]]

目錄

  • 簡介

  • Selenium vs Puppeteer

  • 安裝

  • 一個簡單的例子

  • 解釋代碼

  • 把項目容器化

  • 容器打包時的一些坑

    • 1. Puppeteer 安裝 Chromium 時會缺少一些組件

    • 2. 頁面焦點問題

    • 3. Page Crash 問題

    • 4. 時區問題

Puppeteer 是 Node.js 的一個函數庫,可用來操控瀏覽器,是 Google 的項目,可以應用的范圍包括:前端的自動化測試、爬蟲、表單提交等。

Selenium vs Puppeteer

之前有過用 Python 配合 Selenium 的經驗,不過如果是做爬蟲、自動化操作用 Puppeteer 還是非常方便的,安裝簡單快速,API 也容易使用。美中不足的是它只支持 Chromium 以下是兩者的比較,僅供參考:

 

由于 Puppeteer 是用 Node.js 寫的,所以必須要先安裝 Node。

  1. 可以至官網 下載

  2. 如果用 mac 可以使用 https://nodejs.org/en/

安裝完后可以在 terminal 輸入 node -v 檢查是否安裝成功

然后到要開發的項目路徑下輸入 npm init -y 初始化項目,接著 npm i puppeteer ,安裝的時候會發現它會連同 Chromium 一同安裝。

安裝成功后就可以開始了。

一個簡單的例子

新增一個文件 main.js ,并復制以下代碼:

  1. const puppeteer = require('puppeteer'); 
  2.  
  3. (async () => { 
  4.  
  5.   // 開啟 browser 
  6.   const browser = await puppeteer.launch({ 
  7.         headless: false 
  8.   }); 
  9.   // 新增分頁 
  10.   const page = await browser.newPage(); 
  11.   // 到自己的博客網站 
  12.   await page.goto(`https://www.myblog.com/`); 
  13.   // 等待訂閱按鈕出現 
  14.   await page.waitForSelector("button[class='subscribe-button pill-button']"); 
  15.   // 點擊訂閱按鈕 
  16.   await page.click("button[class='subscribe-button pill-button']"); 
  17. })(); 

接著到終端下輸入 node main.js 執行。

解釋代碼

前面的代碼先引入 Puppeteer,以便后續使用,接下來可以看到用 async 以及 () => , async 表示函數要用到異步操作, () => 則是 JS 的箭頭函數。

  1. const puppeteer = require('puppeteer'); 

接下來是用 Puppeteer 打開一個瀏覽器 ( Chromium ),其中可以看到我們設了參數 headless : false ,如果是設定為 true ,會開啟沒有界面的無頭瀏覽器,如果設定 false ,就會開一個瀏覽器窗口。

  1. const browser = await puppeteer.launch({ 
  2.     headless: false 
  3. }); 

這段就很簡單了,它會幫你在瀏覽器開一個新的分頁。

  1. const page = await browser.newPage(); 

這段也很容易,看到 goto 就可以猜到會幫你導向后方指定的網址。

  1. await page.goto(`https://b123105.blogspot.com/`); 

最后這段代碼用到了 click 這個方法,它能夠幫你點擊后面指定的元素,可以看到我是指定 class = subscribe-button pill-button 的 <button> 。

waitForSelector 的作用是,在執行時整個操作速度會很快,有時可能這個元素都很沒出現,就讓它去點擊,有可能會找不到。所以先讓它等待指定元素出現后,再去點擊。

  1. await page.waitForSelector("button[class='subscribe-button pill-button']"); 
  2.  
  3. await page.click("button[class='subscribe-button pill-button']"); 

把項目容器化

首先下載 Docker,這里就不再贅述。接下來在項目目錄下創建 Dockerfile ,把下面的腳本代碼復制粘貼。

然后構建鏡像: docker build -t puppeteer-bot . 。

構建完成后就執行 docker run -d --name puppeteer-bot-timeline puppeteer-bot:latest 。

之后可以通過 docker logs puppeteer-bot-timeline 查看 console.log 的內容 ( 如果有的話 )。

要記得 headless 要設定為 true 才能運行。

  1. FROM node:11-slim 
  2. # 下載 chromium 在 docker 運行時所需組件 
  3. RUN apt-get update && apt-get install -yq libgconf-2-4 
  4. RUN apt-get update && apt-get install -y wget --no-install-recommends \ 
  5.     && wget -q -O - https://dl-ssl.google.com/linux/linux_signing_key.pub | apt-key add - \ 
  6.     && sh -c 'echo "deb [arch=amd64] http://dl.google.com/linux/chrome/deb/ stable main" >> /etc/apt/sources.list.d/google.list' \ 
  7.     && apt-get update \ 
  8.     && apt-get install -y google-chrome-unstable \ 
  9.       --no-install-recommends \ 
  10.     && rm -rf /var/lib/apt/lists/* \ 
  11.     && apt-get purge --auto-remove -y curl \ 
  12.     && rm -rf /src/*.deb 
  13.  
  14. ADD https://github.com/Yelp/dumb-init/releases/download/v1.2.0/dumb-init_1.2.0_amd64 /usr/local/bin/dumb-init 
  15. RUN chmod +x /usr/local/bin/dumb-init 
  16. USER root 
  17. ENV TZ=Asia/Shanghai # 轉換時區,非必要 
  18. RUN ln -snf /usr/share/zoneinfo/$TZ /etc/localtime && echo $TZ > /etc/timezone 
  19. COPY . /app/ 
  20. WORKDIR app 
  21. RUN npm install 
  22. EXPOSE 8084 
  23. ENTRYPOINT ["dumb-init""--"
  24. CMD ["node""main.js"

容器打包時的一些坑

接下來是我在用 Docke 打包過程遇到的一些問題:

1. Puppeteer 安裝 Chromium 時會缺少一些組件

本來用 docker 封裝是很容易的,安裝 node 然后 npm install 就行了,但是在實際操作時一直報錯說 Chromium 缺少組件。后來去 Puppeteer 的 issue 上查到原來安裝 Puppeteer 時會自動安裝 Chromium,但要在 Docker 上運行的相關組件并不會自動下載。

2. 頁面焦點問題

在開發時我是通過開啟一個瀏覽器,然后持續開三個分頁來進行操作,希望能加快處理的速度。但是發現當 headless:false 時,會同時開啟三個分頁,但只有被設置為焦點的當前頁面在執行后面的腳本,另外兩頁并沒有。因為在開發過程中執行時 tab 頁會被關閉,所以接下來第二個 tab 中的頁面獲得焦點后會再開始運行。

在 issue 中也看到有人遇到了同樣的問題,只有在 headless:true 的時候會同時處理,但目前還沒找到其他解法。

3. Page Crash 問題

上面有提到我在一個瀏覽器上操作三個分頁,放在 docker 中運行,總是遇到 Page Crash 問題,第一反應是可能內存不足,在 issue 上查到原來在打開瀏覽器時要加上 --disable-dev-shm-usage 。

原文是這樣說的:

By default, Docker runs a container with a /dev/shm shared memory space 64MB. This is typically too small for Chrome and will cause Chrome to crash when rendering large pages. To fix, run the container with docker run --shm-size=1gb to increase the size of /dev/shm. Since Chrome 65, this is no longer necessary. Instead, launch the browser with the --disable-dev-shm-usage flag: const browser = await puppeteer.launch({ args: ['--disable-dev-shm-usage'] });

4. 時區問題

這個問題與 Puppeteer 無關,有的服務器時區默認是 GMT,這時就要在 Dockerfile 指定容器的時區,不然代碼中涉及到時間的操作時會被自動加 8 小時。

責任編輯:張燕妮 來源: 前端先鋒
相關推薦

2021-04-21 13:56:32

人工智能機器學習

2023-10-30 17:41:29

機器人自動化

2019-04-02 09:00:00

機器人人工智能HMI設計

2023-07-11 16:35:13

機器人流程自動化

2020-09-10 11:40:00

Python機器人人工智能

2024-03-04 15:04:37

機器人人工智能

2020-04-11 22:21:07

開源機器人過程自動化工具RPA

2023-10-18 15:23:47

人工智能聊天機器人

2020-04-29 11:28:54

智能自動化機器人流程自動化AI

2020-12-02 13:00:17

Recast.AI聊天機器人人工智能

2022-09-30 13:55:46

Python機器人

2021-08-11 11:18:25

機器人人工智能技術

2024-02-04 09:43:53

機器人物聯網

2023-08-28 16:16:15

機器人測試

2021-09-02 10:19:17

人工智能AI機器人

2021-10-08 09:31:05

機器人自動化物流

2020-08-18 09:55:21

機器人過程自動化數字化轉型RPA

2024-03-07 14:37:46

自動化機器人人工智能

2021-08-06 09:35:37

Python盯盤機器人編程語言

2022-06-14 10:18:03

液態機器人人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品一二区 | 国产一区二区三区四区hd | 激情av| 国产精品精品视频一区二区三区 | 国产午夜精品一区二区三区嫩草 | 男女羞羞视频免费 | www.国产.com| 日韩精品一区二区三区中文字幕 | 看一级毛片视频 | 欧美日韩一区二区三区四区 | 夜夜骑首页| 99re在线播放 | 久久99视频免费观看 | 欧美日韩精品在线免费观看 | 日韩成人免费视频 | 久久精品91久久久久久再现 | 淫片一级国产 | 日韩 国产 在线 | 日批免费观看 | 成人片免费看 | 欧美日韩在线一区二区 | 国产91精品久久久久久久网曝门 | 琪琪午夜伦伦电影福利片 | 精品成人免费一区二区在线播放 | 国产精品一区二区不卡 | 久久久久www | 欧美日韩一区二区视频在线观看 | 日韩人体在线 | 久久成人18免费网站 | 精品欧美乱码久久久久久1区2区 | 国产精品欧美一区二区三区 | 国产精品免费在线 | 欧美黄色片 | 一区中文字幕 | 国产成人午夜高潮毛片 | 国产一级片在线观看视频 | 精品av| 精品久久国产老人久久综合 | 国产伦精品一区二区三区在线 | 成人在线视频观看 | 欧美在线国产精品 |