成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Python爬蟲實戰:單線程、多線程和協程性能對比

開發 后端
今天我要給大家分享的是如何爬取中農網產品報價數據,并分別用普通的單線程、多線程和協程來爬取,從而對比單線程、多線程和協程在網絡爬蟲中的性能。

[[378975]]

 一、前言

今天我要給大家分享的是如何爬取中農網產品報價數據,并分別用普通的單線程、多線程和協程來爬取,從而對比單線程、多線程和協程在網絡爬蟲中的性能。

目標URL:https://www.zhongnongwang.com/quote/product-htm-page-1.html

爬取產品品名、最新報價、單位、報價數、報價時間等信息,保存到本地Excel。

二、爬取測試

翻頁查看 URL 變化規律: 

  1. https://www.zhongnongwang.com/quote/product-htm-page-1.html  
  2. https://www.zhongnongwang.com/quote/product-htm-page-2.html  
  3. https://www.zhongnongwang.com/quote/product-htm-page-3.html  
  4. https://www.zhongnongwang.com/quote/product-htm-page-4.html  
  5. https://www.zhongnongwang.com/quote/product-htm-page-5.html  
  6. https://www.zhongnongwang.com/quote/product-htm-page-6.html 

檢查網頁,可以發現網頁結構簡單,容易解析和提取數據。

思路:每一條產品報價信息在 class 為 tb 的 table 標簽下的 tbody 下的 tr 標簽里,獲取到所有 tr 標簽的內容,然后遍歷,從中提取出每一個產品品名、最新報價、單位、報價數、報價時間等信息。 

  1. # -*- coding: UTF-8 -*-  
  2. """  
  3. @File    :demo.py  
  4. @Author  :葉庭云  
  5. @CSDN    :https://yetingyun.blog.csdn.net/  
  6. """  
  7. import requests  
  8. import logging  
  9. from fake_useragent import UserAgent  
  10. from lxml import etree  
  11. # 日志輸出的基本配置  
  12. logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s' 
  13. # 隨機產生請求頭  
  14. ua = UserAgent(verify_ssl=Falsepath='fake_useragent.json' 
  15. url = 'https://www.zhongnongwang.com/quote/product-htm-page-1.html'  
  16. # 偽裝請求頭  
  17. headers = {  
  18.     "Accept-Encoding": "gzip",  # 使用gzip壓縮傳輸數據讓訪問更快  
  19.     "User-Agent": ua.random  
  20.  
  21. # 發送請求  獲取響應  
  22. rep = requests.get(url, headersheaders=headers)  
  23. print(rep.status_code)    # 200  
  24. # Xpath定位提取數據  
  25. html = etree.HTML(rep.text)  
  26. items = html.xpath('/html/body/div[10]/table/tr[@align="center"]')  
  27. logging.info(f'該頁有多少條信息:{len(items)}')  # 一頁有20條信息  
  28. # 遍歷提取出數據  
  29. for item in items:  
  30.     name = ''.join(item.xpath('.//td[1]/a/text()'))  # 品名  
  31.     price = ''.join(item.xpath('.//td[3]/text()'))   # 最新報價  
  32.     unit = ''.join(item.xpath('.//td[4]/text()'))    # 單位  
  33.     nums = ''.join(item.xpath('.//td[5]/text()'))    # 報價數  
  34.     time_ = ''.join(item.xpath('.//td[6]/text()'))   # 報價時間  
  35.     logging.info([name, price, unit, nums, time_]) 

運行結果如下:

可以成功爬取到數據,接下來分別用普通的單線程、多線程和協程來爬取 50 頁的數據、保存到Excel。

三、單線程爬蟲 

  1. # -*- coding: UTF-8 -*-  
  2. """  
  3. @File    :單線程.py  
  4. @Author  :葉庭云  
  5. @CSDN    :https://yetingyun.blog.csdn.net/  
  6. """  
  7. import requests  
  8. import logging  
  9. from fake_useragent import UserAgent  
  10. from lxml import etree  
  11. import openpyxl  
  12. from datetime import datetime  
  13. # 日志輸出的基本配置  
  14. logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s' 
  15. # 隨機產生請求頭  
  16. ua = UserAgent(verify_ssl=Falsepath='fake_useragent.json' 
  17. wb = openpyxl.Workbook() 
  18. sheet = wb.active 
  19. sheet.append(['品名', '最新報價', '單位', '報價數', '報價時間'])  
  20. start = datetime.now()  
  21. for page in range(1, 51):  
  22.     # 構造URL  
  23.     url = f'https://www.zhongnongwang.com/quote/product-htm-page-{page}.html'  
  24.     # 偽裝請求頭 
  25.     headers = {  
  26.         "Accept-Encoding": "gzip",  # 使用gzip壓縮傳輸數據讓訪問更快  
  27.         "User-Agent": ua.random  
  28.     }  
  29.     # 發送請求  獲取響應  
  30.     rep = requests.get(url, headersheaders=headers)  
  31.     # print(rep.status_code)  
  32.     # Xpath定位提取數據  
  33.     html = etree.HTML(rep.text)  
  34.     items = html.xpath('/html/body/div[10]/table/tr[@align="center"]')  
  35.     logging.info(f'該頁有多少條信息:{len(items)}')  # 一頁有20條信息  
  36.     # 遍歷提取出數據  
  37.     for item in items:  
  38.         name = ''.join(item.xpath('.//td[1]/a/text()'))  # 品名  
  39.         price = ''.join(item.xpath('.//td[3]/text()'))   # 最新報價  
  40.         unit = ''.join(item.xpath('.//td[4]/text()'))    # 單位  
  41.         nums = ''.join(item.xpath('.//td[5]/text()'))    # 報價數  
  42.         time_ = ''.join(item.xpath('.//td[6]/text()'))   # 報價時間  
  43.         sheet.append([name, price, unit, nums, time_])  
  44.         logging.info([name, price, unit, nums, time_])  
  45. wb.save(filename='data1.xlsx' 
  46. delta = (datetime.now() - start).total_seconds()  
  47. logging.info(f'用時:{delta}s') 

運行結果如下:

單線程爬蟲必須上一個頁面爬取完成才能繼續爬取,還可能受當時網絡狀態影響,用時48.528703s,才將數據爬取完,速度比較慢。

四、多線程爬蟲 

  1. # -*- coding: UTF-8 -*-  
  2. """  
  3. @File    :多線程.py  
  4. @Author  :葉庭云  
  5. @CSDN    :https://yetingyun.blog.csdn.net/  
  6. """  
  7. import requests  
  8. import logging  
  9. from fake_useragent import UserAgent  
  10. from lxml import etree  
  11. import openpyxl  
  12. from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED  
  13. from datetime import datetime  
  14. # 日志輸出的基本配置  
  15. logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s' 
  16. # 隨機產生請求頭  
  17. ua = UserAgent(verify_ssl=Falsepath='fake_useragent.json' 
  18. wb = openpyxl.Workbook()  
  19. sheet = wb.active  
  20. sheet.append(['品名', '最新報價', '單位', '報價數', '報價時間'])  
  21. start = datetime.now() 
  22. def get_data(page):  
  23.     # 構造URL  
  24.     url = f'https://www.zhongnongwang.com/quote/product-htm-page-{page}.html'  
  25.     # 偽裝請求頭  
  26.     headers = {  
  27.         "Accept-Encoding": "gzip",    # 使用gzip壓縮傳輸數據讓訪問更快  
  28.         "User-Agent": ua.random  
  29.     }  
  30.     # 發送請求  獲取響應  
  31.     rep = requests.get(url, headersheaders=headers)  
  32.     # print(rep.status_code)  
  33.     # Xpath定位提取數據  
  34.     html = etree.HTML(rep.text)  
  35.     items = html.xpath('/html/body/div[10]/table/tr[@align="center"]')  
  36.     logging.info(f'該頁有多少條信息:{len(items)}')  # 一頁有20條信息  
  37.     # 遍歷提取出數據  
  38.     for item in items:  
  39.         name = ''.join(item.xpath('.//td[1]/a/text()'))   # 品名  
  40.         price = ''.join(item.xpath('.//td[3]/text()'))    # 最新報價  
  41.         unit = ''.join(item.xpath('.//td[4]/text()'))     # 單位  
  42.         nums = ''.join(item.xpath('.//td[5]/text()'))     # 報價數  
  43.         time_ = ''.join(item.xpath('.//td[6]/text()'))    # 報價時間  
  44.         sheet.append([name, price, unit, nums, time_])  
  45.         logging.info([name, price, unit, nums, time_]) 
  46. def run():  
  47.     # 爬取1-50頁  
  48.     with ThreadPoolExecutor(max_workers=6) as executor:  
  49.         future_tasks = [executor.submit(get_data, i) for i in range(1, 51)]  
  50.         wait(future_tasks, return_when=ALL_COMPLETED 
  51.     wb.save(filename='data2.xlsx' 
  52.     delta = (datetime.now() - start).total_seconds()  
  53.     print(f'用時:{delta}s')  
  54. run() 

運行結果如下:

多線程爬蟲爬取效率提升非常可觀,用時 2.648128s,爬取速度很快。

五、異步協程爬蟲 

  1. # -*- coding: UTF-8 -*-  
  2. """  
  3. @File    :demo1.py  
  4. @Author  :葉庭云  
  5. @CSDN    :https://yetingyun.blog.csdn.net/  
  6. """  
  7. import aiohttp  
  8. import asyncio  
  9. import logging  
  10. from fake_useragent import UserAgent  
  11. from lxml import etree  
  12. import openpyxl  
  13. from datetime import datetime  
  14. # 日志輸出的基本配置  
  15. logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s' 
  16. # 隨機產生請求頭  
  17. ua = UserAgent(verify_ssl=Falsepath='fake_useragent.json' 
  18. wb = openpyxl.Workbook()  
  19. sheet = wb.active 
  20. sheet.append(['品名', '最新報價', '單位', '報價數', '報價時間'])  
  21. start = datetime.now()  
  22. class Spider(object):  
  23.     def __init__(self):  
  24.         # self.semaphore = asyncio.Semaphore(6)  # 信號量,有時候需要控制協程數,防止爬的過快被反爬  
  25.         self.header = {  
  26.                 "Accept-Encoding": "gzip",    # 使用gzip壓縮傳輸數據讓訪問更快  
  27.                 "User-Agent": ua.random  
  28.             } 
  29.     async def scrape(self, url):  
  30.         # async with self.semaphore:  # 設置最大信號量,有時候需要控制協程數,防止爬的過快被反爬  
  31.         session = aiohttp.ClientSession(headers=self.header, connector=aiohttp.TCPConnector(ssl=False))  
  32.         response = await session.get(url)  
  33.         result = await response.text()  
  34.         await session.close()  
  35.         return result  
  36.     async def scrape_index(self, page):  
  37.         url = f'https://www.zhongnongwang.com/quote/product-htm-page-{page}.html'  
  38.         text = await self.scrape(url)  
  39.         await self.parse(text)  
  40.     async def parse(self, text):  
  41.         # Xpath定位提取數據  
  42.         html = etree.HTML(text)  
  43.         items = html.xpath('/html/body/div[10]/table/tr[@align="center"]')  
  44.         logging.info(f'該頁有多少條信息:{len(items)}')  # 一頁有20條信息  
  45.         # 遍歷提取出數據  
  46.         for item in items:  
  47.             name = ''.join(item.xpath('.//td[1]/a/text()'))  # 品名  
  48.             price = ''.join(item.xpath('.//td[3]/text()'))  # 最新報價  
  49.             unit = ''.join(item.xpath('.//td[4]/text()'))  # 單位  
  50.             nums = ''.join(item.xpath('.//td[5]/text()'))  # 報價數  
  51.             time_ = ''.join(item.xpath('.//td[6]/text()'))  # 報價時間  
  52.             sheet.append([name, price, unit, nums, time_])  
  53.             logging.info([name, price, unit, nums, time_])  
  54.     def main(self):  
  55.         # 50頁的數據  
  56.         scrape_index_tasks = [asyncio.ensure_future(self.scrape_index(page)) for page in range(1, 51)]  
  57.         loop = asyncio.get_event_loop()  
  58.         tasks = asyncio.gather(*scrape_index_tasks)  
  59.         loop.run_until_complete(tasks)  
  60. if __name__ == '__main__':  
  61.     spider = Spider()  
  62.     spider.main()  
  63.     wb.save('data3.xlsx')  
  64.     delta = (datetime.now() - start).total_seconds()  
  65.     print("用時:{:.3f}s".format(delta)) 

運行結果如下:

而到了協程異步爬蟲,爬取速度更快,嗖的一下,用時 0.930s 就爬取完 50 頁數據,aiohttp + asyncio 異步爬蟲竟恐怖如斯。異步爬蟲在服務器能承受高并發的前提下增加并發數量,爬取效率提升是非常可觀的,比多線程還要快一些。

三種爬蟲都將 50 頁的數據爬取下來保存到了本地,結果如下:

六、總結回顧

今天我演示了簡單的單線程爬蟲、多線程爬蟲和協程異步爬蟲。可以看到一般情況下異步爬蟲速度最快,多線程爬蟲略慢一點,單線程爬蟲速度較慢,必須上一個頁面爬取完成才能繼續爬取。

但協程異步爬蟲相對來說并不是那么好編寫,數據抓取無法使用 request 庫,只能使用aiohttp,而且爬取數據量大時,異步爬蟲需要設置最大信號量來控制協程數,防止爬的過快被反爬。所以在實際編寫 Python 爬蟲時,我們一般都會使用多線程爬蟲來提速,但必須注意的是網站都有 ip 訪問頻率限制,爬的過快可能會被封ip,所以一般我們在多線程提速的同時可以使用代理 ip 來并發地爬取數據。

  •  多線程(multithreading):是指從軟件或者硬件上實現多個線程并發執行的技術。具有多線程能力的計算機因有硬件支持而能夠在同一時間執行多于一個線程,進而提升整體處理性能。具有這種能力的系統包括對稱多處理機、多核心處理器以及芯片級多處理或同時多線程處理器。在一個程序中,這些獨立運行的程序片段叫作 "線程" (Thread),利用它編程的概念就叫作 "多線程處理"。
  •  異步(asynchronous):為完成某個任務,不同程序單元之間過程中無需通信協調,也能完成任務的方式,不相關的程序單元之間可以是異步的。例如,爬蟲下載網頁。調度程序調用下載程序后,即可調度其他任務,而無需與該下載任務保持通信以協調行為。不同網頁的下載、保存等操作都是無關的,也無需相互通知協調。這些異步操作的完成時刻并不確定。簡言之,異步意味著無序。
  •  協程(coroutine),又稱微線程、纖程,協程是一種用戶態的輕量級線程。協程擁有自己的寄存器上下文和棧。協程調度切換時,將寄存器上下文和棧保存到其他地方,在切回來的時候,恢復先前保存的寄存器上下文和棧。因此協程能保留上一次調用時的狀態,即所有局部狀態的一個特定組合,每次過程重入時,就相當于進入上一次調用的狀態。協程本質上是個單進程,協程相對于多進程來說,無需線程上下文切換的開銷,無需原子操作鎖定及同步的開銷,編程模型也非常簡單。我們可以使用協程來實現異步操作,比如在網絡爬蟲場景下,我們發出一個請求之后,需要等待一定的時間才能得到響應,但其實在這個等待過程中,程序可以干許多其他的事情,等到響應得到之后才切換回來繼續處理,這樣可以充分利用 CPU 和其他資源,這就是協程的優勢。 

 

責任編輯:龐桂玉 來源: Python中文社區 (ID:python-china)
相關推薦

2020-11-09 09:33:37

多線程

2023-08-17 14:12:17

2021-06-11 11:28:22

多線程fork單線程

2023-12-13 09:56:13

?多進程多線程協程

2024-09-27 11:51:33

Redis多線程單線程

2009-07-10 09:05:20

SwingWorker

2012-02-15 10:26:40

JavaJava Socket

2019-10-29 20:13:43

Java技術程序員

2023-12-01 08:18:24

Redis網絡

2020-09-23 13:37:25

Redis6.0

2025-06-17 00:22:00

2020-11-17 10:20:53

Redis多線程單線程

2010-08-30 08:55:56

JavaScript引

2022-01-04 11:11:32

Redis單線程Reactor

2018-01-11 08:24:45

服務器模型詳解

2010-01-28 16:45:44

Android單線程模

2017-03-06 14:08:38

JavaScript單線程setTimeout

2025-04-24 08:15:00

Redis單線程線程

2024-02-26 00:00:00

JavaScript單線程高效

2023-06-08 08:21:08

多線程編程線程間通信
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久国产精品一区 | 日韩国产一区二区三区 | 日韩久久久久久 | 亚洲风情在线观看 | 精品亚洲国产成av人片传媒 | 精品久久久久久亚洲综合网 | 天天色综网 | 国产一区 | 男人的天堂久久 | 一区二区三区视频在线 | 羞羞视频网站在线观看 | 在线观看视频91 | 一区二区三区国产精品 | 国产资源一区二区三区 | 久久久爽爽爽美女图片 | 亚洲国产精品美女 | 91精品在线播放 | 欧美一区二区三区四区五区无卡码 | 亚洲国产精品久久久 | 亚洲视频精品 | 精品免费视频 | 日韩a v在线免费观看 | 一级毛片视频免费观看 | 中文字幕日本一区二区 | 国产精品99久久久久久宅男 | 亚洲成av人片在线观看 | 美女国产一区 | 久草网在线视频 | 亚洲精品99 | 一区二区在线不卡 | 91精品久久久久久久久久 | 久久出精品| 成人福利在线 | 国产精品一区二区在线观看 | 亚洲国产精品人人爽夜夜爽 | 网站黄色在线免费观看 | 成人av电影天堂 | 日韩精品在线免费观看 | 精品视频一区二区三区在线观看 | 欧美亚洲一区二区三区 | 日韩精品一区二区三区视频播放 |