成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

手把手教你使用Scrapy框架來爬取北京新發地價格行情(實戰篇)

開發 后端
這篇文章基于上篇理論文章,主要給大家分享了Scrapy爬蟲框架的實戰內容,Scrapy是一個基于Twisted的異步處理框架。

[[426809]]

大家好!我是霖hero。上個月的時候,我寫了一篇關于IP代理的文章,手把手教你使用XPath爬取免費代理IP;前幾天,我又發布了第二篇文章,這篇文章主要是講Scrapy理論知識的,手把手教你使用scrapy框架來爬取北京新發地價格行情(理論篇),今天在這里分享我的第三篇文章,關于Scrapy實戰的應用文章,希望大家可以喜歡。

前言

關于Scrapy理論的知識,可以參考我的上一篇文章,這里不再贅述,直接上干貨。

實戰演練

爬取分析

首先我們進入北京新發地價格行情網頁并打開開發者工具,如下圖所示:

經過簡單的查找,發現每個getPriceData.html存放著價格行情的數據,由此可得,我們可以通過getPriceData.html來進行數據的獲取。

觀察Headers請求,如下圖所示:

發現它是POST請求,請求URL鏈接是http://www.xinfadi.com.cn/getPriceData.html,current是翻頁的重要參數,limit是每頁有多少行數據,我們可以構造消息體,代碼如下所示:

  1. data={ 
  2. 'limit''20'
  3. 'current':page 

通過scrapy.Request()方法將消息體傳入到參數里面。

或者我們可以根據測試和觀察規律,自己構造URL鏈接,通過觀察分析,請求的URL鏈接可以為:

  1. http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=1 
  2. http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=2 
  3. http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=3 

創建Spider爬蟲

分析北京新發地價格行情后,接下來我們首先創建一個Scrapy項目,使用如下命令:

  1. scrapy startproject Vegetables 

這樣我們就成功創建了一個Scrapy項目,項目文件如下所示:

接下來創建spider爬蟲,使用如下命令:

  1. scrapy genspider vegetables www.xinfadi.com.cn 

創建后vegetables.py內容如下所示:

  1. import scrapy 
  2.  
  3. class VegetablesSpider(scrapy.Spider): 
  4.    name = 'vegetables' 
  5.    allowed_domains = ['www.xinfadi.com.cn'
  6.    start_urls = ['https://www.xinfadi.com.cn'
  7.     
  8.    def parse(self, response): 
  9.        pass 

提取數據

在提取數據前,我們首先把要爬取的數據字段在items.py文件中定義好,代碼如下所示:

  1. import scrapy 
  2.  
  3. class VegetablesItem(scrapy.Item): 
  4.    # define the fields for your item here like
  5.    productName = scrapy.Field() 
  6.    lowPrice=scrapy.Field() 
  7.    highPrice=scrapy.Field() 

這里我們定義了三個字段分別是productName、lowPrice、highPrice

定義好字段后,接下來將在創建的vegetables.py文件中進行數據的提取,具體代碼如下

  1. import scrapy 
  2. from Vegetables.items import VegetablesItem 
  3.  
  4. class VegetablesSpider(scrapy.Spider): 
  5.    name = 'vegetables' 
  6.    allowed_domains = ['www.xinfadi.com.cn'
  7.    def start_requests(self): 
  8.        for i in range(1, 3): 
  9.            url = f'http://www.xinfadi.com.cn/getPriceData.html?limit=20&current={i}' 
  10.            yield scrapy.Request(url=url, callback=self.parse) 
  11.  
  12.    def parse(self, response): 
  13.        html = response.json() 
  14.        fooddata = html.get('list'
  15.        for i in fooddata: 
  16.            item=VegetablesItem() 
  17.            item['highPrice'] =i.get('highPrice'), 
  18.            item['lowPrice'] = i.get('lowPrice'), 
  19.            item['prodName'] = i.get('prodName'), 
  20.            yield item 

首先我們導入vegetablesitem,使用start_requests函數實現翻頁,大家可以使用剛才我們所講的方法實現翻頁,實現翻頁后,我們通過編寫parse()方法實現數據的獲取,首先我們把引擎響應的數據以json()格式存放在html里面,調用get()方法來提取我們想要的數據,最后通過yield生成器返回給引擎。

最后我們在settings.py設置引擎的啟動,代碼如下所示:

  1. ITEM_PIPELINES = { 
  2.   'Vegetables.pipelines.VegetablesPipeline': 300, 

在這里我們就不保存數據在MongoDB數據庫里面了,我們直接啟動Spider爬蟲并把數據以csv格式輸出,使用如下命令:

  1. scrapy crawl vegetables -o 11.c 

運行結果如下:

好了,Scrapy框架爬取北京新發地就講解到這里了,感謝觀看!!!

總結

大家好,我是霖hero。這篇文章基于上篇理論文章,主要給大家分享了Scrapy爬蟲框架的實戰內容,Scrapy是一個基于Twisted的異步處理框架,是純Python實現的爬蟲框架,是提取結構性數據而編寫的應用框架,其架構清晰,模塊之間的耦合程度低,可擴展性極強。

【編輯推薦】

 

責任編輯:姜華 來源: Python爬蟲與數據挖掘
相關推薦

2021-09-29 08:53:36

scrapy框架Twisted

2020-10-23 09:03:28

Flask

2021-07-03 09:04:22

XPathPython免費代理IP

2021-07-14 09:00:00

JavaFX開發應用

2025-05-07 00:31:30

2022-12-07 08:42:35

2018-05-16 13:50:30

Python網絡爬蟲Scrapy

2011-04-26 14:07:24

2021-04-30 09:05:37

爬蟲框架數據

2022-05-26 12:26:27

CSSJS逆向

2021-08-02 07:35:19

Nacos配置中心namespace

2011-01-10 14:41:26

2011-05-03 15:59:00

黑盒打印機

2021-02-18 09:08:05

PythonDjango框架

2021-02-08 09:07:12

Python項目Django

2020-03-08 22:06:16

Python數據IP

2021-01-30 10:37:18

ScrapyGerapy網絡爬蟲

2018-05-16 15:46:06

Python網絡爬蟲PhantomJS

2021-05-08 08:04:05

Python爬取素材

2021-01-19 09:06:21

MysqlDjango數據庫
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www.日韩欧美 | 美女视频h | 国产1区在线 | 亚洲综合色视频在线观看 | 国产精品片| 9999视频 | 亚洲精品一区二区 | 一级视频在线免费观看 | 九九色综合 | 国产一区二区三区四区在线观看 | 伦理一区二区 | 99精品视频一区二区三区 | 欧美精品91 | 国产伦精品一区二区三区高清 | 日日夜夜天天干 | 欧美成人一区二区三区 | 亚洲毛片网站 | 91亚洲精品在线观看 | 亚洲a网 | 国产精品一区二区日韩 | 中文字幕国产视频 | 亚洲三区在线观看 | 欧美视频网| 不卡在线视频 | 国产成人精品区一区二区不卡 | 秋霞电影一区二区三区 | a级黄色片在线观看 | 亚洲一区国产精品 | 亚洲精品久久久久久久不卡四虎 | 日韩欧美精品一区 | 欧美日韩在线观看一区 | 久久一区二区av | 欧美日韩视频在线第一区 | 亚洲精品国产电影 | 久久精品国产精品青草 | 欧美a区| 国产精品www | 久久精品国产久精国产 | 国产精品国产三级国产aⅴ浪潮 | 国产国语精品 | 国产在线永久免费 |