手把手教你使用Scrapy框架來爬取北京新發地價格行情（實戰篇）

作者：霖hero 2021-09-30 09:00:34

這篇文章基于上篇理論文章，主要給大家分享了Scrapy爬蟲框架的實戰內容，Scrapy是一個基于Twisted的異步處理框架。

大家好!我是霖hero。上個月的時候，我寫了一篇關于IP代理的文章，手把手教你使用XPath爬取免費代理IP;前幾天，我又發布了第二篇文章，這篇文章主要是講Scrapy理論知識的，手把手教你使用scrapy框架來爬取北京新發地價格行情(理論篇)，今天在這里分享我的第三篇文章，關于Scrapy實戰的應用文章，希望大家可以喜歡。

前言

關于Scrapy理論的知識，可以參考我的上一篇文章，這里不再贅述，直接上干貨。

實戰演練

爬取分析

首先我們進入北京新發地價格行情網頁并打開開發者工具，如下圖所示：

經過簡單的查找，發現每個getPriceData.html存放著價格行情的數據，由此可得，我們可以通過getPriceData.html來進行數據的獲取。

觀察Headers請求，如下圖所示：

發現它是POST請求，請求URL鏈接是http://www.xinfadi.com.cn/getPriceData.html，current是翻頁的重要參數，limit是每頁有多少行數據，我們可以構造消息體，代碼如下所示：

data={ 
'limit': '20', 
'current':page 
}

通過scrapy.Request()方法將消息體傳入到參數里面。

或者我們可以根據測試和觀察規律，自己構造URL鏈接，通過觀察分析，請求的URL鏈接可以為：

http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=1 
http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=2 
http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=3

創建Spider爬蟲

分析北京新發地價格行情后，接下來我們首先創建一個Scrapy項目，使用如下命令：

scrapy startproject Vegetables

這樣我們就成功創建了一個Scrapy項目，項目文件如下所示：

接下來創建spider爬蟲，使用如下命令：

scrapy genspider vegetables www.xinfadi.com.cn

創建后vegetables.py內容如下所示：

import scrapy 
 
class VegetablesSpider(scrapy.Spider): 
   name = 'vegetables' 
   allowed_domains = ['www.xinfadi.com.cn'] 
   start_urls = ['https://www.xinfadi.com.cn'] 
    
   def parse(self, response): 
       pass

提取數據

在提取數據前，我們首先把要爬取的數據字段在items.py文件中定義好，代碼如下所示：

import scrapy 
 
class VegetablesItem(scrapy.Item): 
   # define the fields for your item here like: 
   productName = scrapy.Field() 
   lowPrice=scrapy.Field() 
   highPrice=scrapy.Field()

這里我們定義了三個字段分別是productName、lowPrice、highPrice

定義好字段后，接下來將在創建的vegetables.py文件中進行數據的提取，具體代碼如下

import scrapy 
from Vegetables.items import VegetablesItem 
 
class VegetablesSpider(scrapy.Spider): 
   name = 'vegetables' 
   allowed_domains = ['www.xinfadi.com.cn'] 
   def start_requests(self): 
       for i in range(1, 3): 
           url = f'http://www.xinfadi.com.cn/getPriceData.html?limit=20&current={i}' 
           yield scrapy.Request(url=url, callback=self.parse) 
 
   def parse(self, response): 
       html = response.json() 
       fooddata = html.get('list') 
       for i in fooddata: 
           item=VegetablesItem() 
           item['highPrice'] =i.get('highPrice'), 
           item['lowPrice'] = i.get('lowPrice'), 
           item['prodName'] = i.get('prodName'), 
           yield item

首先我們導入vegetablesitem，使用start_requests函數實現翻頁，大家可以使用剛才我們所講的方法實現翻頁，實現翻頁后，我們通過編寫parse()方法實現數據的獲取，首先我們把引擎響應的數據以json()格式存放在html里面，調用get()方法來提取我們想要的數據，最后通過yield生成器返回給引擎。

最后我們在settings.py設置引擎的啟動，代碼如下所示：

ITEM_PIPELINES = { 
  'Vegetables.pipelines.VegetablesPipeline': 300, 
}

在這里我們就不保存數據在MongoDB數據庫里面了，我們直接啟動Spider爬蟲并把數據以csv格式輸出，使用如下命令：

scrapy crawl vegetables -o 11.c

運行結果如下：

好了，Scrapy框架爬取北京新發地就講解到這里了，感謝觀看!!!

總結

大家好，我是霖hero。這篇文章基于上篇理論文章，主要給大家分享了Scrapy爬蟲框架的實戰內容，Scrapy是一個基于Twisted的異步處理框架，是純Python實現的爬蟲框架，是提取結構性數據而編寫的應用框架，其架構清晰，模塊之間的耦合程度低，可擴展性極強。

【編輯推薦】

鴻蒙官方戰略合作共建——HarmonyOS技術社區
任何Ubuntu用戶都應安裝的四大Linux應用程序
工信部：5G手機終端連接數達4.19億戶
只需兩步，教會你正確處理舊手機，變廢為寶
MySQL的三條JOIN子句使用指南
蘋果iOS 15再次迎來更新，除了實況文本外，還有五個新發現

責任編輯：姜華來源： Python爬蟲與數據挖掘

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

手把手教你使用Scrapy框架來爬取北京新發地價格行情（實戰篇）

前言

實戰演練

爬取分析

創建Spider爬蟲

提取數據

總結