成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于Scrapy框架的微博評論爬蟲實戰

開發 后端
今天來跟大家分享一下,基于Scrapy的微博爬蟲應該怎么寫。

 [[434087]]

大家好,我是菜鳥哥!

今天來跟大家分享一下,基于Scrapy的微博爬蟲應該怎么寫。

之前分享過一個Requests對微博評論的爬蟲,已經對頁面進行了全面的分析,本文主要注重對數據采集、存儲和文件配置進行分析講解。

一、Scrapy簡介

首先,我們需要對Scrapy框架有一個簡單的了解,不然在你書寫代碼的時候會非常的麻煩。

01 安裝

使用pip對Scrapy進行安裝,代碼如下:

  1. pip install scrapy 

02 創建項目

安裝好Scrapy框架之后,我們需要通過終端,來創建一個Scrapy項目,命令如下:

  1. scrapy startproject weibo 

創建好后的項目結構,如下圖:

這里我們來簡單介紹一下結構中我們用到的部分的作用,有助于我們后面書寫代碼。

spiders是存放爬蟲程序的文件夾,將寫好的爬蟲程序放到該文件夾中。items用來定義數據,類似于字典的功能。settings是設置文件,包含爬蟲項目的設置信息。pipelines用來對items中的數據進行進一步處理,如:清洗、存儲等。

二、數據采集

經過上面的簡單介紹,我們現在對Scrapy框架有了簡單的了解,下面我們開始寫數據采集部分的代碼。

01. 定義數據

首先,我們對數據存儲的網頁進行觀察,方便我們對獲取數據進行定義

通過對網頁中數據存儲的形式進行觀察后,items.py中對數據的定義方式為:

  1. data = scrapy.Field() 

02. 編輯爬蟲

接下來我們在spiders文件夾里面創建一個weibo.py爬蟲程序用以書寫請求的爬蟲代碼

代碼如下: 

  1. import scrapy  
  2. class WeiboSpider(scrapy.Spider):  
  3.    name = 'weibo'  #用于啟動微博程序  
  4.    allowed_domains = ['m.weibo.cn']  #定義爬蟲爬取網站的域名  
  5.    start_urls = ['https://m.weibo.cn/comments/hotflow?id=4700480024348767&mid=4700480024348767&max_id_type=0']  #定義起始網頁的網址  
  6.   for i in res['data']['data']:  
  7.      weibo_item = WeiboItem()  
  8.      weibo_item['data'] = re.sub(r'<[^>]*>', '', i['text'])  
  9.      # start_url = ['https://m.weibo.cn/comments/hotflow?id=4700480024348767&mid=4700480024348767&'+str(max_id)+'&max_id_type=0']  
  10.      yield weibo_item  #將數據回傳給items 

03. 遍歷爬取

學過Requests對微博評論進行爬蟲的朋友應該知道,微博評論的URL構造方式,這里我直接展示構造代碼: 

  1. max_id_type = res['data']['max_id_type']  
  2. if int(max_id_type) == 1:  
  3.    new_url = 'https://m.weibo.cn/comments/hotflow?id=4700480024348767&mid=4700480024348767&max_id=' + str(  
  4.        max_id) + '&max_id_type=1 
  5. else:  
  6.    new_url = 'https://m.weibo.cn/comments/hotflow?id=4700480024348767&mid=4700480024348767&max_id=' + str(  
  7.        max_id) + '&max_id_type=0

三、數據存儲

光爬取下來數據是不行的,我們還需要對數據進行存儲,這里我采用的是csv文件,來對評論數據進行存儲,代碼如下: 

  1. class CsvItemExporterPipeline(object):  
  2.    def __init__(self):  
  3.        # 創建接收文件,初始化exporter屬性  
  4.        self.file = open('text.csv','ab')  
  5.        self.exporter = CsvItemExporter(self.file,fields_to_export=['data'])  
  6.        self.exporter.start_exporting() 

四、程序配置

光寫上面的代碼是無法爬取到評論的,因為我們還沒有對整個程序進行有效的配置,下面我們就在settings.py里面進行配置。

01. 不遵循robots協議

需要對robts協議的遵守進行修改,如果我們遵循網頁的robots協議的話,那無法進行爬取,代碼如下: 

  1. # Obey robots.txt rules  
  2. ROBOTSTXT_OBEY = False 

02. 使用自定義cookie

我們知道,想要爬取微博評論,需要帶上自己的cookie用以信息校驗,因為我們的cookie是在headers中包裹著的,所以我們需要將COOKIES_ENABLED改為False,代碼如下: 

  1. # Disable cookies (enabled by default)  
  2. COOKIES_ENABLED = False 

03. 打開管道

想要進行數據存儲,還需要在配置中,打開通道,用以數據傳輸,代碼如下: 

  1. # Configure item pipelines  
  2. # See https://docs.scrapy.org/en/latest/topics/item-pipeline.html  
  3. ITEM_PIPELINES = {  
  4.   'weibo.pipelines.CsvItemExporterPipeline': 1,  
  5.   'weibo.pipelines.WeiboPipeline': 300,  

五、啟動程序

我們在spiders同級的的目錄下創建一個wb_main.py文件,便于我們在編輯器中啟動程序,代碼如下: 

  1. from scrapy import cmdline  
  2. #導入cmdline模塊,可以實現控制終端命令行。  
  3. cmdline.execute(['scrapy','crawl','weibo'])  
  4. #用execute()方法,輸入運行scrapy的命令。 

六、總結

本文詳細的介紹了,如何用Scrapy框架來對微博評論進行爬取,建議大家動手實操一下,便于理解。本文僅供學習參考,不做它用。 

 

責任編輯:龐桂玉 來源: 菜鳥學Python
相關推薦

2021-11-08 14:38:50

框架Scrapy 爬蟲

2015-11-24 09:43:37

微博Docker混合云

2017-11-29 15:21:53

PythonScrapy爬蟲

2021-07-01 22:05:31

Python微博評論

2017-05-15 21:00:15

大數據Scrapy爬蟲框架

2018-08-08 11:40:24

ScrapyRequest網絡爬蟲

2015-05-11 17:30:22

蘋果庫克

2021-06-02 22:18:11

Python關鍵詞微博

2021-09-30 09:00:34

Scrapy網絡爬蟲Python

2021-01-08 09:07:19

Scrapy框架爬蟲

2021-07-13 08:09:34

微博推特評論

2020-12-07 11:23:32

Scrapy爬蟲Python

2017-09-16 17:45:32

數據采集Scrapy爬蟲

2021-04-12 07:36:15

Scrapy爬蟲框架

2020-04-27 21:19:21

小米MIUI12

2021-05-18 13:25:28

feapder爬蟲Python

2017-10-10 13:13:48

2020-03-01 17:14:22

數據MySQL數據庫

2018-01-02 16:30:27

Python爬蟲微博移動端

2016-04-06 10:02:23

手機微博運維監控
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品成人av | 精品国产欧美一区二区 | 亚洲在线 | 天天操天天射天天舔 | 欧美成人一区二免费视频软件 | 成人欧美一区二区三区黑人孕妇 | 人干人人 | 久久久久国产一区二区三区四区 | 中文字幕在线观看成人 | 人人操日日干 | 日本三级网址 | 欧美黄色片 | 日韩欧美在线一区 | av永久| 高清一区二区三区 | 亚洲va欧美va人人爽午夜 | 国产91观看| 国产精品美女一区二区三区 | 亚洲视频1区 | 亚洲成人一区 | 99久久精品一区二区毛片吞精 | 日本高清不卡视频 | 日韩精品一区二区三区久久 | 狠狠亚洲 | 成人免费观看视频 | 成人不卡| 污污的网站在线观看 | h片在线看 | 欧美视频1区 | 9色网站 | 午夜视频一区二区三区 | 欧美精品一区二区三区四区 在线 | 国产玖玖 | 亚洲精品乱码久久久久久蜜桃 | 亚洲婷婷六月天 | 黄色一级大片在线观看 | 亚洲国产午夜 | 久久精品国产免费看久久精品 | 精品一区av| 欧美aaaaaaaaaa| 国产午夜精品视频 |