成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<u id="cgvtz"><rt id="cgvtz"></rt></u>

<ol id="cgvtz"></ol>

<span id="cgvtz"></span>

<output id="cgvtz"></output>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

手把手教你用Scrapy爬蟲框架爬取食品論壇數(shù)據(jù)并存入數(shù)據(jù)庫(kù)

作者：杯酒先生 2021-04-30 09:05:37

安全應(yīng)用安全

大家好，我是杯酒先生，這是我第一次寫這種分享項(xiàng)目的文章，可能很水，很不全面，而且肯定存在說(shuō)錯(cuò)的地方，希望大家可以評(píng)論里加以指點(diǎn)，不勝感激!

大家好，我是杯酒先生，這是我第一次寫這種分享項(xiàng)目的文章，可能很水，很不全面，而且肯定存在說(shuō)錯(cuò)的地方，希望大家可以評(píng)論里加以指點(diǎn)，不勝感激!

一、前言

網(wǎng)絡(luò)爬蟲(又稱為網(wǎng)頁(yè)蜘蛛，網(wǎng)絡(luò)機(jī)器人)，是一種按照一定的規(guī)則，自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲。------百度百科

說(shuō)人話就是，爬蟲是用來(lái)海量規(guī)則化獲取數(shù)據(jù)，然后進(jìn)行處理和運(yùn)用，在大數(shù)據(jù)、金融、機(jī)器學(xué)習(xí)等等方面都是必須的支撐條件之一。

目前在一線城市中，爬蟲的崗位薪資待遇都是比較客觀的，之后提升到中、高級(jí)爬蟲工程師，數(shù)據(jù)分析師、大數(shù)據(jù)開發(fā)崗位等，都是很好的過(guò)渡。

二、項(xiàng)目目標(biāo)

本此介紹的項(xiàng)目其實(shí)不用想的太過(guò)復(fù)雜，最終要實(shí)現(xiàn)的目標(biāo)也就是將帖子的每條評(píng)論爬取到數(shù)據(jù)庫(kù)中，并且做到可以更新數(shù)據(jù)，防止重復(fù)爬取，反爬等措施。

三、項(xiàng)目準(zhǔn)備

這部分主要是介紹本文需要用到的工具，涉及的庫(kù)，網(wǎng)頁(yè)等信息等

軟件：PyCharm

需要的庫(kù)：Scrapy， selenium， pymongo， user_agent，datetime

目標(biāo)網(wǎng)站：

http://bbs.foodmate.net

插件：chromedriver(版本要對(duì))

四、項(xiàng)目分析

1、確定爬取網(wǎng)站的結(jié)構(gòu)

簡(jiǎn)而言之：確定網(wǎng)站的加載方式，怎樣才能正確的一級(jí)一級(jí)的進(jìn)入到帖子中抓取數(shù)據(jù)，使用什么格式保存數(shù)據(jù)等。

其次，觀察網(wǎng)站的層級(jí)結(jié)構(gòu)，也就是說(shuō)，怎么根據(jù)板塊，一點(diǎn)點(diǎn)進(jìn)入到帖子頁(yè)面中，這對(duì)本次爬蟲任務(wù)非常重要，也是主要編寫代碼的部分。

2、如何選擇合適的方式爬取數(shù)據(jù)?

目前我知道的爬蟲方法大概有如下(不全，但是比較常用)：

1)request框架：運(yùn)用這個(gè)http庫(kù)可以很靈活的爬取需要的數(shù)據(jù)，簡(jiǎn)單但是過(guò)程稍微繁瑣，并且可以配合抓包工具對(duì)數(shù)據(jù)進(jìn)行獲取。但是需要確定headers頭以及相應(yīng)的請(qǐng)求參數(shù)，否則無(wú)法獲取數(shù)據(jù);很多app爬取、圖片視頻爬取隨爬隨停，比較輕量靈活，并且高并發(fā)與分布式部署也非常靈活，對(duì)于功能可以更好實(shí)現(xiàn)。

2)scrapy框架：scrapy框架可以說(shuō)是爬蟲最常用，最好用的爬蟲框架了，優(yōu)點(diǎn)很多：scrapy 是異步的;采取可讀性更強(qiáng)的 xpath 代替正則;強(qiáng)大的統(tǒng)計(jì)和 log 系統(tǒng);同時(shí)在不同的 url 上爬行;支持 shell 方式，方便獨(dú)立調(diào)試;支持寫 middleware方便寫一些統(tǒng)一的過(guò)濾器;可以通過(guò)管道的方式存入數(shù)據(jù)庫(kù)等等。這也是本次文章所要介紹的框架(結(jié)合selenium庫(kù))。

五、項(xiàng)目實(shí)現(xiàn)

1、第一步：確定網(wǎng)站類型

首先解釋一下是什么意思，看什么網(wǎng)站，首先要看網(wǎng)站的加載方式，是靜態(tài)加載，還是動(dòng)態(tài)加載(js加載)，還是別的方式;根據(jù)不一樣的加載方式需要不同的辦法應(yīng)對(duì)。然后我們觀察今天爬取的網(wǎng)站，發(fā)現(xiàn)這是一個(gè)有年代感的論壇，首先猜測(cè)是靜態(tài)加載的網(wǎng)站;我們開啟組織 js 加載的插件，如下圖所示。

刷新之后發(fā)現(xiàn)確實(shí)是靜態(tài)網(wǎng)站(如果可以正常加載基本都是靜態(tài)加載的)。

2、第二步：確定層級(jí)關(guān)系

其次，我們今天要爬取的網(wǎng)站是食品論壇網(wǎng)站，是靜態(tài)加載的網(wǎng)站，在之前分析的時(shí)候已經(jīng)了解了，然后是層級(jí)結(jié)構(gòu)：

大概是上面的流程，總共有三級(jí)遞進(jìn)訪問(wèn)，之后到達(dá)帖子頁(yè)面，如下圖所示。

部分代碼展示：

一級(jí)界面：

def parse(self, response): 
    self.logger.info("已進(jìn)入網(wǎng)頁(yè)！") 
    self.logger.info("正在獲取版塊列表！") 
    column_path_list = response.css('#ct > div.mn > div:nth-child(2) > div')[:-1] 
    for column_path in column_path_list: 
        col_paths = column_path.css('div > table > tbody > tr > td > div > a').xpath('@href').extract() 
        for path in col_paths: 
            block_url = response.urljoin(path) 
            yield scrapy.Request( 
                url=block_url, 
                callback=self.get_next_path, 
            )

二級(jí)界面：

def get_next_path(self, response): 
    self.logger.info("已進(jìn)入版塊！") 
    self.logger.info("正在獲取文章列表！") 
    if response.url == 'http://www.foodmate.net/know/': 
        pass 
    else: 
        try: 
            nums = response.css('#fd_page_bottom > div > label > span::text').extract_first().split(' ')[-2] 
        except: 
            nums = 1 
        for num in range(1, int(nums) + 1): 
            tbody_list = response.css('#threadlisttableid > tbody') 
            for tbody in tbody_list: 
                if 'normalthread' in str(tbody): 
                    item = LunTanItem() 
                    item['article_url'] = response.urljoin( 
                        tbody.css('* > tr > th > a.s.xst').xpath('@href').extract_first()) 
                    item['type'] = response.css( 
                        '#ct > div > div.bm.bml.pbn > div.bm_h.cl > h1 > a::text').extract_first() 
                    item['title'] = tbody.css('* > tr > th > a.s.xst::text').extract_first() 
                    item['spider_type'] = "論壇" 
                    item['source'] = "食品論壇" 
                    if item['article_url'] != 'http://bbs.foodmate.net/': 
                        yield scrapy.Request( 
                            url=item['article_url'], 
                            callback=self.get_data, 
                            meta={'item': item, 'content_info': []} 
                        ) 
        try: 
            callback_url = response.css('#fd_page_bottom > div > a.nxt').xpath('@href').extract_first() 
            callback_url = response.urljoin(callback_url) 
            yield scrapy.Request( 
                url=callback_url, 
                callback=self.get_next_path, 
            ) 
        except IndexError: 
            pass

三級(jí)界面：

def get_data(self, response): 
    self.logger.info("正在爬取論壇數(shù)據(jù)！") 
    item = response.meta['item'] 
    content_list = [] 
    divs = response.xpath('//*[@id="postlist"]/div') 
    user_name = response.css('div > div.pi > div:nth-child(1) > a::text').extract() 
    publish_time = response.css('div.authi > em::text').extract() 
    floor = divs.css('* strong> a> em::text').extract() 
    s_id = divs.xpath('@id').extract() 
    for i in range(len(divs) - 1): 
        content = '' 
        try: 
 
            strong = response.css('#postmessage_' + s_id[i].split('_')[-1] + '').xpath('string(.)').extract() 
            for s in strong: 
                content += s.split(';')[-1].lstrip('\r\n') 
            datas = dict(content=content,  # 內(nèi)容 
                         reply_id=0,  # 回復(fù)的樓層,默認(rèn)0 
                         user_name=user_name[i],  # ⽤戶名 
                         publish_time=publish_time[i].split('于 ')[-1],  # %Y-%m-%d %H:%M:%S' 
                         id='#' + floor[i],  # 樓層 
                         ) 
            content_list.append(datas) 
        except IndexError: 
            pass 
    item['content_info'] = response.meta['content_info'] 
    item['scrawl_time'] = datetime.now().strftime('%Y-%m-%d %H:%M:%S') 
    item['content_info'] += content_list 
 
    data_url = response.css('#ct > div.pgbtn > a').xpath('@href').extract_first() 
    if data_url != None: 
        data_url = response.urljoin(data_url) 
        yield scrapy.Request( 
            url=data_url, 
            callback=self.get_data, 
            meta={'item': item, 'content_info': item['content_info']} 
        ) 
    else: 
        item['scrawl_time'] = datetime.now().strftime('%Y-%m-%d %H:%M:%S') 
        self.logger.info("正在存儲(chǔ)！") 
        print('儲(chǔ)存成功') 
        yield item

3、第三步：確定爬取方法

由于是靜態(tài)網(wǎng)頁(yè)，首先決定采用的是scrapy框架直接獲取數(shù)據(jù)，并且通過(guò)前期測(cè)試發(fā)現(xiàn)方法確實(shí)可行，不過(guò)當(dāng)時(shí)年少輕狂，小看了網(wǎng)站的保護(hù)措施，由于耐心有限，沒(méi)有加上定時(shí)器限制爬取速度，導(dǎo)致我被網(wǎng)站加了限制，并且網(wǎng)站由靜態(tài)加載網(wǎng)頁(yè)變?yōu)椋簞?dòng)態(tài)加載網(wǎng)頁(yè)驗(yàn)證算法之后再進(jìn)入到該網(wǎng)頁(yè)，直接訪問(wèn)會(huì)被后臺(tái)拒絕。

但是這種問(wèn)題怎么會(huì)難道我這小聰明，經(jīng)過(guò)我短暫地思考(1天)，我將方案改為scrapy框架 + selenium庫(kù)的方法，通過(guò)調(diào)用chromedriver，模擬訪問(wèn)網(wǎng)站，等網(wǎng)站加載完了再爬取不就完了，后續(xù)證明這個(gè)方法確實(shí)可行，并且效率也不錯(cuò)。

實(shí)現(xiàn)部分代碼如下：

def process_request(self, request, spider): 
    chrome_options = Options() 
    chrome_options.add_argument('--headless')  # 使用無(wú)頭谷歌瀏覽器模式 
    chrome_options.add_argument('--disable-gpu') 
    chrome_options.add_argument('--no-sandbox') 
    # 指定谷歌瀏覽器路徑 
    self.driver = webdriver.Chrome(chrome_options=chrome_options, 
                                   executable_path='E:/pycharm/workspace/爬蟲/scrapy/chromedriver') 
    if request.url != 'http://bbs.foodmate.net/': 
        self.driver.get(request.url) 
        html = self.driver.page_source 
        time.sleep(1) 
        self.driver.quit() 
        return scrapy.http.HtmlResponse(url=request.url, body=html.encode('utf-8'), encoding='utf-8', 
                                        request=request)

4、第四步：確定爬取數(shù)據(jù)的儲(chǔ)存格式

這部分不用多說(shuō)，根據(jù)自己需求，將需要爬取的數(shù)據(jù)格式設(shè)置在items.py中。在工程中引用該格式保存即可：

class LunTanItem(scrapy.Item): 
    """ 
        論壇字段 
    """ 
    title = Field()  # str: 字符類型 | 論壇標(biāo)題 
    content_info = Field()  # str: list類型 | 類型list: [LunTanContentInfoItem1, LunTanContentInfoItem2] 
    article_url = Field()  # str: url | 文章鏈接 
    scrawl_time = Field()  # str: 時(shí)間格式 參照如下格式 2019-08-01 10:20:00 | 數(shù)據(jù)爬取時(shí)間 
    source = Field()  # str: 字符類型 | 論壇名稱 eg: 未名BBS, 水木社區(qū), 天涯論壇 
    type = Field()  # str: 字符類型 | 板塊類型 eg: '財(cái)經(jīng)', '體育', '社會(huì)' 
    spider_type = Field()  # str: forum | 只能寫 'forum'

5、第五步：確定保存數(shù)據(jù)庫(kù)

本次項(xiàng)目選擇保存的數(shù)據(jù)庫(kù)為mongodb，由于是非關(guān)系型數(shù)據(jù)庫(kù)，優(yōu)點(diǎn)顯而易見，對(duì)格式要求沒(méi)有那么高，可以靈活儲(chǔ)存多維數(shù)據(jù)，一般是爬蟲優(yōu)選數(shù)據(jù)庫(kù)(不要和我說(shuō)redis，會(huì)了我也用，主要是不會(huì))

代碼：

import pymongo 
 
class FMPipeline(): 
    def __init__(self): 
        super(FMPipeline, self).__init__() 
        # client = pymongo.MongoClient('139.217.92.75') 
        client = pymongo.MongoClient('localhost') 
        db = client.scrapy_FM 
        self.collection = db.FM 
 
    def process_item(self, item, spider): 
        query = { 
            'article_url': item['article_url'] 
        } 
        self.collection.update_one(query, {"$set": dict(item)}, upsert=True) 
        return item

這時(shí)，有聰明的盆友就會(huì)問(wèn)：如果運(yùn)行兩次爬取到了一樣的數(shù)據(jù)怎么辦呢?(換句話說(shuō)就是查重功能)

這個(gè)問(wèn)題之前我也沒(méi)有考慮，后來(lái)在我詢問(wèn)大佬的過(guò)程中知道了，在我們存數(shù)據(jù)的時(shí)候就已經(jīng)做完這件事了，就是這句：

query = { 
    'article_url': item['article_url'] 
} 
self.collection.update_one(query, {"$set": dict(item)}, upsert=True)

通過(guò)帖子的鏈接確定是否有數(shù)據(jù)爬取重復(fù)，如果重復(fù)可以理解為將其覆蓋，這樣也可以做到更新數(shù)據(jù)。

6、其他設(shè)置

像多線程、headers頭，管道傳輸順序等問(wèn)題，都在settings.py文件中設(shè)置，具體可以參考小編的項(xiàng)目去看，這里不再贅述。

七、效果展示

1、點(diǎn)擊運(yùn)行，結(jié)果顯示在控制臺(tái)，如下圖所示。

2、中間會(huì)一直向隊(duì)列中堆很多帖子的爬取任務(wù)，然后多線程處理，我設(shè)置的是16線程，速度還是很可觀的。

3、數(shù)據(jù)庫(kù)數(shù)據(jù)展示：

content_info中存放著每個(gè)帖子的全部留言以及相關(guān)用戶的公開信息。

八、總結(jié)

1、這篇文章主要給大家介紹了食品網(wǎng)站的數(shù)據(jù)采集和存儲(chǔ)過(guò)程，詳解了如何分析網(wǎng)頁(yè)結(jié)構(gòu)、爬蟲策略、網(wǎng)站類型、層級(jí)關(guān)系、爬蟲方法和數(shù)據(jù)存儲(chǔ)過(guò)程，最終實(shí)現(xiàn)將帖子的每條評(píng)論爬取到數(shù)據(jù)庫(kù)中，并且做到可以更新數(shù)據(jù)，防止重復(fù)爬取，反爬等，干貨滿滿。

2、本次項(xiàng)目總的來(lái)說(shuō)，不是特別難搞，只要思路對(duì)了，找到了數(shù)據(jù)規(guī)則，爬起來(lái)可以說(shuō)易如反掌，覺得難只是之前沒(méi)有完整走過(guò)流程，有了這次比較水的介紹，希望能對(duì)你有所幫助，那將是我最大的榮幸。

3、遇到問(wèn)題首先想的不是問(wèn)同事，朋友，老師，而是去谷歌，百度，看有沒(méi)有相似的情況，看別人的經(jīng)歷，一定要學(xué)會(huì)自己發(fā)現(xiàn)問(wèn)題，思考問(wèn)題，解決問(wèn)題，這對(duì)于之后工作有非常大的幫助(我之前就被說(shuō)過(guò)還沒(méi)有脫離學(xué)生時(shí)代，就是我喜歡問(wèn)同事)，等網(wǎng)上查詢了一定資料了，還是沒(méi)有頭緒，再去問(wèn)別人，別人也會(huì)比較愿意幫助你的~

我是杯酒先生，最后分享我的座右銘給大家：保持獨(dú)立思考，不卑不亢不慫。

最后需要本文項(xiàng)目代碼的小伙伴，請(qǐng)?jiān)诠娞?hào)后臺(tái)回復(fù)“食品論壇”關(guān)鍵字進(jìn)行獲取，如果在運(yùn)行過(guò)程中有遇到任何問(wèn)題，請(qǐng)隨時(shí)留言或者加小編好友，小編看到會(huì)幫助大家解決bug噢!

責(zé)任編輯：武曉燕來(lái)源： Python爬蟲與數(shù)據(jù)挖掘

爬蟲框架數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：欧美激情a∨在线视频播放成人免费共享视频 | 精品国产一区二区三区久久久蜜月 | 一区精品在线观看 | 99久久婷婷 | 成人在线观看免费 | 伊人伊人 | 国产精品一区一区 | 日韩精品免费视频 | 国产色婷婷精品综合在线手机播放 | 成人性视频免费网站 | 欧美精品二区三区 | 99久9| 一区二区三区国产 | 久久久精品视频一区二区三区 | 成人午夜在线 | 久久精品国产久精国产 | 亚洲天堂av网 | 狠狠入ady亚洲精品经典电影 | 拍真实国产伦偷精品 | 欧美区日韩区 | 天堂中文字幕av | 在线看av的网址 | 伊大人久久 | 日韩一区二区三区四区五区 | 亚洲免费精品一区 | 亚洲高清一区二区三区 | 五月婷婷色 | 日韩电影免费在线观看中文字幕 | 一区二区免费在线 | 亚洲欧美日韩久久 | 久久99精品久久久久 | 中文字幕丁香5月 | 99视频 | 91国产精品在线 | 精品视频在线播放 | 无人区国产成人久久三区 | 久久久xx| 国产欧美一区二区三区久久手机版 | 精品欧美一区二区三区久久久 | 色婷婷国产精品 | 国产精品美女久久久久久久久久久 |

<rp id="mlzqn"></rp>

<blockquote id="mlzqn"></blockquote>