成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<ol id="kysio"><center id="kysio"></center></ol>

<blockquote id="kysio"></blockquote>

<ul id="kysio"><kbd id="kysio"></kbd></ul>

<blockquote id="kysio"></blockquote>

<span id="kysio"></span>

<span id="kysio"></span>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

如何快速爬取B站全站視頻信息

作者：chenjiandongx 2017-11-17 19:56:46

B 站我想大家都熟悉吧，其實 B 站的爬蟲網上一搜一大堆。不過紙上得來終覺淺，絕知此事要躬行，我碼故我在。最終爬取到數據總量為 760萬條。

B 站我想大家都熟悉吧，其實 B 站的爬蟲網上一搜一大堆。不過紙上得來終覺淺，絕知此事要躬行，我碼故我在。最終爬取到數據總量為 760萬條。

準備工作

首先打開 B 站，隨便在首頁找一個視頻點擊進去。常規操作，打開開發者工具。這次是目標是通過爬取 B 站提供的 api 來獲取視頻信息，不去解析網頁，解析網頁的速度太慢了而且容易被封 ip。

勾選 JS 選項，F5 刷新

找到了 api 的地址

復制下來，去除沒必要的內容，得到 https://api.bilibili.com/x/web-interface/archive/stat?aid=15906633 ，用瀏覽器打開，會得到如下的 json 數據

動手寫碼

好了，到這里代碼就可以碼起來了，通過 request 不斷的迭代獲取數據，為了讓爬蟲更高效，可以利用多線程。

核心代碼

result = [] 
req = requests.get(url, headers=headers, timeout=6).json() 
time.sleep(0.6)     # 延遲，避免太快 ip 被封 
try: 
    data = req['data'] 
    video = Video( 
        data['aid'],        # 視頻編號 
        data['view'],       # 播放量 
        data['danmaku'],    # 彈幕數 
        data['reply'],      # 評論數 
        data['favorite'],   # 收藏數 
        data['coin'],       # 硬幣數 
        data['share']       # 分享數 
    ) 
    with lock: 
        result.append(video) 
except: 
    pass

迭代爬取

urls = ["http://api.bilibili.com/archive_stat/stat?aid={}".format(i)  
    for i in range(10000)] 
 with futures.ThreadPoolExecutor(32) as executor:    # 多線程 
     executor.map(run, urls)

不要一次性爬取全部鏈接，我是利用兩個進程，這樣就是多進程+多線程了。一個進程一次大概爬取 50w 條數據。100w 條數據的話大概一個多小時吧。分多次爬取，分別將數據保存為不同的文件名，最后再匯總。

運行的效果大概是這樣的，數字是已經已經爬取了多少條鏈接，其實完全可以在一天或者兩天內就把全站信息爬完的。

至于爬取后要怎么處理就看自己愛好了，我是先保存為 csv 文件，然后再匯總插入到數據庫。

匯總的 csv 文件

數據庫表

由于這些內容是我在幾個月前爬取的，所以數據其實有些滯后了。

數據總量

查詢播放量前十的視頻

查詢回復量前十的視頻

各種花樣查詢任君選擇??！視頻的鏈接為 https://www.bilibili.com/video/av + v_aid

詳細代碼請移步至 bili.py

對數據感興趣的話可以郵箱聯系我，可以打包贈與。

項目地址：chenjiandongx/bili-spider 歡迎圍觀 vfghjklp;]\78+

責任編輯：龐桂玉來源：知乎

爬蟲視頻信息數據庫

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：网站黄色在线免费观看 | 999精彩视频 | 欧美日韩国产一区二区 | 午夜免费观看网站 | 在线观看国产www | 欧美午夜精品理论片a级按摩 | 国产精品特级毛片一区二区三区 | 国产乱码精品一区二区三区中文 | 欧美日韩在线一区二区三区 | 狠狠色网| 在线不卡视频 | 国产精品久久久久久久岛一牛影视 | 亚洲精品国产a久久久久久中文字幕一区二区三区四区五区 | 国产成人jvid在线播放 | 一区二区三区高清 | 性在线 | 综合精品| 国产成人久久av免费高清密臂 | 午夜精品一区二区三区在线观看 | 久久综合狠狠综合久久 | 久久69精品久久久久久久电影好 | 日韩精品一区二区三区在线播放 | 日本午夜在线视频 | 黑人巨大精品欧美一区二区一视频 | 国产一区免费 | 国产高清在线精品 | 亚洲一区二区成人 | 成人一区二区三区在线观看 | 成人免费视频网站在线观看 | 日韩精品久久久久久 | 久久a久久 | 天天躁日日躁狠狠很躁 | 久久精品91久久久久久再现 | 精品国产第一区二区三区 | 91在线视频 | 欧洲一区视频 | 国产精品99久久久久久大便 | 日韩成人高清 | 日韩国产欧美 | 99久久国产综合精品麻豆 | 作爱视频免费看 |

<abbr id="kcbvo"></abbr>