成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何快速爬取B站全站視頻信息

開發
B 站我想大家都熟悉吧,其實 B 站的爬蟲網上一搜一大堆。不過 紙上得來終覺淺,絕知此事要躬行,我碼故我在。最終爬取到數據總量為 760萬 條。

B 站我想大家都熟悉吧,其實 B 站的爬蟲網上一搜一大堆。不過 紙上得來終覺淺,絕知此事要躬行,我碼故我在。最終爬取到數據總量為 760萬 條。

準備工作

首先打開 B 站,隨便在首頁找一個視頻點擊進去。常規操作,打開開發者工具。這次是目標是通過爬取 B 站提供的 api 來獲取視頻信息,不去解析網頁,解析網頁的速度太慢了而且容易被封 ip。

勾選 JS 選項,F5 刷新

找到了 api 的地址

復制下來,去除沒必要的內容,得到 https://api.bilibili.com/x/web-interface/archive/stat?aid=15906633 ,用瀏覽器打開,會得到如下的 json 數據

動手寫碼

好了,到這里代碼就可以碼起來了,通過 request 不斷的迭代獲取數據,為了讓爬蟲更高效,可以利用多線程。

核心代碼

  1. result = [] 
  2. req = requests.get(url, headers=headers, timeout=6).json() 
  3. time.sleep(0.6)     # 延遲,避免太快 ip 被封 
  4. try: 
  5.     data = req['data'
  6.     video = Video( 
  7.         data['aid'],        # 視頻編號 
  8.         data['view'],       # 播放量 
  9.         data['danmaku'],    # 彈幕數 
  10.         data['reply'],      # 評論數 
  11.         data['favorite'],   # 收藏數 
  12.         data['coin'],       # 硬幣數 
  13.         data['share']       # 分享數 
  14.     ) 
  15.     with lock: 
  16.         result.append(video) 
  17. except
  18.     pass 

迭代爬取

  1. urls = ["http://api.bilibili.com/archive_stat/stat?aid={}".format(i)  
  2.     for i in range(10000)] 
  3.  with futures.ThreadPoolExecutor(32) as executor:    # 多線程 
  4.      executor.map(run, urls) 

不要一次性爬取全部鏈接,我是利用兩個進程,這樣就是多進程+多線程了。一個進程一次大概爬取 50w 條數據。100w 條數據的話大概一個多小時吧。分多次爬取,分別將數據保存為不同的文件名,最后再匯總。

運行的效果大概是這樣的,數字是已經已經爬取了多少條鏈接,其實完全可以在一天或者兩天內就把全站信息爬完的。

至于爬取后要怎么處理就看自己愛好了,我是先保存為 csv 文件,然后再匯總插入到數據庫。

匯總的 csv 文件

 

數據庫表

 

由于這些內容是我在幾個月前爬取的,所以數據其實有些滯后了。

數據總量

 

查詢播放量前十的視頻

查詢回復量前十的視頻

各種花樣查詢任君選擇??!視頻的鏈接為 https://www.bilibili.com/video/av + v_aid

詳細代碼請移步至 bili.py

對數據感興趣的話可以郵箱聯系我,可以打包贈與。

 

項目地址:chenjiandongx/bili-spider 歡迎圍觀  vfghjklp;]\78+

責任編輯:龐桂玉 來源: 知乎
相關推薦

2018-01-04 09:20:55

python爬蟲視頻彈幕

2021-06-02 15:10:20

PythonScrapy視頻

2020-12-02 09:42:42

PythonApp抖音視頻

2013-07-01 15:11:19

iOS

2025-03-05 00:00:55

2009-12-09 17:19:38

PHP全站權限驗證

2017-08-27 11:22:13

視頻信訪互聯網維穩

2018-01-16 18:43:18

爬蟲工具電影天堂

2021-07-14 08:54:12

B站A站服務器

2021-03-01 21:32:49

HTTP2 QUIC

2024-03-01 18:52:31

視頻超分算法

2020-10-12 08:19:43

Python爬蟲網頁數據

2021-09-08 10:22:36

B端C端設計師

2018-11-26 18:57:58

Python數據分析爬取

2022-09-15 15:18:23

計算實踐

2022-12-07 07:35:20

B站裁員隱情

2024-02-28 07:50:36

大數據標簽系統AB 實驗

2023-03-29 23:34:16

2023-12-26 12:18:34

2015-12-29 13:32:41

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 网站黄色在线免费观看 | 999精彩视频 | 欧美日韩国产一区二区 | 午夜免费观看网站 | 在线观看国产www | 欧美午夜精品理论片a级按摩 | 国产精品特级毛片一区二区三区 | 国产乱码精品一区二区三区中文 | 欧美日韩在线一区二区三区 | 狠狠色网| 在线不卡视频 | 国产精品久久久久久久岛一牛影视 | 亚洲精品国产a久久久久久 中文字幕一区二区三区四区五区 | 国产成人jvid在线播放 | 一区二区三区高清 | 性在线 | 综合精品| 国产成人久久av免费高清密臂 | 午夜精品一区二区三区在线观看 | 久久综合狠狠综合久久 | 久久69精品久久久久久久电影好 | 日韩精品一区二区三区在线播放 | 日本午夜在线视频 | 黑人巨大精品欧美一区二区一视频 | 国产一区免费 | 国产高清在线精品 | 亚洲一区二区成人 | 成人一区二区三区在线观看 | 成人免费视频网站在线观看 | 日韩精品久久久久久 | 久久a久久 | 天天躁日日躁狠狠很躁 | 久久精品91久久久久久再现 | 精品国产第一区二区三区 | 91在线视频 | 欧洲一区视频 | 国产精品99久久久久久大便 | 日韩成人高清 | 日韩国产欧美 | 99久久国产综合精品麻豆 | 作爱视频免费看 |