成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

爬蟲實戰 | 用Python爬取指定關鍵詞的微博~

開發 后端
前幾天學校一個老師在做微博的輿情分析找我幫她搞一個用關鍵字爬取微博的爬蟲,再加上最近很多讀者問志斌微博爬蟲的問題,今天志斌來跟大家分享一下。

[[403373]]

本文轉載自微信公眾號「志斌的python筆記」,作者 志斌。轉載本文請聯系志斌的python筆記公眾號。

大家好,我是志斌~

前幾天學校一個老師在做微博的輿情分析找我幫她搞一個用關鍵字爬取微博的爬蟲,再加上最近很多讀者問志斌微博爬蟲的問題,今天志斌來跟大家分享一下。

01分析頁面

我們此次選擇的是從移動端來對微博進行爬取。移動端的反爬就是信息校驗反爬蟲的cookie反爬蟲,所以我們首先要登陸獲取cookie。

登陸過后我們就可以獲取到自己的cookie了,有不懂的小伙伴可以看這篇文章學會Cookie,解決登錄爬取的困擾!。然后我們來觀察用戶是如何搜索微博內容的。

平時我們都是在這個地方輸入關鍵字,來進行搜索微博。

我通過在開發者模式下對這個頁面觀察發現,它每次對關鍵字發起請求后,就會返回一個XHR響應。

我們現在已經找到數據真實存在的頁面了,那就可以進行爬蟲的常規操作了。

02數據采集

在上面我們已經找到了數據存儲的真實網頁,現在我們只需對該網頁發起請求,然后提取數據即可。

01發起請求

通過對請求頭進行觀察,我們不難構造出請求代碼。

代碼如下:

  1. key = input("請輸入爬取關鍵字:"
  2. for page in range(1,10): 
  3.    params = ( 
  4.        ('containerid', f'100103type=1&q={key}'), 
  5.        ('page_type''searchall'), 
  6.        ('page', str(page)), 
  7.    ) 
  8.  
  9.    response = requests.get('https://m.weibo.cn/api/container/getIndex', headers=headers, params=params) 

02提取數據

從上面我們觀察發現這個數據可以轉化成字典來進行爬取,但是經過我實際測試發現,用正則來提取是最為簡單方便的,所以這里展示的是正則提取的方式,有興趣的讀者可以嘗試用字典方式來提取數據。代碼如下:

  1. r = response.text 
  2. title = re.findall('"page_title":"(.*?)"',r) 
  3. comments_count = re.findall('"comments_count":(.*?),',r) 
  4. attitudes_count = re.findall('"attitudes_count":(.*?),',r) 
  5. for i in range(len(title)): 
  6.    print(eval(f"'{title[i]}'"),comments_count[i],attitudes_count[i]) 

在這里有一個小問題要注意,微博的標題是用Unicode編碼的,如果直接爬取存儲,將存儲的是Unicode編碼,在這里要感謝大佬—小明哥的幫助,志斌在網上搜了好多解決方法都沒有成功,最后小明哥一個簡單的函數就給解決了,實在是佩服!

解決方案:用eval()來輸出標題,就可以將Unicode轉換成漢字了。

03小結

1. 本文詳細介紹了如何用Python指定關鍵字爬取微博,有興趣的讀者可以嘗試自己動手練習一下。

2. 本文僅供讀者學習使用,不做其他用途!

 

3. 點擊下方[在看],即可找志斌領取本文全部代碼。

 

責任編輯:武曉燕 來源: 志斌的python筆記
相關推薦

2011-05-24 10:51:18

關鍵詞

2011-05-17 16:44:13

seo

2011-06-20 14:32:59

關鍵詞

2011-06-07 18:45:41

關鍵詞

2011-06-14 19:11:38

關鍵詞

2013-08-26 15:43:40

AppStore關鍵詞開發者應用選取關鍵詞

2013-04-09 18:13:44

微信公眾平臺關鍵詞

2021-11-09 09:46:09

ScrapyPython爬蟲

2021-11-08 14:38:50

框架Scrapy 爬蟲

2011-06-19 12:20:47

長尾關鍵詞

2011-06-14 10:01:03

長尾關鍵詞

2019-12-22 13:48:26

退休科技行業大佬

2011-05-25 17:38:56

關鍵詞

2011-05-25 17:58:00

2011-06-10 13:34:17

關鍵詞

2011-07-06 18:18:01

關鍵詞密度

2011-07-12 18:26:42

關鍵詞

2011-06-10 14:13:24

關鍵詞

2024-06-13 09:05:12

2011-06-20 15:24:43

關鍵詞
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产特级毛片aaaaaa | 99久久精品免费看国产免费软件 | 国产成人午夜精品影院游乐网 | 99热免费在线 | 国产一区二区在线免费观看 | 91精品国产91久久综合桃花 | 亚洲国产精品日本 | 国产区精品视频 | 欧美成ee人免费视频 | 欧美电影一区 | 99爱在线免费观看 | 91看片免费 | 精品日韩一区 | 亚洲字幕在线观看 | 国产99久久精品一区二区永久免费 | 国产免费xxx| 国产精品免费视频一区 | 99国内精品久久久久久久 | 亚洲狠狠 | 成人综合视频在线 | 色狠狠一区 | 国产精品18毛片一区二区 | 精品久久电影 | 亚洲综合第一页 | 日韩色视频| 国产欧美日韩在线播放 | 久久免费看| 久久亚洲精品久久国产一区二区 | 999免费网站 | 日韩av大片免费看 | 玖玖免费 | av在线免费观看网址 | 精品久久久久久久久久 | 成人午夜毛片 | 欧美激情一区二区三级高清视频 | 日韩精品一区二区在线观看 | 91免费观看 | 国产高清视频一区二区 | 亚洲美女网站 | 欧美男人亚洲天堂 | 又爽又黄axxx片免费观看 |