用Python爬取了8262條微博評論,終于知道今天的微博評論為什么太好哭了!
本文轉載自微信公眾號「志斌的python筆記」,作者志斌。轉載本文請聯系志斌的python筆記公眾號。
大家好,我是志斌~
在此建黨一百周年之際,祝愿我們的黨生日快樂,祝愿我們的祖國繁榮昌盛!
剛剛志斌打開微博,發現熱搜第一條是“今天的微博評論太好哭了“,它有263w+的熱度。 于是志斌將這條微博下的評論,給全部爬取了下來,并做成詞云圖進行展示,看看網友們到底評論了什么,讓人非常好哭!
需要源碼的讀者,加志斌微信獲取哈~
01數據采集
志斌在之前的兩篇文章中,詳細的介紹了如何獲取微博評論,有興趣的讀者可以看看這兩篇文章批量爬取不同微博下的評論!爬取微博下全部評論數據~。這里志斌直接展示核心代碼了,代碼如下:
- for page in range(1,10000):
- if page == 1 :
- params = (
- ('id', '4654152979845247'),
- ('mid', '4654152979845247'),
- ('max_id_type', '0'),
- )
- #s = requests.Session()
- response = requests.get('https://m.weibo.cn/comments/hotflow', headers=headers, params=params)
- a = response.json()['data']['max_id']
- b = response.json()['data']['max_id_type']
- for i in response.json()['data']['data']:
- pinglunshijian = i['created_at']
- neirong = re.sub(r'<[^>]*>', '', i['text'])
- id = i['user']['id']
- yonghumingcheng = i['user']['screen_name']
- with open(r'71.txt', 'a', encoding='utf-8') as f:
- f.write(f'{neirong}\n')
- params = (
- ('id', '4654152979845247'),
- ('mid', '4654152979845247'),
- ('max_id', str(a)),
- ('max_id_type', str(b)),
- )
- print(f'爬取第{page}頁數據......')
- time.sleep(random.randint(1,3))
02詞云圖展示
我們一共獲取了8262條數據,對這些數據進行詞云圖繪制,我們發現盛世、祖國、華夏、中國、我們、祝福、驕傲等詞較多。看來評論里面都是祝福我們的祖國和感謝這盛世的!
志斌也點開這條熱搜看了一下,里面的評論確實很讓人淚目,尤其是這句:“我們生在國旗下,長在春風里;人民有信仰,國家有力量;目光所致皆為華夏,五星閃耀皆為信仰。”讓志斌內心久久不能平靜!
代碼如下:
- with open("71.txt",encoding='utf-8') as f:
- job_title_1 = f.read()
- contents_cut_job_title = jieba.cut(job_title_1)
- contents_list_job_title = " ".join(contents_cut_job_title)
- wc = WordCloud(stopwords=STOPWORDS.add("一個"), collocations=False,
- background_color="white",
- font_path=r"K:\蘇新詩柳楷簡.ttf",
- width=400, height=300, random_state=42,
- mask=imread('xin.jpg', pilmode="RGB")
- )
- wc.generate(contents_list_job_title)
- wc.to_file("推薦語.png")
03小結
1. 今天上午看建黨百年,聽習近平總書記的重要講話,感覺自己何其有幸,生于華夏,生于盛世,不經亂戰,作為一名光榮的中共黨員,自己以后定當不忘初心,牢記使命,以夢為馬,不負韶華!
2. 本文僅作學習參考,不做它用。