我用Python爬取微信好友,最后發現一個大秘密
前言
你身處的環境是什么樣,你就會成為什么樣的人。現在人們日常生活基本上離不開微信,但微信不單單是一個即時通訊軟件,微信更像是虛擬的現實世界。你所處的朋友圈是怎么樣,慢慢你的思想也會變的怎么樣。最近在學習 itchat,然后就寫了一個爬蟲,爬取了我所有的微信好友的數據。并對其中的一些數據進行分析,發現了一些很有趣的事。
微信好友爬蟲
此次的爬蟲程序用到的庫有很多,其中爬取微信數據用到的事 itchat。需要你先去下安裝。安裝完成以后,你就可以通過 itchat.login() 這個函數登陸你自己的微信。它回彈出一個網頁登陸的二維碼,你用手機掃描登陸即可。
然后通過 itchat.get_friends() 這個函數就可以獲取到自己好友的相關信息,這些信息是一個 json 數據返回。然后我們就可以根據這些返回的信息,進行正則匹配抓取我們想要的信息,在進行分析。
- import itchatitchat.login()#爬取自己好友相關信息, 返回一個json文件friends = itchat.get_friends(update=True)[0:]
我的微信好友的男女比例
觀察返回的數據,很容易就可以根據關鍵字發現性別是存放在一個字典里面,它的 key 是「Sex」,男性值為 1,女性為 2,其他是不明性別的(就是沒有填的)。
在代碼里我定義了一個函數 parse_friends() 通過一個 for 循環,把獲取到的數據通過 for 循環保存到 text 字典里。然后再通過 draw() 函數畫出柱狀圖。柱狀圖使用的是 plt 庫,之前也寫過一篇文章,感興趣的同學可以去查看。
***打印的結果:
不得不多說我微信的 1K 多的好友男女比列非常的不協調,男多女少啊。這讓我回想起以前高中一個班 50 個人,女生就 7 個,然后我們班的女生從此就有一個女團稱呼「七仙女」。
我的微信好友個性簽名的自定義詞云圖
為了進一步分析我的好友大致都有什么特征,我把好友的個性簽名一起抓取,分析制作成詞云。
個性簽名是保存在 Signature 這個 key 中,由于有些簽名包含些表情,最初抓取會變成 emoji、span、class 等等這些無關的詞。所有需要先替換掉,另外,還有類似 <>/= 之類的符號,也需要寫個簡單的正則替換掉,再把所有拼起來,得到 text 字串。
得到的數據***保存到當前目錄名為「text.txt」文本中。
分析好友簽名的函數我定義成:parse_signature(),完整代碼如下:
抓取整理了簽名的數據,接下來就是制作出詞云。這里使用的是 wordCloud 來進行詞云的制作。之前的文章也有介紹過詞云的制作,感興趣的同學可以查看這篇文章。
詞云的制作我定義了一個:draw_signature() 函數,完整代碼如下
運行上面的代碼后得到了如下的圖,由于好友數量比較多,我分別找了兩張圖制作出圖云。
努力,奮斗,世界,生活,自己。這些詞在我們 1K 多人的好友中出現的最多。大家都非常的優秀,都非常的上進。
我的簽名:人生必有癡,而有后成。現在的我癡迷于各種優秀的人,每天都在向他們學習。希望大家一生當中也有癡迷的一面。