初學Python,就用它爬取一點情話吧
老鐵們,一年一度的520就要來了,大家有沒有正在抓耳撓腮的給女朋友準備禮物呢?
作為一個業余非專業程序猿(ps:自稱程序猿,哈哈),最近初學python,用它來抓取情話網站的100頁情話,作為給女朋友的第二個小禮物。
由于小馬達我,是自學,也是初學者,忘各位大神勿噴,程序比較簡單,親測可用。
下面進入正題:
目標:爬取指定網址的100頁情話

練手網站
準備:python:3.7版本、開發工具:pycharm、瀏覽器:谷歌瀏覽器
思路:
- 通過requests+xpath來爬取網頁,并對信息進行提取
- 不管網站有沒有反爬策略,最簡單的攜帶headers用上
- 循環寫入txt文件
- 把主要代碼寫成函數進行封裝
幾個關鍵點:
- 注意網頁的編碼格式,一般來說,可以結合response.encoding和response.headers來觀察。如果headers里面沒有Content-Type,則編碼為encoding='utf-8';如果有Content-Type,以 charset 為準,沒有charset,則為ISO-8859-1
- 觀察網頁的結構,確定如何編寫程序實現翻頁,在這里網站比較簡單,直接把序號+1就行
- 關于用beautifulsoup還是xpath,酌情使用,在這里,我直接使用xpath定位更加方便
最終效果:
得到100頁情話,并保存到txt文件里。

主要代碼

結果輸出
后期計劃改進:
- 準備把數據寫入數據庫
- 用flask框架搭建網站
- 準備實現詞云效果,類似于下面這樣。

好了,文字表達能力也不強,也不知道寫啥,主要就是分享好玩的。奧,對了,小馬達,什么都喜歡研究一下,這個號不打算寫垂直領域,主要就是分享生活,結交朋友,當然了,你要點個贊,給個關注,那我們就是更好的朋友。哈哈,記得關注哦!