手把手教你用Python網絡爬蟲實現起點小說下載
今天要跟大家分享一個小說爬取案例--------起點小說的小說下載。
在做這個案例之前,我們需要對其進行分析,
1.界面分析,如圖:
通過分析很容易就找到了我們的get請求參數,然后獲取相應頁面的小說名和鏈接:
獲取到數據之后,我們就隨機挑選一篇小說來進行下載,我們選第一篇,
然后打開它的文章目錄,可以看到是這樣的,如圖:
基本上這篇小說很長,可以看到它卷一和卷二是免費的,后面的收費,那么今天我們就只爬免費的章節。
那么我們現在開始分析網頁結構,如圖:
那么,我們可以先把卷一的名字和章節數以及章節下的每個章節的名字都打印出來。
首先我們可以分析下這個網頁地址,如圖:
- https://book.qidian.com/info/1014243481#Catalog
發覺前面的沒變,基本就是后面的變了,增加了一個info/1014243481#Catalog,下面開始分析:
info:信息的意思,
1014243481:小說對應的ID,
#Catalog:數據補全,無太大意義
因為剛剛已經將文章鏈接的內容爬取出來,所以現在只需要拼接一個#Catalog 即可:
下面我們就可以對它發起請求然后在分析它的頁面了,首先發起get請求,按照前面的網頁分析結構來看,我們應該這樣寫:
可以看出,因為這里有異步加載,所以我們的請求不會一下子全部顯示出來,需要不斷的請求,當然最好加個延遲。
這樣我們就獲取到了這個頁面所有的小說,也可以這樣,因為我們沒找接口,所以強行解析只能解析部分內容,但是也很全面了。如圖:
找的還算挺詳細,只不過沒有找接口時所拿到的數據那么規范好看了。