這個用Python寫的開源爬蟲網站 讓你秒搜所有豆瓣好書
程序員在提升自己的道路,大多還是會選擇閱讀編程書籍這一途徑,但找到一本好書就沒那么容易了。
通過查看各大銷售網站的銷量數據和評價,以及豆瓣評分和評價人數,可以幫助我們更快的挖掘出經典的計算機書籍,還有那些被人們忽視的好書。
最近猿哥在GitHub上發現了一個網站,是中國科學院自動化研究所的一大神(lanbing510)用Python寫的一個爬蟲,他在16年的時候就爬下了豆瓣所有的讀書數據并做了個WebApp接口方來挖掘查找和閱讀好書。怪我知道的太晚
后來lanbing510再次爬了一遍豆瓣讀書的數據,總共更新了3232088本圖書信息,共2138386KB,并將其開源
為什么說它很好用呢?猿哥演示一遍你就知道了:
可以看出這網站的界面非常簡潔,沒有花里花哨的內容,只有干貨,你可以直接通過關鍵字、分數、和評價人數這三個選項進行搜索,比如我們可以搜索關鍵字:編程;分數:9.0;評價人數:100人以上
查找結果的顯示方式有按照分數排序和人數排序兩種,按照分數排序的截圖如下:
按照評價人數排序的截圖如下:
除了以上演示的操作,這個網站并實現了以下功能:
- 可以爬下豆瓣讀書標簽下的所有圖書
- 按評分排名依次存儲
- 存儲到Excel中,可方便大家篩選搜羅,比如篩選評價人數>1000的高分書籍;可依據不同的主題存儲到Excel不同的Sheet
- 采用User Agent偽裝為瀏覽器進行爬取,并加入隨機延時來更好的模仿瀏覽器行為,避免爬蟲被封
也就是說你不僅可以在網站上搜索,還能通過下載各類目下的Excel書單文件,直接在Excel中搜索
效果截圖如下:
附上網站地址:http://sobook.lanbing510.info
GitHub地址:https://github.com/lanbing510/DouBanSpider