反爬煩的不行？看看這個神級程序員怎么來破解的！

作者：佚名 2017-10-30 22:31:26

爬蟲和反爬的對抗一直在進行著… 為了幫助更好的進行爬蟲行為以及反爬，今天就來介紹一下網頁開發者常用的反爬手段。

[[208077]]

1. BAN IP ：網頁的運維人員通過分析日志發現最近某一個IP訪問量特別特別大，某一段時間內訪問了無數次的網頁，則運維人員判斷此種訪問行為并非正常人的行為，于是直接在服務器上封殺了此人IP。

解決方法：此種方法極其容易誤傷其他正常用戶，因為某一片區域的其他用戶可能有著相同的IP，導致服務器少了許多正常用戶的訪問，所以一般運維人員不會通過此種方法來限制爬蟲。不過面對許多大量的訪問，服務器還是會偶爾把該IP放入黑名單，過一段時間再將其放出來，但我們可以通過分布式爬蟲以及購買代理IP也能很好的解決，只不過爬蟲的成本提高了。

2. BAN USERAGENT ：很多的爬蟲請求頭就是默認的一些很明顯的爬蟲頭python-requests/2.18.4，諸如此類，當運維人員發現攜帶有這類headers的數據包，直接拒絕訪問，返回403錯誤

解決方法：直接r=requests.get(url,headers={'User-Agent':'Baiduspider'})把爬蟲請求headers偽裝成百度爬蟲或者其他瀏覽器頭就行了。

案例：雪球網

反爬煩的不行？看看這個神級程序員怎么來破解的！強的不行！

返回的就是

403

403 Forbidden.

Your IP Address: xxx.xxx.xxx.xxx .

但是當我們這樣寫：

反爬煩的不行？看看這個神級程序員怎么來破解的！強的不行！

返回的就是

200

< !DOCTYPE html><html …

3. BAN COOKIES :服務器對每一個訪問網頁的人都set-cookie，給其一個cookies，當該cookies訪問超過某一個閥值時就BAN掉該COOKIE，過一段時間再放出來，當然一般爬蟲都是不帶COOKIE進行訪問的，可是網頁上有一部分內容如新浪微博是需要用戶登錄才能查看更多內容。

解決辦法：控制訪問速度，或者某些需要登錄的如新浪微博，在某寶上買多個賬號，生成多個cookies，在每一次訪問時帶上cookies

案例：螞蜂窩

以前因為旅游的需求，所以想到了去抓一點游記來找找哪些地方好玩，于是去了螞蜂窩網站找游記，一篇一篇的看真的很慢，想到不如把所有文章抓過來然后統計每個詞出現的頻率***，統計出最熱的一些旅游景點，就寫了一個scrapy爬蟲抓游記，當修改了headers后開始爬取，發現訪問過快服務器就會斷開掉我的連接，然后過一段時間（幾個小時）才能繼續爬。于是放慢速度抓就發現不會再被BAN了。

4. 驗證碼驗證：當某一用戶訪問次數過多后，就自動讓請求跳轉到一個驗證碼頁面，只有在輸入正確的驗證碼之后才能繼續訪問網站

解決辦法：python可以通過一些第三方庫如(pytesser,PIL)來對驗證碼進行處理，識別出正確的驗證碼，復雜的驗證碼可以通過機器學習讓爬蟲自動識別復雜驗證碼，讓程序自動識別驗證碼并自動輸入驗證碼繼續抓取

案例：安全客

當訪問者對安全客訪問過快他就會自動蹦出一個驗證碼界面。

如下：

反爬煩的不行？看看這個神級程序員怎么來破解的！強的不行！

5. javascript渲染：網頁開發者將重要信息放在網頁中但不寫入html標簽中，而瀏覽器會自動渲染<script>標簽中的js代碼將信息展現在瀏覽器當中，而爬蟲是不具備執行js代碼的能力，所以無法將js事件產生的信息讀取出來

解決辦法：通過分析提取script中的js代碼來通過正則匹配提取信息內容或通過webdriver+phantomjs直接進行無頭瀏覽器渲染網頁。

案例：前程無憂網

隨便打開一個前程無憂工作界面，直接用requests.get對其進行訪問，可以得到一頁的20個左右數據，顯然得到的不全，而用webdriver訪問同樣的頁面可以得到50個完整的工作信息。

6. ajax異步傳輸：訪問網頁的時候服務器將網頁框架返回給客戶端，在與客戶端交互的過程中通過異步ajax技術傳輸數據包到客戶端，呈現在網頁上，爬蟲直接抓取的話信息為空

解決辦法：通過fiddler或是wireshark抓包分析ajax請求的界面，然后自己通過規律仿造服務器構造一個請求訪問服務器得到返回的真實數據包。

案例：拉勾網

打開拉勾網的某一個工作招聘頁，可以看到許許多多的招聘信息數據，點擊下一頁后發現頁面框架不變化，url地址不變，而其中的每個招聘數據發生了變化，通過chrome開發者工具抓包找到了一個叫請求了一個叫做https://www.lagou.com/zhaopin/Java/2/?filterOption=3的網頁，

反爬煩的不行？看看這個神級程序員怎么來破解的！強的不行！