關于 Python 反爬蟲，我有幾點想說的

作者：編程派 2020-05-21 09:25:17

安全應用安全后端

高頻的網絡爬蟲行為無異于DDOS(分布式拒絕服務)攻擊，雖然法律可以治它，但是其過程之繁瑣，還是不如先讓網站自身充分地強大起來。

今天來談談關于反爬蟲的東西。

隨著大數據時代的來臨，無論是個人還是企業，對于數據的需求都越來越大。這種需求也催生了如今異常熱門的數據產業，也催生了日益完善的網絡數據采集技術。

[[326890]]

這種需求的擴大，同時讓網絡爬蟲日益猖獗，猖獗到甚至影響到了網站和APP的正常運行。

高頻的網絡爬蟲行為無異于DDOS(分布式拒絕服務)攻擊，雖然法律可以治它，但是其過程之繁瑣，還是不如先讓網站自身充分地強大起來。

為了便于基礎薄弱的同學理解，我們先看一個基本的網站訪問鏈路圖：

這其中包含了我們從個人電腦的瀏覽器上訪問一個網頁所涉及的所有部件。同時我們可以將其簡化為下圖：

一、為什么要反爬蟲?

在設計反爬蟲系統之前，我們先來看看爬蟲會給網站帶來什么問題?

本質上來說，互聯網上可以供人們瀏覽、查看和使用的網站及其網站上的數據，都是公開和允許獲取的，所以并不存在于所謂的“非法授權訪問”問題。

爬蟲程序訪問網頁和人訪問網頁沒有本質區別，都是由客戶端向網站服務器發起HTTP請求，網站服務器接收到請求之后將內容響應返回給客戶端。

只要是發起請求，網站服務器必然要進行響應，要進行響應，必然要消耗服務器的資源。

網站的訪問者與網站之間是互相互惠互利的關系，網站為訪問者提供了自己所需要的必要的信息和服務，而訪問者也為網站帶來了流量、訪客、活躍度。所以網站的所有者會愿意消耗服務器的帶寬、磁盤、內存，為訪問者提供服務。

而爬蟲程序呢?無異于白嫖黨。成倍地消耗網站服務器資源、占用服務器帶寬，卻不會為網站帶來一絲的利益，甚至于，最后的結果是有損于網站本身的。

爬蟲，可能算得上是互聯網里的非洲鬣狗了，也難怪遭網站的所有者討厭了。

二、識別爬蟲

既然討厭爬蟲，所以要將爬蟲拒之于網站的門外了。要拒絕爬蟲的訪問，首先當然要識別出網絡訪問者中的爬蟲程序。如何識別呢?

1. HTTP請求頭

這算是最基礎的網絡爬蟲識別了，正常的網絡訪問者都是通過瀏覽器對網站進行訪問的。而瀏覽器都會帶上自己的請求頭以表明自己的基礎信息。而這也是最容易被爬蟲程序突破的識別手段，因為HTTP請求頭誰都可以進行修改和偽造。

2. Cookie值

Cookie通常用來標識網站訪問者的身份，就像是手上的一張臨時憑證。并憑著這個憑著與網站服務器進行身份的校對。很遺憾，Cookie是保存在客戶端的數據，也可以被修改和偽造。

3. 訪問頻率

如果一個訪問者，每隔1秒請求一次網站的某個頁面，或者一秒鐘請求了幾百次這個頁面。這個訪問者不是爬蟲程序就有鬼了。試問人類中有誰能快速和頻繁地點擊鼠標訪問一個頁面?他是得了帕金森綜合征還是八爪魚轉世?

通過訪問頻率來識別爬蟲程序是可行的，但是爬蟲程序也能通過使用大量的代理IP來實現一個IP地址只訪問了一次的效果，也可以通過隨機的請求時間間隔規避。

4. 鼠標行為軌跡

正常人類訪問者瀏覽網頁勢必不會像機器一樣，機械地移動和點擊鼠標。而鼠標的移動和點擊，是可以通過JS腳本捕獲到的，所以可以通過判斷訪問者的鼠標行為軌跡來判斷訪問者是否為爬蟲程序。

5. token值

現在很多網站都是前后端分離開發的，數據通過后端接口返回給前端，前端拿到數據再結合頁面進行渲染。所以很多爬蟲程序都直接找數據接口，而不是傻傻地請求頁面了。token就用在驗證這些后端數據接口上。token一般通過網頁上的某個密鑰加上時間再加上某些數據組合加密而成。

還有更多地識別爬蟲的手段在此就不一一進行介紹。很遺憾的是，上述任何一種識別爬蟲的手段，都有可能被爬蟲繞過和突破。

三、拒絕爬蟲

就像沒有一勞永逸的網站安全防護一樣，十年前把3389端口一關，就能防止服務器成為肉雞，如今各種防火墻、各種安全措施都加上了，還有可能因為某個0Day漏洞被勒索。

爬蟲與反爬蟲之間，也永遠都在斗爭和升級。所不同的是，網絡攻防是放開手腳的無限制級格斗，而反爬蟲則是帶著拳套和頭盔的奧運拳擊。

網站為了運營，勢必要對外開放內容，而開放的內容就像是飄忽在非洲大草原的腐肉和血腥味，直勾勾地吸引著鬣狗的到來。

在開放內容和避免淪為爬蟲的數據礦池之間平衡，是一個難事。

1. 內容上限制內容的開放

開放的內容是獲取用戶、流量的基礎，所以內容必須是開放的。但是內容的開放并不是無限制的開放。非注冊用戶可以看到一篇內容、兩篇內容，但是不能無限地一直看到內容。這個限制，可以是要求登錄，可以是要求掃碼驗證，可以是接入谷歌驗證碼之類的點擊驗證機制。

現在已經有越來越多的網站采用了有限內容開放的機制，比如微博、知乎、淘寶等，你可以看到一頁兩頁的內容，但是如果還想繼續，對不起請登錄。

2. 行為上記錄用戶操作

需要訪問者進行登錄并不能解決問題，因為模擬登錄一直是網絡爬蟲程序的一個熱門發展分支，無論是圖片驗證碼、拼圖、滑塊還是點選漢字，都會被突破。甚至于短信驗證碼都可以通過編寫APP與爬蟲程序和網站之間進行通信。

所以記錄用戶行為必不可少，用戶的一切操作和訪問行為都需要記錄在案，這是分析和處理爬蟲的基礎。

3. 控制上嚴厲打擊高頻行為

從實際上來看，也有很多爬蟲程序的運行并非是為了往死里薅網站的數據和內容，僅僅是為了方便進行手工的收集和整理工作，這種類型的爬蟲行為一般會比人工瀏覽的頻次要高，但是又顯著低于鬣狗般的高頻爬蟲，對這種類型的爬蟲行為可以忽略掉。做人留一線，日后好相見。

但是對于影響網站服務器運行的高頻爬蟲行為，必須采取措施。結合用戶和IP信息，對相關用戶或IP進行處理。

4. 協議里申明權利

網站的所有者必須在網站協議或用戶協議里申明，允許正常的瀏覽、訪問和數據獲取，對于異常、高頻、威脅網站服務器穩定的行為，將保留進一步處理的權利。

四、最后

沒有一個城池是固若金湯的，也沒有一個措施可以阻擋所有瘋狂的爬蟲。面對爬蟲的行為，利用各種技術建立一個行之有效的識別、分級和處理機制，才能既保得網站的開放，才能獲得網站的穩定。

責任編輯：趙寧寧來源：今日頭條

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

關于 Python 反爬蟲，我有幾點想說的