成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

淺談爬蟲及繞過網站反爬取機制

安全 應用安全
爬蟲用來自動獲取源數(shù)據(jù),至于更多的數(shù)據(jù)處理等等是后續(xù)的工作,這篇文章主要想談談爬蟲獲取數(shù)據(jù)的這一部分。

爬蟲是什么呢,簡單而片面的說,爬蟲就是由計算機自動與服務器交互獲取數(shù)據(jù)的工具。爬蟲的最基本就是get一個網頁的源代碼數(shù)據(jù),如果更深入一些,就會出現(xiàn)和網頁進行POST交互,獲取服務器接收POST請求后返回的數(shù)據(jù)。一句話,爬蟲用來自動獲取源數(shù)據(jù),至于更多的數(shù)據(jù)處理等等是后續(xù)的工作,這篇文章主要想談談爬蟲獲取數(shù)據(jù)的這一部分。爬蟲請注意網站的Robot.txt文件,不要讓爬蟲違法,也不要讓爬蟲對網站造成傷害。

[[213360]]

反爬及反反爬概念的不恰當舉例

基于很多原因(如服務器資源,保護數(shù)據(jù)等),很多網站是限制了爬蟲效果的。

考慮一下,由人來充當爬蟲的角色,我們怎么獲取網頁源代碼?最常用的當然是右鍵源代碼。

網站屏蔽了右鍵,怎么辦?

網站屏蔽了右鍵,怎么辦?

拿出我們做爬蟲中最有用的東西 F12(歡迎討論)

同時按下F12就可以打開了(滑稽)

2.png

源代碼出來了!!

在把人當作爬蟲的情況下,屏蔽右鍵就是反爬取策略,F(xiàn)12就是反反爬取的方式。

講講正式的反爬取策略

事實上,在寫爬蟲的過程中一定出現(xiàn)過沒有返回數(shù)據(jù)的情況,這種時候也許是服務器限制了UA頭(user-agent),這就是一種很基本的反爬取,只要發(fā)送請求的時候加上UA頭就可以了…是不是很簡單?

其實一股腦把需要不需要的Request Headers都加上也是一個簡單粗暴的辦法……

有沒有發(fā)現(xiàn)網站的驗證碼也是一個反爬取策略呢?為了讓網站的用戶能是真人,驗證碼真是做了很大的貢獻。隨驗證碼而來的,驗證碼識別出現(xiàn)了。

說到這,不知道是先出現(xiàn)了驗證碼識別還是圖片識別呢?

簡單的驗證碼現(xiàn)在識別起來是非常簡單的,網上有太多教程,包括稍微進階一下的去噪,二值,分割,重組等概念??墒乾F(xiàn)在網站人機識別已經越發(fā)的恐怖了起來,比如這種:

6.jpg

簡單講述一下去噪二值的概念

將一個驗證碼3.png變成5.png就是二值,也就是將圖片本身變成只有兩個色調,例子很簡單,通過python PIL庫里的

  1. Image.convert("1") 

就能實現(xiàn),但如果圖片變得更為復雜,還是要多思考一下,比如如果直接用簡單方式的話 就會變成思考一些這種驗證碼應該怎么識別?這種時候 去噪 就派上了用處,根據(jù)驗證碼本身的特征,可以計算驗證碼的底色和字體之外的RGB值等,將這些值變成一個顏色,將字體留出。示例代碼如下,換色即可

  1. for x in range(0,image.size[0]): 
  2.  
  3.         for y in range(0,image.size[1]): 
  4.  
  5.             # print arr2[x][y] 
  6.  
  7.             if arr[x][y].tolist()==底色: 
  8.  
  9.                 arr[x][y]=0 
  10.  
  11.             elif arr[x][y].tolist()[0] in range(200,256) and arr[x][y].tolist()[1] in range(200,256) and arr[x][y].tolist()[2] in range(200,256): 
  12.  
  13.                 arr[x][y]=0 
  14.  
  15.             elif arr[x][y].tolist()==[0,0,0]: 
  16.  
  17.                 arr[x][y]=0 
  18.  
  19.             else: 
  20.  
  21.                 arr[x][y]=255 

arr是由numpy得到的,根據(jù)圖片RGB值得出的矩陣,讀者可以自己嘗試完善代碼,親自實驗一下。

細致的處理之后圖片可以變成識別率還是很高的。

 

在驗證碼的發(fā)展中,還算清晰的數(shù)字字母,簡單的加減乘除,網上有輪子可以用,有些難的數(shù)字字母漢字,也可以自己造輪子(比如上面),但更多的東西,已經足夠寫一個人工智能了……(有一種工作就是識別驗證碼…)

再加一個小提示:有的網站PC端有驗證碼,而手機端沒有…

下一個話題!

反爬取策略中比較常見的還有一種封IP的策略,通常是短時間內過多的訪問就會被封禁,這個很簡單,限制訪問頻率或添加IP代理池就OK了,當然,分布式也可以…

IP代理池->左轉Google右轉baidu,有很多代理網站,雖然免費中能用的不多 但畢竟可以。

還有一種也可以算作反爬蟲策略的就是異步數(shù)據(jù),隨著對爬蟲的逐漸深入(明明是網站的更新?lián)Q代!),異步加載是一定會遇見的問題,解決方式依然是F12。以不愿透露姓名的網易云音樂網站為例,右鍵打開源代碼后,嘗試搜索一下評論

8.png

數(shù)據(jù)呢?!這就是JS和Ajax興起之后異步加載的特點。但是打開F12,切換到NetWork選項卡,刷新一下頁面,仔細尋找,沒有秘密。

7.png

哦,對了 如果你在聽歌的話,點進去還能下載呢…

4.png

僅為對網站結構的科普,請自覺抵制盜版,保護版權,保護原創(chuàng)者利益。

如果說這個網站限制的你死死的,怎么辦?我們還有最后一計,一個強無敵的組合:selenium + PhantomJs

這一對組合非常強力,可以完美模擬瀏覽器行為,具體的用法自行百度,并不推薦這種辦法,很笨重,此處僅作為科普。

總結

本文主要討論了部分常見的反爬蟲策略(主要是我遇見過的(聳肩))。主要包括 HTTP請求頭,驗證碼識別,IP代理池,異步加載幾個方面,介紹了一些簡單方法(太難的不會!),以Python為主。希望能給初入門的你引上一條路。

責任編輯:趙寧寧 來源: FreeBuf
相關推薦

2017-05-15 10:39:48

爬蟲應對機制

2016-12-07 11:18:58

Python爬蟲網站

2021-06-28 18:57:15

CSS網頁爬蟲

2022-09-20 07:02:20

網絡爬蟲反爬蟲

2021-06-06 19:53:05

爬蟲處理字體反爬

2021-03-18 09:18:12

python爬蟲

2016-12-08 16:47:06

2012-12-24 13:50:54

2017-05-24 15:07:19

Python爬蟲爬取

2024-10-08 10:44:32

2017-04-27 20:45:48

爬蟲反爬蟲

2024-06-07 08:56:43

HTTPPythonSelenium

2016-11-07 15:23:37

Python

2009-08-19 10:34:16

反爬蟲

2022-11-24 10:24:32

2022-09-14 23:06:45

2021-01-24 16:40:00

Python爬取網站編程語言

2018-01-02 16:30:27

Python爬蟲微博移動端

2015-06-16 10:44:42

2020-08-06 08:43:49

Python爬蟲數(shù)據(jù)
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 99热这里有精品 | 99视频在线免费观看 | 久久青青 | 久久久久久国产精品三区 | 丁香五月网久久综合 | 一区二区国产精品 | 精品三级在线观看 | 日本中文字幕日韩精品免费 | 日韩精品一区二区三区中文在线 | 久久久久黄色 | 欧美一区二区三区久久精品 | 天堂素人约啪 | 日韩一区二区av | 日本a级大片 | 国产成人精品久久 | 欧美电影大全 | 国产欧美在线 | 一区二区三区四区视频 | 久久久久久久一区二区三区 | 欧美精品久久久久久 | 精品国产一区二区 | 国产精品国产三级国产aⅴ无密码 | 久久精品国产99国产精品 | 99精品视频一区二区三区 | 久久综合九九 | 色婷婷亚洲国产女人的天堂 | 精品电影| 91.xxx.高清在线 | 日韩插插 | 亚洲风情在线观看 | 亚洲精品中文字幕 | 国产亚洲精品久久情网 | 亚洲一区精品在线 | 久久精品一 | 精品国产乱码久久久久久果冻传媒 | 天天躁日日躁狠狠的躁天龙影院 | 精品久久久久久久久久久久久久久久久 | 国产精品美女久久久久aⅴ国产馆 | 免费看国产a | 黄色一级大片在线观看 | av第一页|