成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

web掃描爬蟲優化

安全 應用安全
公司要弄自動化的掃描工具,目前市面上的工具都無法針對業務進行檢測,所以只能自己開發。辣么,就有個問題,爬蟲需要自己去寫。

0x01 需求背景

公司要弄自動化的掃描工具,目前市面上的工具都無法針對業務進行檢測,所以只能自己開發。辣么,就有個問題,爬蟲需要自己去寫。

之前自己也寫過相關的爬蟲,但是要么是半成品,要么就是垃圾代碼…很多都無法直接引用,所以,在強大的KPI考核下,強迫自己代碼重構。用Python寫起。

0x02 遇到問題

本身在爬蟲上輕車熟路,很輕易就寫出了一個根據多線程的爬蟲,完成整站掃描,但是問題來了,效率如何提高。仔細觀察下掃描的鏈接就發現,它爬取了很多鏈接,都是一些重復性比較高的鏈接,例如以下:

 

 

這些鏈接都是靜態的頁面,也就是一些新聞之類的,頁面架構的都差不多,這個情況我們自己知道,但是爬蟲是不了解的。它只是按照我們指定的規則去做,所以導致爬蟲效率降低。

在我預想的情況下,一些靜態的頁面,我們是可以減少抓取的,通過減少抓取我們可以提高整體的效率。例如:

http://www.xxx.com/news/ziyue/2014/1029/61069.html

http://www.xxx.com/news/ziyue/2014/1029/61070.html

http://www.xxx.com/news/ziyue/2014/1029/61071.html

這三個URL中,我們只需要抓取一條作為典型,完全就能達到我們的需求,不需要將所有的抓下來。因為大家都知道,這是偽靜態生成的。那么問題來了,該怎樣去做這個規則?小伙伴可能有想法說:“你怎么知道這種靜態頁面就一定架構一樣呢?” 好吧,我不確定,但是我有辦法去確定。現在就以上面的URL做個拆分了解下:

http://www.xxx.com/ 這個是host

/news/ziyue/2014/1029/ 這個是具體的目錄,或者說是具體的文章歸類。

61069.html 這個是具體的頁面。

上面分析后,小伙伴又有新的問題:“莫裝逼,你怎么知道人家的URL一定按照這個標準來?” 好吧,對此我整理了下我所發現的URL組合規則,目前很多URL都是以以下幾種方式組成的。

1)靜態頁面型:

http://[host]/xxx/xxx/xxx/[int|string].html

2)rewrite型:

http://[host]/xxx/xxx/xxx/[string|int]

3)目錄型:

http://[host]/xxx/xxx/xxx/Catalog/

4)不固定型:

http://[host]/xxx/xxx/xxx/file.[asp|php|aspx|do|jsp]?[string|int]=[string|int]

0x03 奇葩的實驗

找到了這些規律后,應該考慮怎樣去把爬蟲的質量提升起來,降低重復率,然后就有了以下奇葩的實驗:

1)先建立規則:

 

 

2) 然后針對這些規則進行引用、測試。

 

 

運行結果諸如:

 

 

確實達到了我期望的結果…. 本文只是拋磚引玉,可能代碼略挫。各位大俠輕拍,射射。

【實驗前】

 

【實驗后】

 

責任編輯:藍雨淚 來源: 烏云知識庫
相關推薦

2018-03-07 11:53:12

2020-12-10 11:35:14

Web安全掃描工具漏洞

2024-03-12 09:47:10

Redis數據庫

2014-12-10 10:12:02

Web

2021-04-27 06:45:23

Web安全工具

2010-09-17 15:36:24

2012-06-13 17:38:57

2020-12-14 10:32:28

Web安全工具多線程

2013-03-25 10:23:24

路徑掃描web路徑掃描工具掃描

2010-09-15 12:15:23

NessusWEB應用安全掃描

2011-02-17 18:51:10

2013-08-14 10:24:38

2010-11-24 11:32:46

2016-02-26 15:28:45

CasperJSWeb爬蟲

2022-03-02 11:13:50

Web前端開發

2014-08-26 10:29:31

2018-09-10 11:07:19

2019-12-23 10:20:12

Web圖片優化前端

2012-09-13 11:13:26

IBMdw

2015-06-23 16:36:11

Web性能優化
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 9色网站| 亚洲国产黄 | 91大片| 在线第一页 | 欧美视频一区二区三区 | 91国内外精品自在线播放 | 欧美一级全黄 | 亚洲性视频在线 | 国产一区二区精品在线 | 亚洲一区二区三区四区av | 久久99精品久久久久久国产越南 | 麻豆av一区二区三区久久 | 色综合成人网 | 男女羞羞视频网站 | 欧美三级不卡 | 91在线视频免费观看 | 亚洲免费视频在线观看 | 盗摄精品av一区二区三区 | 成人免费观看网站 | 亚洲国产一区二区三区在线观看 | 在线看无码的免费网站 | 久久精品国产一区二区电影 | 日韩色图视频 | 亚洲国产精品久久人人爱 | 亚洲高清中文字幕 | 日韩成人专区 | 久草视频在线播放 | 区一区二区三在线观看 | 国产精品一码二码三码在线 | 国产精品一区二区在线播放 | 欧美色人 | 成年网站在线观看 | 午夜电影一区 | 亚洲高清视频一区二区 | 国产女人与拘做受免费视频 | 国产乱码精品一区二三赶尸艳谈 | 天天综合日日夜夜 | 欧美在线国产精品 | 久久99久久99精品免视看婷婷 | 色就干 | 久久久精品一区 |