成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

網(wǎng)絡(luò)爬蟲程序員被抓,我們還敢爬蟲嗎?細(xì)數(shù)那些Java爬蟲技術(shù)

開發(fā) 后端
最近,某大數(shù)據(jù)科技公司因?yàn)樯嫦臃欠ㄗト∧痴衅妇W(wǎng)站用戶的簡(jiǎn)歷信息,公司被查封,負(fù)責(zé)編寫抓取程序的程序員也將面臨坐牢。

[[279529]]

 最近,某大數(shù)據(jù)科技公司因?yàn)樯嫦臃欠ㄗト∧痴衅妇W(wǎng)站用戶的簡(jiǎn)歷信息,公司被查封,負(fù)責(zé)編寫抓取程序的程序員也將面臨坐牢。

網(wǎng)絡(luò)爬蟲程序員被抓,我們還敢爬蟲嗎?細(xì)數(shù)那些JAVA爬蟲技術(shù)

事情的大概經(jīng)過是這樣的:

某大數(shù)據(jù)科技公司老板丟給一個(gè)小小的程序員一個(gè)網(wǎng)站,告訴他把這個(gè)網(wǎng)站的數(shù)據(jù)抓取下來,咱們做一做分析。這個(gè)小小的程序員就吭哧吭哧的寫了一段抓取代碼,測(cè)試了一下,程序沒問題,可以正常的把這個(gè)網(wǎng)站的數(shù)據(jù)給抓取下來,然后就毫不猶豫的上線了。過了幾天,這個(gè)小小的程序員發(fā)現(xiàn)抓取的速度有點(diǎn)慢啊,然后他就將1個(gè)線程改成10個(gè)線程,發(fā)布上線,開始抓取,程序跑的沒毛病。

過了一段時(shí)間,網(wǎng)站主的老板發(fā)現(xiàn)最近網(wǎng)站訪問量激增,并且還經(jīng)常宕機(jī)。然后組織公司程序員排查系統(tǒng)問題,經(jīng)過排查發(fā)現(xiàn),系統(tǒng)某一個(gè)接口頻繁訪問,遂懷疑有人惡意攻擊,于是就報(bào)案了。警察通過訪問來源IP順藤摸瓜,查到小小程序員所在的公司,把公司全員200人全部扣留調(diào)查,這名小小程序員由于負(fù)責(zé)抓取程序的編寫,將面臨坐牢。小小程序員一臉懵逼,我只負(fù)責(zé)老板交給我的任務(wù),我犯什么法了?

看了這個(gè)新聞,程序員朋友還不趕快將你的爬蟲程序下線,要不下一個(gè)抓的就是你,怕不怕?

爬蟲技術(shù)對(duì)于大多數(shù)程序員來說一點(diǎn)不陌生,大多數(shù)程序員都干過爬蟲的事情吧!我記得我剛畢業(yè)入職的第一家公司我就是負(fù)責(zé)爬蟲的。主要爬取各大高校官網(wǎng)的新聞資訊信息,然后利用這些信息給高校做手機(jī)微官網(wǎng)。當(dāng)然,我們是經(jīng)過了大多數(shù)高校的默認(rèn)的。

今天我們暫且不論爬蟲是否違法,這個(gè)問題我們也論不清楚。國(guó)內(nèi)現(xiàn)在這么多做大數(shù)據(jù)分析公司,他們可以提供各種數(shù)據(jù)分,他們的數(shù)據(jù)是從哪里來的?有幾家是正當(dāng)來源?恐怕大多都是爬來的。今天我們細(xì)數(shù)那些java爬蟲技術(shù)。

一、Jsoup

的HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。這也是我最早使用的爬蟲技術(shù)。

二、HtmlUnit

HtmlUnit是一款java的無界面瀏覽器程序庫。它可以模擬HTML文檔,并提供相應(yīng)的API,允許您調(diào)用頁面,填寫表單,點(diǎn)擊鏈接等操作。它是一種模擬瀏覽器以用于測(cè)試目的的方法。使用HtmlUnit你就感覺你是在操作瀏覽器,他對(duì)于css和js都可以很好的支持。

三、Selenium

Selenium是一個(gè)用于Web應(yīng)用程序測(cè)試的工具。Selenium測(cè)試直接運(yùn)行在瀏覽器中,就像真正的用戶在操作一樣。支持的瀏覽器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。

Selenium我覺得是最好的爬蟲工具了,因?yàn)樗耆M瀏覽器。由程序掉起瀏覽器,模擬人的操作。關(guān)于Selenium在我的文章[Selenium利器!解放測(cè)試程序員的雙手]有專門講解。

最后,爬蟲有風(fēng)險(xiǎn),使用需謹(jǐn)慎。希望廣大程序員朋友在使用爬蟲技術(shù)的時(shí)候,要有數(shù)據(jù)隱私的意識(shí)。

以下內(nèi)容來源網(wǎng)絡(luò):

如果爬蟲程序采集到公民的姓名、身份證件號(hào)碼、通信通訊聯(lián)系方式、住址、賬號(hào)密碼、財(cái)產(chǎn)狀況、行蹤軌跡等個(gè)人信息,并將之用于非法途徑的,則肯定構(gòu)成非法獲取公民個(gè)人信息的違法行為。

除此之外,根據(jù)相關(guān)規(guī)定,對(duì)于違反國(guó)家有關(guān)規(guī)定,向他人出售或者提供公民個(gè)人信息,情節(jié)嚴(yán)重的,竊取或者以其他方法非法獲取公民個(gè)人信息的,均可構(gòu)成成“侵犯公民個(gè)人信息罪”,處三年以下有期徒刑或者拘役,并處或者單處罰金;情節(jié)特別嚴(yán)重的,處三年以上七年以下有期徒刑,并處罰金。

責(zé)任編輯:武曉燕 來源: 今日頭條
相關(guān)推薦

2019-11-21 09:32:42

大數(shù)據(jù)爬蟲隱私

2022-09-20 07:02:20

網(wǎng)絡(luò)爬蟲反爬蟲

2023-06-01 13:15:23

2022-11-24 10:24:32

2022-09-14 23:06:45

2015-02-28 09:35:01

iOSpython

2018-02-23 14:30:13

2018-05-14 15:27:06

Python網(wǎng)絡(luò)爬蟲爬蟲架構(gòu)

2017-06-30 13:23:02

2011-03-09 10:07:56

網(wǎng)絡(luò)爬蟲Java

2020-10-09 07:54:43

PythonJava爬蟲

2024-11-27 06:31:02

2019-10-16 16:25:54

爬蟲房源程序員

2018-07-02 14:12:26

Python爬蟲反爬技術(shù)

2019-10-18 09:39:44

爬蟲消息大數(shù)據(jù)

2019-10-14 09:51:08

爬蟲網(wǎng)絡(luò)系統(tǒng)

2012-05-10 13:42:26

Java網(wǎng)絡(luò)爬蟲

2017-05-16 15:33:42

Python網(wǎng)絡(luò)爬蟲核心技術(shù)框架

2015-10-23 10:27:06

網(wǎng)絡(luò)爬蟲相似矩陣流程

2021-03-12 08:28:07

百度程序員業(yè)務(wù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日韩av在线一区 | 亚洲国产一区视频 | 亚洲视频欧美视频 | 黄网免费| 精品久久久久久亚洲精品 | 国产精品久久久久久久久久三级 | 91亚洲视频在线 | 爱爱免费视频 | 国产日韩精品一区二区三区 | 日本xx视频免费观看 | 欧美精品一级 | 日韩av成人 | 国产高清区| 日韩av在线中文字幕 | 亚洲一区久久久 | 在线观看日本高清二区 | 精品99久久久久久 | 一级大片 | 午夜免费观看网站 | 精品av| 国产 欧美 日韩 一区 | 久久99深爱久久99精品 | 亚洲精品福利在线 | 亚洲天堂一区二区 | 欧美日韩在线观看一区二区三区 | 九九av | 亚洲一区视频在线 | 免费成人高清在线视频 | 国产高清视频在线观看播放 | 国产91丝袜 | 国产精品一区久久久 | 精品亚洲一区二区三区 | 一级看片免费视频囗交动图 | 天堂中文资源在线 | 亚洲精品久久久久久久久久久 | 久久久久一区 | 国产日韩精品久久 | 成人久久18免费 | 精品欧美一区二区三区久久久 | 免费成人高清 | 欧美久久一区二区三区 |