一文告訴你爬蟲技術到底違不違法，怎么用才合法？

作者：蔚可云 2021-04-25 21:18:27

近幾年來，因為開發者使用爬蟲技術鋃鐺入獄的案例越來越多。

2015年，某公司授意五名程序員，利用網絡爬蟲獲取一公司服務器的公交車行駛信息、到站信息等數據。這五名程序員需承擔連帶責任。

2019年，某公司主管人員張某、宋某、侯某和郭某，利用爬蟲技術，非法爬取北京字節跳動服務器存儲中的視頻數據，被告人依法被判處有期徒刑9-10個月，并處罰金。

越來越多的案件，讓開發者越發不安，爬蟲也違法？公司要讓我爬取數據，爬是不爬？爬吧？違法，不爬吧，也不好。

不僅僅是開發者，公司使用爬蟲技術，也存在很多風險。

2012年，360搜索爬取百度旗下等多個網站內容，最終被裁定賠償百度70萬元；

2017年，秀淘非法抓取今日頭條內容，被告被判九個月至一年不等的有期徒刑，并處罰金。

公司使用爬蟲技術，怎么規避風險？也成了一個大難題。

[[395687]]

仔細研究爬蟲相關案例，我們不難總結出，如何合法的使用爬蟲技術，規避風險。

Robots是網站和爬蟲之間的君子協議，當網站拒絕爬蟲訪問，爬取數據時，可以在根目錄下存放robots.txt文件，告訴爬蟲不能爬取網站全部或部分指定內容。

[[395688]]

只要Robots中的內容，爬蟲都不允許訪問。360搜索爬取百度內容一案中，就是因為360違反Robots協議，最終才判賠70萬元。

但是，網站沒有該協議，不意味著能隨意爬取數據，也有可能違法。

開發者使用爬蟲技術，如果請求頻率過高，接近DDoS攻擊的頻率，一旦造成目標服務器癱瘓，這個就不是爬蟲行為，而是黑客行為，必定要承擔相應的責任。

如果目標網站已使用BotGuard爬蟲管理等云產品，來控制和管理爬蟲，或者使用了一些措施反爬，或者正常用戶不能到達的頁面。如果開發者強行突破以上這些措施，同樣會被界定為黑客行為。

爬取的內容是一條高壓線，絕對不能觸碰。包括但不限于：

1.爬取用戶信息謀利

2018年，新三板掛牌公司北京瑞智華勝科技股份有限公司，使用爬蟲非法竊取用戶個人信息30億條，該公司及其關聯公司6名犯罪嫌疑人被控制。

用戶個人信息屬于敏感信息，近幾年打擊力度越來越大，嚴禁使用爬蟲爬取這些信息。

2.爬取商業數據

2018年，武漢元光科技有限公司法定代表人授意四名員工，非法爬取競爭對手數據，被判賠50萬元。

很多公司為了獲得競爭優勢，會使用爬蟲技術，爬取競爭對手的內容，但這一手段會構成不正當競爭。

3.爬取知識產權數據

爬取大量帶有知識產權的數據，并且用于商業目的，屬于違法行為。

不難看出，爬蟲技術本身并不違法，關鍵在于使用的方式和目的。最后總結一下，爬蟲爬數據有幾個雷區，一是只能爬取公開數據，二是不能對目標業務和網站造成影響，三是目標網站的全部或部分內容沒有使用反爬措施。

責任編輯：張燕妮來源：今日頭條

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看