一文告訴你爬蟲技術到底違不違法,怎么用才合法?
2015年,某公司授意五名程序員,利用網絡爬蟲獲取一公司服務器的公交車行駛信息、到站信息等數據。這五名程序員需承擔連帶責任。
2019年,某公司主管人員張某、宋某、侯某和郭某,利用爬蟲技術,非法爬取北京字節跳動服務器存儲中的視頻數據,被告人依法被判處有期徒刑9-10個月,并處罰金。
越來越多的案件,讓開發者越發不安,爬蟲也違法?公司要讓我爬取數據,爬是不爬?爬吧?違法,不爬吧,也不好。
不僅僅是開發者,公司使用爬蟲技術,也存在很多風險。
2012年,360搜索爬取百度旗下等多個網站內容,最終被裁定賠償百度70萬元;
2017年,秀淘非法抓取今日頭條內容,被告被判九個月至一年不等的有期徒刑,并處罰金。
公司使用爬蟲技術,怎么規避風險?也成了一個大難題。
仔細研究爬蟲相關案例,我們不難總結出,如何合法的使用爬蟲技術,規避風險。
遵守Robots協議
Robots是網站和爬蟲之間的君子協議,當網站拒絕爬蟲訪問,爬取數據時,可以在根目錄下存放robots.txt文件,告訴爬蟲不能爬取網站全部或部分指定內容。
只要Robots中的內容,爬蟲都不允許訪問。360搜索爬取百度內容一案中,就是因為360違反Robots協議,最終才判賠70萬元。
但是,網站沒有該協議,不意味著能隨意爬取數據,也有可能違法。
爬蟲行為
開發者使用爬蟲技術,如果請求頻率過高,接近DDoS攻擊的頻率,一旦造成目標服務器癱瘓,這個就不是爬蟲行為,而是黑客行為,必定要承擔相應的責任。
反爬措施
如果目標網站已使用BotGuard爬蟲管理等云產品,來控制和管理爬蟲,或者使用了一些措施反爬,或者正常用戶不能到達的頁面。如果開發者強行突破以上這些措施,同樣會被界定為黑客行為。
爬取內容
爬取的內容是一條高壓線,絕對不能觸碰。包括但不限于:
1.爬取用戶信息謀利
2018年,新三板掛牌公司北京瑞智華勝科技股份有限公司,使用爬蟲非法竊取用戶個人信息30億條,該公司及其關聯公司6名犯罪嫌疑人被控制。
用戶個人信息屬于敏感信息,近幾年打擊力度越來越大,嚴禁使用爬蟲爬取這些信息。
2.爬取商業數據
2018年,武漢元光科技有限公司法定代表人授意四名員工,非法爬取競爭對手數據,被判賠50萬元。
很多公司為了獲得競爭優勢,會使用爬蟲技術,爬取競爭對手的內容,但這一手段會構成不正當競爭。
3.爬取知識產權數據
爬取大量帶有知識產權的數據,并且用于商業目的,屬于違法行為。
不難看出,爬蟲技術本身并不違法,關鍵在于使用的方式和目的。最后總結一下,爬蟲爬數據有幾個雷區,一是只能爬取公開數據,二是不能對目標業務和網站造成影響,三是目標網站的全部或部分內容沒有使用反爬措施。