爬蟲玩得好,牢飯吃到飽?這3條底線千萬不能碰!
?數據爬取技術一向是數據公司獲取數據的高效途徑之一,但嚴格意義上爬取行為本身并不是完全合法合規的,按我國目前的法律法規及司法判例,爬蟲技術可能會觸犯以下幾個維度的法律要求(僅列出相對重點的法律維度)。
1.反不正當競爭法維度
在未征得被爬取方授權的情況下,爬取數據的行為可能會違反Robots協議。Robots協議是技術界為了解決爬取方和被爬取方之間通過計算機程序完成關于爬取的意愿溝通而產生的一種機制。2012年11月1日,十二家企業共同發起了《互聯網搜索引擎服務自律公約》,公約要求各簽約方遵守Robots協議。
在司法實踐中,即使爬取方不屬于上述12家公司的范圍內,Robots協議也已經被認定為互聯網行業搜索領域內公認的商業道德:北京市第一中級人民法院在某互聯網安全公司不正當競爭案件中,將行業內公認的Robots協議認定為互聯網行業搜索領域公認的商業道德。
法院在判決中指出:
在被告推出搜索引擎伊始,其網站亦刊載了Robots協議的內容和設置方法,說明包括被告在內的整個互聯網行業對于Robots協議都是認可和遵守的。其應當被認定為行業內的通行規則,應當被認定為搜索引擎行業內公認的、應當被遵守的商業道德。
因此,爬取方違反Robots協議的行為可能會被認定為違反《反不正當競爭法》第2條,即違反誠實信用原則以及商業道德。
雖然網絡上公開的信息較難構成商業秘密,但由于網絡上的某些信息可以通過采取技術措施使得僅有特定的用戶可以接觸,因此網絡上的信息仍有可能具備商業秘密要求的秘密性和保密性,構成商業秘密的可能。
如果爬蟲控制者在抓取信息的過程中有意地規避了網站經營者設置的保護措施,接觸、保存甚至披露了一般用戶原本無法訪問的信息,而該等信息又構成商業秘密,則爬蟲控制者的該等行為存在侵犯他人商業秘密的可能,進而可能會違反《反不正當競爭法》第9條。
同時,因為爬蟲會對被爬取方的網絡系統等造成妨礙,所以此類行為可能會違反《反不正當競爭法》第12條。
2.著作權維度
無論是網絡上的文章、圖片、用戶評論,還是網站自身的數據庫,都有可能在具備獨創性的情況下構成著作權法保護的作品。對于該等信息的抓取和使用有可能會構成對著作權的侵犯,特別是復制權和網絡信息傳播權。因為抓取數據的行為本質上是對數據的復制,因此該等行為有可能侵犯著作權人的復制權。
同時就數據提取和使用行為而言,如果爬蟲控制者抓取信息后,在自己的網站上公開傳播抓取到的信息,則還有可能進一步侵犯信息網絡傳播權。
例如,馬某某等訴某網絡科技公司著作權侵權糾紛案。
案情事實
被告某網絡科技公司利用類似搜索引擎的計算機爬蟲技術進行法語詞條的收集與翻譯釋文的搜索,未支付相應報酬而大量使用原告享有著作權的《當代法漢科技詞典》中的內容,馬某某將該網絡科技公司以侵犯著作權為由訴至法院。
判決結果
根據法律規定,除合理使用外,使用他人作品應當經著作權人同意,并支付相應報酬。被告稱其通過爬蟲技術收集了詞匯詞條及中文釋義,該技術是被告收集并形成其網絡詞典詞庫的一種手段,而非在使用《法語助手》時,通過搜索鏈接直接指向其他目標網站,被告應該對其收集并使用的詞匯及中文釋義合法性負有較高的審核注意義務。
因此,被告制作的法語翻譯軟件內容,部分抄襲原告《當代法漢科技詞典》的釋義內容,侵犯了原告等人的著作權,應依法承擔停止侵害、賠禮道歉、賠償損失的民事責任。
3.《刑法》及《網絡安全法》維度
從技術角度分析,爬蟲可能會導致目標網站負荷過大,進而引起網站無法訪問甚至癱瘓等不良后果,爬取方可能會違反《網絡安全法》中關于網絡運行安全方面的規定。但如果你還涉及侵入的情況,就可能會觸犯《刑法》第285、286條的規定。
例如在某案例中,王某利用遠程登錄的方法,通過一個攻擊指令侵入目標公司的計算機信息系統,將系統中公司員工的郵箱、通訊錄導出來,再修改相應的密碼,從而可以隨意進入員工的郵箱,最后被判處非法獲取計算機信息系統數據罪。
從爬取的內容角度分析,如果爬取的內容是個人信息,那么可能違反《網絡安全法》關于收集個人信息合規性的要求,甚至可能觸犯《刑法》中的侵犯公民個人信息罪。
小結
綜上,數據爬取行為不但容易引起監管部門的重點關注,也易受到來自競爭對手的訴訟,建議企業在進行數據爬取行為時注意以下要點內容。
- 盡量避免爬取構成直接競爭關系的企業的平臺數據,避免競爭對手依據《反不正當競爭法》提起訴訟的風險。
- 盡量爬取明確公開的數據,遵守Robots協議等網站明確公開的協議,避免爬取平臺禁止爬取的數據。
- 根據《數據安全管理辦法(征求意見稿)》第16條的要求,數據爬取收集流量不得超過網站日均流量的三分之一,避免造成目標網站崩潰、無法正常運營等情況。
- 對于目標網站已經明確采取技術手段阻止爬蟲訪問的,公司不應侵入、破壞其防護措施。
- 如目標網站明確發出停止數據爬取的相關通知說明,則應暫停數據爬取行為,及時采取對策。
本文摘編自《數據合規:入門、實戰與進階》(ISBN:978-7-111-70536-9),經出版方授權發布。