爬蟲VS反爬蟲的蝴蝶效應
The Butterfly Effect
美國氣象學家愛德華·羅倫茲(Edward N.Lorenz)1963年在一篇提交紐約科學院的論文中分析了一個叫做蝴蝶效應的理論:“一個氣象學家提及,如果這個理論被證明正確,一只海鷗扇動翅膀足以永遠改變天氣變化。”
在以后的演講和論文中他用了更加有詩意的蝴蝶。對于這個效應最常見的闡述是:
“一只南美洲亞馬遜河流域熱帶雨林中的蝴蝶,偶爾扇動幾下翅膀,可以在兩周以后引起美國德克薩斯州的一場龍卷風。”
“蝴蝶效應”主要是關于混沌學的一個比喻,也是蝴蝶效應的真實反應。不起眼的一個小動作卻能引起一連串的巨大反應——由于誤差會以指數形式增長,在這種情況下,一個微小的誤差隨著不斷推移造成了巨大的后果。
在互聯網的世界中,蝴蝶效應的呈現則更為明顯,身為互聯網使用者,你的每一次點擊,每一個打開,每一個保存與分享都不僅僅只是點擊、打開、保存、分享,它們都將匯集成為數據,成為你互聯網暢游的路徑。
而對于企業來說,由上述數據推導出你的用戶畫像(根據你的社會屬性、生活習慣和消費行為等信息而抽象出的一個標簽化的用戶模型)早已不是難事。
不過你也無需擔憂,對于大多數企業而言,一兩個行為標本作用不大,企業所需要的是一個甚至多個受眾群體的大數據行為模型。
最初,爬蟲是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本,幫助搜索引擎作為一個輔助人們檢索信息的工具。不過,正如同光明與黑暗同時誕生、出生與死亡同存于這個世界,爬蟲的出現,也帶來惡意爬蟲的降生。
以下僅針對互聯網業務風控層面闡述。
爬蟲是所有攻擊鏈中的重要構成,無論是采集競爭對手網站的數據,嘗試破解用戶口令還是自動下單,其實都離不開爬蟲。
與傳統金融類風控不同,豈安更加關心整個風險事件前端的問題,從最開始用戶進入網站的行為進行分析。例如用戶在頁面的停留時間,是否多次修改輸入的內容等,這些行為讓風險判斷的準確性有了巨大的提升。
舉個栗子。
蝴
惡意爬取網站→ 注冊用戶掃描
雖然現在大部分平臺的注冊頁面上會有圖片驗證碼,在一定程度上可以防范爬蟲自動化程序遍歷手機號查詢已注冊的用戶。
但在不同的終端上,還是可以通過簡單的請求判斷出用戶是否已經注冊。
蝶
爬取注冊用戶→ 進行業務欺詐
這個數據可以拿來做什么?
一方面,我們已知某個手機號碼是某網站的注冊用戶,這個信息可以用作欺詐,比如模仿官方的服務號向用戶發送欺詐短信騙取驗證碼短信,進行資金盜取。
另外,可以將這些數據向競爭對手出售,協助對方進行精準營銷爭奪用戶。
效
業務欺詐→ 短信轟炸操作
國內每天都在發生大量的業務欺詐等案件,比如模仿官方的服務號向用戶發送欺詐短信騙取驗證碼短信,進行資金盜取。
在欺詐手法中,還經常使用短信轟炸,比如在盜卡盜刷時,為了增加自己的作案時間,用大量的驗證短信掩蓋掉真正的銀行卡消費短信,讓受害者無法快速的發現并凍結自己的銀行卡。
為了達到這種目的,攻擊者會使用多家網站的短信接口對受害者發送短信,進而產生短信轟炸問題。
應
短信轟炸→ 賬戶盜用
個人賬戶被盜后:垃圾注冊→ 產生羊毛黨→ 刷單 …… 職業團隊產生:爬取評論→ 差評師→ 惡意競爭攻 …… 其它模式→……
我們可以看到,最基礎的爬蟲所帶來的,猶如那只南美洲亞馬遜河流域熱帶雨林中的蝴蝶,拍一拍翅膀,或許只是抖抖陽光雨露,瀟灑飛去,或許帶來的就是一連串由它而起,又似乎與它無關的后續風暴。
author:Rafael Araujo
那么要禁用爬蟲嗎?
顯然不可能,如果沒有爬蟲的存在,你將不再有可能被搜索引擎抓到,在重度依賴搜索引擎的現代用戶世界中,你也就成為了‘存在而不可見的’透明人。
我相信這是所有企業都不愿意看到的。
所以,互聯網世界正如真實世界一樣,有好人和壞人,數據和爬蟲技術本身沒有好壞之分,關鍵點在于使用它們的那些人。
根據網站內容的安全性及敏感性,區別對待爬蟲是比較理想的措施。豈安所做的事情,就是要把好人和壞人區分開來。當然,豈安所能做的也不止這一點,聊完‘蝴蝶’的問題,下次我們再找機會跟河馬安安聊聊‘龍卷風’。