專治AI爬蟲,Cloudflare推出“下一代蜜罐”
網絡基礎設施服務商Cloudflare近日推出一項全新功能“AI Labyrinth”(AI迷宮),專門針對那些未經授權、肆意抓取網站數據的AI爬蟲。這項工具不走尋常路,不直接攔截,而是用AI生成的“假內容”迷惑爬蟲,讓試圖為ChatGPT這類大語言模型收集訓練數據的AI公司空忙一場。
“下一代蜜罐”登場
成立于2009年的Cloudflare提供網站基礎設施和安全服務,尤其擅長抵御分布式拒絕服務(DDoS)攻擊和惡意流量。這次推出的“AI迷宮”一改傳統“攔截為主”的防御策略,轉而將爬蟲引入一個由逼真但無用頁面組成的“迷宮”,消耗其計算資源。Cloudflare坦言,直接屏蔽爬蟲有時會適得其反,反而提醒爬蟲操控者自己已被發現。
“一旦檢測到未經許可的爬取行為,我們不會直接拒絕,而是引導爬蟲進入一系列AI生成的頁面。這些頁面看似真實,足以吸引爬蟲深入探索,”Cloudflare在官方博客中寫道,“但實際上,這些內容與我們保護的網站毫無關聯,爬蟲只能白費力氣?!?/p>
為避免制造謠言,這些喂給爬蟲的內容并非隨意捏造,而是基于生物學、物理學或數學等領域的真實科學事實,由Cloudflare自家的Workers AI服務平臺生成。普通用戶無需擔心誤入歧途,這些陷阱頁面對人類訪客完全不可見。
Cloudflare將“AI迷宮”稱為“下一代蜜罐”。傳統蜜罐通常是隱藏鏈接,人類看不到,但爬蟲會循跡而去。然而,現代爬蟲已變得更加狡猾,能輕松識破簡單陷阱。為此,Cloudflare設計了更復雜的假鏈接,加入元指令避免被搜索引擎收錄,同時保持對數據抓取爬蟲的吸引力。
“正常人不會連點四層鏈接,鉆進AI生成的無意義內容里,”Cloudflare解釋,“能這么做的,多半是爬蟲。這為我們提供了一個全新手段,識別并標記惡意爬蟲?!?/p>
通過這一過程收集的數據將進入機器學習系統,形成反饋循環,不斷提升Cloudflare網絡的爬蟲檢測能力,增強客戶保護。值得一提的是,無論用戶使用免費版還是付費版,只需在控制面板輕點開關,即可啟用這一功能。
AI爬蟲泛濫,網站主頭痛
近年來,AI爬蟲的激增已成為網絡世界的一大難題。Cloudflare數據顯示,其網絡每天處理超500億次AI爬蟲請求,占總流量的近1%,這與業內傳聞相符。許多爬蟲未經網站主同意就抓取數據,用于訓練大語言模型,引發了內容創作者和出版商的廣泛不滿,甚至訴諸法律。
今年1月,類似工具“Nepenthes”曾亮相,同樣通過假內容迷惑爬蟲,但其匿名開發者將其定位為“攻擊性惡意軟件”,意在困住爬蟲數月。而Cloudflare則強調“AI迷宮”是合法安全功能,旨在為商用客戶提供便捷保護。
這種AI防御性應用頗具創意,旨在保護網站主和創作者的權益,而非威脅其知識產權。然而,AI爬蟲是否會迅速適應、繞過這些陷阱,仍是未知數,Cloudflare或需持續升級策略。此外,消耗AI公司資源可能引發爭議,尤其在AI模型能耗與環境成本備受關注之際。
Cloudflare表示,目前發布的只是AI防御爬蟲的“初代版本”。未來,他們計劃讓假內容更難識別,并與網站結構更緊密融合。