你被大模型DDoS了嗎?大模型“DDoS攻擊力指數(shù)”TOP10榜單出爐
想象一下,你是一個默默耕耘的開源社區(qū)管理員,服務(wù)器日復(fù)一日地為開發(fā)者提供支持,突然有一天,流量日志里冒出一堆不速之客——不是黑客,不是爬蟲愛好者,而是AI大模型的訓(xùn)練機(jī)器人。這些家伙像餓狼一樣撲向你的數(shù)據(jù),把帶寬吃得干干凈凈,甚至連頁面加載都卡到懷疑人生。很遺憾,這不是陰謀論科幻片,而是廣大中小互聯(lián)網(wǎng)企業(yè)/服務(wù)正面臨的現(xiàn)實(shí)威脅。
DDoS新勢力:AI爬蟲
就在本周一,SourceHut——一家開源Git托管服務(wù)平臺,在其狀態(tài)頁面上無奈喊話:“我們持續(xù)遭受激進(jìn)的LLM(大語言模型)爬蟲干擾,服務(wù)屢屢受阻。”為了自救,他們祭出了名為“Nepenthes”的捕蟲器,試圖困住這些為AI訓(xùn)練而生的爬蟲,同時還直接封禁了Google Cloud和Microsoft Azure等云服務(wù)商的IP——因?yàn)檫@些地方正是爬蟲流量的重災(zāi)區(qū)。
SourceHut坦言,雖然這些措施暫時控制住了局面,但也可能誤傷正常用戶,體驗(yàn)降級在所難免。
這不是SourceHut第一次被“爬蟲DDoS”搞得焦頭爛額。早在2022年,他們就曾公開diss谷歌的Go Module Mirror,指責(zé)其無節(jié)制的流量請求形同“拒絕服務(wù)攻擊”。而如今,隨著生成式AI熱潮席卷全球,類似的故事在互聯(lián)網(wǎng)的各個角落反復(fù)上演。
維修網(wǎng)站iFixit去年7月就曾抱怨Anthropic的Claudebot過度爬取;云托管服務(wù)Vercel則在2024年12月披露,單月內(nèi)OpenAI的GPTbot發(fā)起了5.69億次請求,Anthropic的Claudebot也有3.7億次,合計(jì)占谷歌Googlebot請求量的20%。Diaspora開發(fā)者Dennis Schubert甚至爆料,他服務(wù)器60天內(nèi)70%的流量都來自LLM訓(xùn)練機(jī)器人。
這些AI爬蟲為何如此猖狂?答案很簡單:數(shù)據(jù)饑渴。生成式AI的崛起讓OpenAI、Anthropic、Google等玩家對互聯(lián)網(wǎng)內(nèi)容的渴求達(dá)到了前所未有的高度。無論是ChatGPT的對話能力,還是Claude的推理水平,背后都需要海量數(shù)據(jù)喂養(yǎng)。然而,這種“拿來主義”正在給中小型互聯(lián)網(wǎng)服務(wù)帶來沉重負(fù)擔(dān),甚至演變成一場無形的DDoS危機(jī)。
大模型“DDoS攻擊力指數(shù)”TOP10榜單
為了更直觀地呈現(xiàn)這些AI爬蟲的“破壞力”,GoUpSec基于近期互聯(lián)網(wǎng)相關(guān)報(bào)道與公開數(shù)據(jù),整理了一份“大模型DDoS攻擊力指數(shù)TOP10榜單”。指數(shù)綜合了爬蟲的請求量、覆蓋網(wǎng)站范圍、被封禁頻率以及對服務(wù)影響的嚴(yán)重程度等維度。以下是榜單及簡評:
1.Bytespider(字節(jié)跳動)
指數(shù):95
點(diǎn)評:字節(jié)跳動的爬蟲王者,據(jù)Cloudflare統(tǒng)計(jì),其請求量和覆蓋范圍均居首位,為自家AI產(chǎn)品豆包囤糧。被封禁率也高,其激進(jìn)作風(fēng)無人能敵。
2.GPTbot(OpenAI)
指數(shù):90
點(diǎn)評:OpenAI的明星爬蟲,單月5.69億次請求讓人咋舌。雖然承諾尊重robots.txt,但偽裝流量和過載投訴仍讓它穩(wěn)坐榜眼。
3.Claudebot(Anthropic)
指數(shù):85
點(diǎn)評:Anthropic的訓(xùn)練先鋒,3.7億次月請求+iFixit百萬次單日轟炸,堪稱“溫柔殺手”。被封禁率稍低,但破壞力不容小覷。
4.Amazonbot(亞馬遜)
指數(shù):80
點(diǎn)評:為Alexa索引內(nèi)容而生,流量雖不及前三,但開發(fā)者頻頻抱怨其過載行為,偽裝流量也讓人生疑。
5.Google-Extended(谷歌)
指數(shù):75
點(diǎn)評:谷歌專為AI訓(xùn)練設(shè)計(jì)的爬蟲,13.6%的頂級網(wǎng)站封禁率顯示其影響力。雙重身份(搜索+AI)讓網(wǎng)站主投鼠忌器。
6.AppleBot(蘋果)
指數(shù):70
點(diǎn)評:蘋果為AI功能收集數(shù)據(jù)的代表,透明度較高,但DoubleVerify數(shù)據(jù)顯示其貢獻(xiàn)了2024年16%的無效流量。
7.Meta AI Bot(Meta)
指數(shù):65
點(diǎn)評:Meta的AI野心驅(qū)使其爬蟲活躍,雖然自稱目的明確,但多用途屬性讓封禁變得復(fù)雜。
8.CCBot(Common Crawl)
指數(shù):60
點(diǎn)評:開源數(shù)據(jù)集的常客,22.1%的頂級網(wǎng)站封禁率說明其影響廣泛,但攻擊性稍遜商業(yè)爬蟲。
9.OAI-SearchBot(OpenAI)
指數(shù):55
點(diǎn)評:OpenAI的新兵,甫一亮相就被14家主流媒體封殺,潛力未完全釋放。
10.Perplexity AI Bot(Perplexity)
指數(shù):50
點(diǎn)評:AI搜索新貴,偽裝成普通瀏覽器偷偷摸摸爬數(shù)據(jù),惹惱了不少網(wǎng)站主。
面對“白嫖”:躺平還是對抗?
瘋狂的AI爬蟲其實(shí)也有自己的行規(guī),2023年8月,OpenAI率先承諾GPTbot會遵守robots.txt標(biāo)準(zhǔn),其他廠商紛紛跟進(jìn)。然而現(xiàn)實(shí)卻是,承諾歸承諾,執(zhí)行靠自覺。Diaspora的Schubert就發(fā)現(xiàn),他的服務(wù)器日志里滿是偽裝成GPTbot的“山寨爬蟲”,IP來自AWS甚至美國居民網(wǎng)絡(luò),顯然是惡作劇者趁亂起哄。DoubleVerify的報(bào)告更指出,2024下半年因AI爬蟲導(dǎo)致的“一般無效流量”(GIVT)激增86%,其中16%直接來自GPTbot、Claudebot等知名玩家。
這背后,是AI公司與網(wǎng)站主之間的博弈。一方面,AI廠商需要數(shù)據(jù)喂養(yǎng)模型,互聯(lián)網(wǎng)是天然的“糧倉”;另一方面,網(wǎng)站主卻面臨帶寬擠占、隱私爭議甚至版權(quán)糾紛的困境。SourceHut封禁云服務(wù)商、iFixit更新robots.txt,都是被動防御的縮影。更棘手的是,像Googlebot這樣身兼搜索與AI雙重任務(wù)的爬蟲,讓網(wǎng)站主在封禁與曝光之間左右為難(編者:谷歌2023年發(fā)布robots.txt的Google-Extended產(chǎn)品令牌,經(jīng)允許網(wǎng)站運(yùn)營者單獨(dú)封鎖爬蟲而不影響網(wǎng)頁檢索和排名)。
AI爬蟲的“DDoS效應(yīng)”暴露了生成式AI熱潮下的隱憂。對于中小型服務(wù)商來說,這不僅是技術(shù)挑戰(zhàn),更是生存問題。SourceHut的“Nepenthes”捕蟲器、Cloudflare的“一鍵屏蔽AI爬蟲”功能,都是技術(shù)社區(qū)的反擊嘗試。但長遠(yuǎn)看,光靠封禁和對抗顯然不是解藥。
或許,未來的出路在于平衡——AI公司需要更透明的數(shù)據(jù)采集政策,甚至通過授權(quán)或付費(fèi)模式與網(wǎng)站主合作;而網(wǎng)站主則需在保護(hù)自身權(quán)益與擁抱AI生態(tài)之間找到折中點(diǎn)。否則,這場爬蟲與服務(wù)的“貓鼠游戲”,只會讓互聯(lián)網(wǎng)的生態(tài)雪上加霜。
你被大模型DDoS了嗎?也許下一個喊救命的,就是你常上的那個小眾論壇。