你被大模型DDoS了嗎？大模型“DDoS攻擊力指數(shù)”TOP10榜單出爐

作者：佚名 2025-03-20 10:54:45

想象一下，你是一個默默耕耘的開源社區(qū)管理員，服務(wù)器日復(fù)一日地為開發(fā)者提供支持，突然有一天，流量日志里冒出一堆不速之客——不是黑客，不是爬蟲愛好者，而是AI大模型的訓(xùn)練機(jī)器人。

想象一下，你是一個默默耕耘的開源社區(qū)管理員，服務(wù)器日復(fù)一日地為開發(fā)者提供支持，突然有一天，流量日志里冒出一堆不速之客——不是黑客，不是爬蟲愛好者，而是AI大模型的訓(xùn)練機(jī)器人。這些家伙像餓狼一樣撲向你的數(shù)據(jù)，把帶寬吃得干干凈凈，甚至連頁面加載都卡到懷疑人生。很遺憾，這不是陰謀論科幻片，而是廣大中小互聯(lián)網(wǎng)企業(yè)/服務(wù)正面臨的現(xiàn)實(shí)威脅。

DDoS新勢力：AI爬蟲

就在本周一，SourceHut——一家開源Git托管服務(wù)平臺，在其狀態(tài)頁面上無奈喊話：“我們持續(xù)遭受激進(jìn)的LLM（大語言模型）爬蟲干擾，服務(wù)屢屢受阻。”為了自救，他們祭出了名為“Nepenthes”的捕蟲器，試圖困住這些為AI訓(xùn)練而生的爬蟲，同時還直接封禁了Google Cloud和Microsoft Azure等云服務(wù)商的IP——因?yàn)檫@些地方正是爬蟲流量的重災(zāi)區(qū)。

SourceHut坦言，雖然這些措施暫時控制住了局面，但也可能誤傷正常用戶，體驗(yàn)降級在所難免。

這不是SourceHut第一次被“爬蟲DDoS”搞得焦頭爛額。早在2022年，他們就曾公開diss谷歌的Go Module Mirror，指責(zé)其無節(jié)制的流量請求形同“拒絕服務(wù)攻擊”。而如今，隨著生成式AI熱潮席卷全球，類似的故事在互聯(lián)網(wǎng)的各個角落反復(fù)上演。

維修網(wǎng)站iFixit去年7月就曾抱怨Anthropic的Claudebot過度爬取；云托管服務(wù)Vercel則在2024年12月披露，單月內(nèi)OpenAI的GPTbot發(fā)起了5.69億次請求，Anthropic的Claudebot也有3.7億次，合計(jì)占谷歌Googlebot請求量的20%。Diaspora開發(fā)者Dennis Schubert甚至爆料，他服務(wù)器60天內(nèi)70%的流量都來自LLM訓(xùn)練機(jī)器人。

這些AI爬蟲為何如此猖狂？答案很簡單：數(shù)據(jù)饑渴。生成式AI的崛起讓OpenAI、Anthropic、Google等玩家對互聯(lián)網(wǎng)內(nèi)容的渴求達(dá)到了前所未有的高度。無論是ChatGPT的對話能力，還是Claude的推理水平，背后都需要海量數(shù)據(jù)喂養(yǎng)。然而，這種“拿來主義”正在給中小型互聯(lián)網(wǎng)服務(wù)帶來沉重負(fù)擔(dān)，甚至演變成一場無形的DDoS危機(jī)。

大模型“DDoS攻擊力指數(shù)”TOP10榜單

為了更直觀地呈現(xiàn)這些AI爬蟲的“破壞力”，GoUpSec基于近期互聯(lián)網(wǎng)相關(guān)報(bào)道與公開數(shù)據(jù)，整理了一份“大模型DDoS攻擊力指數(shù)TOP10榜單”。指數(shù)綜合了爬蟲的請求量、覆蓋網(wǎng)站范圍、被封禁頻率以及對服務(wù)影響的嚴(yán)重程度等維度。以下是榜單及簡評：

1.Bytespider（字節(jié)跳動）

指數(shù)：95

點(diǎn)評：字節(jié)跳動的爬蟲王者，據(jù)Cloudflare統(tǒng)計(jì)，其請求量和覆蓋范圍均居首位，為自家AI產(chǎn)品豆包囤糧。被封禁率也高，其激進(jìn)作風(fēng)無人能敵。

2.GPTbot（OpenAI）

指數(shù)：90

點(diǎn)評：OpenAI的明星爬蟲，單月5.69億次請求讓人咋舌。雖然承諾尊重robots.txt，但偽裝流量和過載投訴仍讓它穩(wěn)坐榜眼。

3.Claudebot（Anthropic）

指數(shù)：85

點(diǎn)評：Anthropic的訓(xùn)練先鋒，3.7億次月請求+iFixit百萬次單日轟炸，堪稱“溫柔殺手”。被封禁率稍低，但破壞力不容小覷。

4.Amazonbot（亞馬遜）

指數(shù)：80

點(diǎn)評：為Alexa索引內(nèi)容而生，流量雖不及前三，但開發(fā)者頻頻抱怨其過載行為，偽裝流量也讓人生疑。

5.Google-Extended（谷歌）

指數(shù)：75

點(diǎn)評：谷歌專為AI訓(xùn)練設(shè)計(jì)的爬蟲，13.6%的頂級網(wǎng)站封禁率顯示其影響力。雙重身份（搜索+AI）讓網(wǎng)站主投鼠忌器。

6.AppleBot（蘋果）

指數(shù)：70

點(diǎn)評：蘋果為AI功能收集數(shù)據(jù)的代表，透明度較高，但DoubleVerify數(shù)據(jù)顯示其貢獻(xiàn)了2024年16%的無效流量。

7.Meta AI Bot（Meta）

指數(shù)：65

點(diǎn)評：Meta的AI野心驅(qū)使其爬蟲活躍，雖然自稱目的明確，但多用途屬性讓封禁變得復(fù)雜。

8.CCBot（Common Crawl）

指數(shù)：60

點(diǎn)評：開源數(shù)據(jù)集的常客，22.1%的頂級網(wǎng)站封禁率說明其影響廣泛，但攻擊性稍遜商業(yè)爬蟲。

9.OAI-SearchBot（OpenAI）

指數(shù)：55

點(diǎn)評：OpenAI的新兵，甫一亮相就被14家主流媒體封殺，潛力未完全釋放。

10.Perplexity AI Bot（Perplexity）

指數(shù)：50

點(diǎn)評：AI搜索新貴，偽裝成普通瀏覽器偷偷摸摸爬數(shù)據(jù)，惹惱了不少網(wǎng)站主。

面對“白嫖”：躺平還是對抗？

瘋狂的AI爬蟲其實(shí)也有自己的行規(guī)，2023年8月，OpenAI率先承諾GPTbot會遵守robots.txt標(biāo)準(zhǔn)，其他廠商紛紛跟進(jìn)。然而現(xiàn)實(shí)卻是，承諾歸承諾，執(zhí)行靠自覺。Diaspora的Schubert就發(fā)現(xiàn)，他的服務(wù)器日志里滿是偽裝成GPTbot的“山寨爬蟲”，IP來自AWS甚至美國居民網(wǎng)絡(luò)，顯然是惡作劇者趁亂起哄。DoubleVerify的報(bào)告更指出，2024下半年因AI爬蟲導(dǎo)致的“一般無效流量”（GIVT）激增86%，其中16%直接來自GPTbot、Claudebot等知名玩家。

這背后，是AI公司與網(wǎng)站主之間的博弈。一方面，AI廠商需要數(shù)據(jù)喂養(yǎng)模型，互聯(lián)網(wǎng)是天然的“糧倉”；另一方面，網(wǎng)站主卻面臨帶寬擠占、隱私爭議甚至版權(quán)糾紛的困境。SourceHut封禁云服務(wù)商、iFixit更新robots.txt，都是被動防御的縮影。更棘手的是，像Googlebot這樣身兼搜索與AI雙重任務(wù)的爬蟲，讓網(wǎng)站主在封禁與曝光之間左右為難（編者：谷歌2023年發(fā)布robots.txt的Google-Extended產(chǎn)品令牌，經(jīng)允許網(wǎng)站運(yùn)營者單獨(dú)封鎖爬蟲而不影響網(wǎng)頁檢索和排名）。

AI爬蟲的“DDoS效應(yīng)”暴露了生成式AI熱潮下的隱憂。對于中小型服務(wù)商來說，這不僅是技術(shù)挑戰(zhàn)，更是生存問題。SourceHut的“Nepenthes”捕蟲器、Cloudflare的“一鍵屏蔽AI爬蟲”功能，都是技術(shù)社區(qū)的反擊嘗試。但長遠(yuǎn)看，光靠封禁和對抗顯然不是解藥。

或許，未來的出路在于平衡——AI公司需要更透明的數(shù)據(jù)采集政策，甚至通過授權(quán)或付費(fèi)模式與網(wǎng)站主合作；而網(wǎng)站主則需在保護(hù)自身權(quán)益與擁抱AI生態(tài)之間找到折中點(diǎn)。否則，這場爬蟲與服務(wù)的“貓鼠游戲”，只會讓互聯(lián)網(wǎng)的生態(tài)雪上加霜。

你被大模型DDoS了嗎？也許下一個喊救命的，就是你常上的那個小眾論壇。

責(zé)任編輯：華軒來源： GoUpSec