GPT-4o連驗證碼都解不了?SOTA模型成功率僅40%
當前最強多模態Agent連驗證碼都解不了?
MetaAgentX團隊推出首個專注于“多模態交互智能體×CAPTCHA(人機驗證)問題”的開放式研究平臺——Open CaptchaWorld。
該平臺專門用于測試Agent解驗證碼的能力。
實測結果顯示:人類平均成功率達93.3%,SOTA多模態模型平均僅5%-40%不等。
連GPT-4o都被難住了。
驗證碼是現階段Agent部署的一大瓶頸
在真實網頁場景中部署多模態Agent,你是否也被人機驗證(CAPTCHA)卡住過?
項目團隊發現,不少大型Benchmarks(包括AgentBench、VisualWebArena等)在構建過程中都刻意跳過了含驗證碼的網頁,仿佛這道攔路虎根本不存在。
但現實很骨感:驗證碼從不是“特例”,而是任何實際任務中不可回避的存在,尤其在電商、登錄、票務等高價值網頁中更是常見。
于是,Open CaptchaWorld這個測試平臺以及Benchmark應運而生:一個針對多模態大模型Agent的CAPTCHA解題平臺與評估基準——專為視覺-語言-動作交互任務設計。
無論是OpenAI的o3、Anthropic的Claude?3.7-sonnet、還是Gemini?2.5-pro,這些最新的多模態大模型Agent盡管在靜態感知任務(如圖文問答、UI理解)中表現出色,但在真實交互環境中常常卡在了CAPTCHA環節:
- WebAgent在執行end-to-end任務時,常因驗證碼而被“卡死”;
- AgentBench、VisualWebArena等主流評估集普遍過濾掉含CAPTCHA的網頁;
- 過去的驗證碼研究(如reCAPTCHA、DeepCAPTCHA)更聚焦靜態識別,對交互、多步規劃與狀態跟蹤能力評估嚴重不足。
為了系統性地評估Agent在驗證碼中的真實表現,研究團隊設計了一個全新的開放基準與平臺——Open CaptchaWorld。
這個平臺不僅包含最新的現代驗證碼而且類型豐富(20種),全部在真實 Web 瀏覽環境中進行操作,真正復現 Agent 實際遇到的挑戰:
“解圖+理解規則+計劃操作+逐步交互” = Agent能力的真實考驗。
Open CaptchaWorld平臺
具體特點
1、大規模、多樣性以及覆蓋全面:研究團隊創作了商用的最新的20類現代驗證碼,累計225個樣例;類型涵蓋點擊順序、滑塊對齊、圖像選擇、數字計數、拖拽匹配等。
2、交互真實:所有驗證碼均部署在網頁環境中,Agent必須通過觀察截圖、點擊、拖動等方式完成操作,模擬真實用戶交互流程。
3、提出新評估指標CAPTCHA Reasoning Depth:用于量化一個驗證碼背后需要多少步“視覺理解+認知計劃+動作控制”的過程;是對傳統“靜態圖像分類”評價方式的重要補充,更貼近Agent真實解題難度。
4、對比分析詳盡:對OpenAI-o3、GPT-4o、Claude-3.7、Gemini2.5-Pro等模型進行系統評估;人類解題成功率高達93.3%,最強模型OpenAI-o3僅為40.0%;并從策略偏差、視覺錯誤、執行失敗等維度剖析失敗原因。
數據構造方法
Open CaptchaWorld的數據集構建遵循四階段流程,旨在生成多樣化、高質量、可交互的CAPTCHA樣本,用于評估多模態智能體在真實網頁場景下的表現。
第一步:圖像素材構建(Type Related CAPTCHA Image Curation)
根據每類CAPTCHA的設計需求,由人類設計師或者GPT-4o生成具有變化性的圖像素材。
包括目標位置、觀察角度、對象排布、數字與元素分布等多種視覺因素的系統調整,確保每類任務在結構上具有足夠的多樣性與泛化性。
第二步:驗證碼生成(CAPTCHA Generation)
圍繞構造好的圖像素材,為每個實例配套生成自然語言指令,任務描述由人類設計或由大模型輔助生成,確保語言表達清晰,易于Agent理解。
指令內容涵蓋點擊、滑動、拖動、計數、比對等典型交互操作,結合網頁前端組件實現真實交互邏輯。
第三步:推理深度估計(Reasoning Depth Estimation)
為精確刻畫每道CAPTCHA的解題復雜度,引入“CAPTCHA Reasoning Depth”指標。
該指標通過人工注釋者對解題過程的逐步分解,記錄人類在完成任務時涉及的視覺識別、邏輯判斷、記憶操作與交互控制等原子推理步驟,并據此評估任務的綜合認知深度。
第四步:標準注釋生成(Annotation)
最終由標注人員確認每個CAPTCHA實例的標準答案,包括操作路徑、點擊位置或數值輸入結果。
所有任務均保證為人類易解(成功率高),同時具備統一的判定邏輯和網頁反饋接口,為模型訓練與評估提供穩定可靠的標簽支撐。
多模態Agent在驗證碼面前“過度思考、頻繁失敗”
該團隊發現,多數先進Agent在CAPTCHA面前顯得手足無措,不僅成功率低,而且解題行為遠不如人類高效。
例如在“序列點擊”任務中:人類通常只需識別圖案 → 記住順序 → 一次性點擊完成;
模型(如OpenAI-o3)往往會把操作細化為十余步,比如“記住第一個圖標”、“確認當前狀態”、“點擊后等待反饋”…… 這種“過度分解任務”的現象。不僅拖慢操作流程,還增加了出錯概率。
這類現象反映出當前Agent在高交互、高動態場景下的顯著劣勢:缺乏人類式的抽象、泛化與控制能力。
除此之外研究團隊還展示了當前主流多模態大模型Agent在Open CaptchaWorld上的成本-性能權衡關系。
從下圖所示,橫軸為評估成本(以對數刻度表示),縱軸為CAPTCHA解題任務中的Pass@1成功率(百分比)。每個點代表一個具體模型的運行結果。
從圖中可以看出,OpenAI-o3雖然在成功率方面顯著領先(達40.0%),但同時也是成本最高的模型,顯示出較強的能力但較差的性價比。
而Gemini2.5-Pro和GPT-4.1等模型在保持相對較高成功率(約25%)的同時,成本控制更為合理,展現出較好的“單位預算表現”。
相比之下,Claude-3.5-Sonnet、GPT-4o與OpenAI-o1等模型盡管評估開銷中等或偏高,但解題成功率較低,顯示出在當前CAPTCHA場景下的適配能力仍較弱。
DeepSeek-V3和Claude-3.5-Haiku成本較低,成功率保持在15%~20%區間,體現出更優的成本效率平衡,適合作為輕量級基線。
總體來看,該圖揭示了多模態 Agent 在真實交互任務中并不總是“越貴越強”,也突出了Open CaptchaWorld平臺在分析Agent實用性、可部署性方面的重要價值。
未來的模型設計應更加關注效率與性能之間的協同優化。
Open CaptchaWorld平臺為Agent開發者、基準設計者提供了新的思路。
也揭示了——
- 當前Agent的真實“短板”——長序列任務動態交互和規劃交互能力;
- 現有Benchmark評估的盲區——大量省略了真實部署中不可或缺的“人機驗證”環節;
- 新模型設計方向——如何提升Agent在現實網頁任務中的自動化與魯棒性。
- Agent時代下的新型Captcha設計——目前的Captcha遲早會被Agent能力增長而攻破,我們也需要實時更新設計新的Captcha來順應技術的發展。
Open CaptchaWorld的提出旨在鼓勵研究者在訓練和評估Agent時,不再回避CAPTCHA問題,而是勇敢面對它,因為在現實世界中,如果連驗證碼都通過不了,這個Agent就無法落地。
更多細節歡迎閱讀原文。
論文鏈接:https://arxiv.org/abs/2505.24878Huggingface
Spaces:https://huggingface.co/spaces/YaxinLuo/Open_CaptchaWorld
代碼庫 & 數據鏈接: https://github.com/MetaAgentX/OpenCaptchaWorld