GPT-4o連驗證碼都解不了？SOTA模型成功率僅40%

2025-06-04 13:53:22

人工智能新聞

MetaAgentX團隊推出首個專注于“多模態交互智能體×CAPTCHA（人機驗證）問題”的開放式研究平臺——Open CaptchaWorld。

當前最強多模態Agent連驗證碼都解不了？

MetaAgentX團隊推出首個專注于“多模態交互智能體×CAPTCHA（人機驗證）問題”的開放式研究平臺——Open CaptchaWorld。

該平臺專門用于測試Agent解驗證碼的能力。

實測結果顯示：人類平均成功率達93.3%，SOTA多模態模型平均僅5%-40%不等。

連GPT-4o都被難住了。

驗證碼是現階段Agent部署的一大瓶頸

在真實網頁場景中部署多模態Agent，你是否也被人機驗證（CAPTCHA）卡住過？

項目團隊發現，不少大型Benchmarks（包括AgentBench、VisualWebArena等）在構建過程中都刻意跳過了含驗證碼的網頁，仿佛這道攔路虎根本不存在。

但現實很骨感：驗證碼從不是“特例”，而是任何實際任務中不可回避的存在，尤其在電商、登錄、票務等高價值網頁中更是常見。

于是，Open CaptchaWorld這個測試平臺以及Benchmark應運而生：一個針對多模態大模型Agent的CAPTCHA解題平臺與評估基準——專為視覺-語言-動作交互任務設計。

無論是OpenAI的o3、Anthropic的Claude?3.7-sonnet、還是Gemini?2.5-pro，這些最新的多模態大模型Agent盡管在靜態感知任務（如圖文問答、UI理解）中表現出色，但在真實交互環境中常常卡在了CAPTCHA環節：

WebAgent在執行end-to-end任務時，常因驗證碼而被“卡死”；
AgentBench、VisualWebArena等主流評估集普遍過濾掉含CAPTCHA的網頁；
過去的驗證碼研究（如reCAPTCHA、DeepCAPTCHA）更聚焦靜態識別，對交互、多步規劃與狀態跟蹤能力評估嚴重不足。

為了系統性地評估Agent在驗證碼中的真實表現，研究團隊設計了一個全新的開放基準與平臺——Open CaptchaWorld。

這個平臺不僅包含最新的現代驗證碼而且類型豐富（20種），全部在真實 Web 瀏覽環境中進行操作，真正復現 Agent 實際遇到的挑戰：

“解圖+理解規則+計劃操作+逐步交互” = Agent能力的真實考驗。

Open CaptchaWorld平臺

具體特點

1、大規模、多樣性以及覆蓋全面：研究團隊創作了商用的最新的20類現代驗證碼，累計225個樣例；類型涵蓋點擊順序、滑塊對齊、圖像選擇、數字計數、拖拽匹配等。

2、交互真實：所有驗證碼均部署在網頁環境中，Agent必須通過觀察截圖、點擊、拖動等方式完成操作，模擬真實用戶交互流程。

3、提出新評估指標CAPTCHA Reasoning Depth：用于量化一個驗證碼背后需要多少步“視覺理解+認知計劃+動作控制”的過程；是對傳統“靜態圖像分類”評價方式的重要補充，更貼近Agent真實解題難度。

4、對比分析詳盡：對OpenAI-o3、GPT-4o、Claude-3.7、Gemini2.5-Pro等模型進行系統評估；人類解題成功率高達93.3%，最強模型OpenAI-o3僅為40.0%；并從策略偏差、視覺錯誤、執行失敗等維度剖析失敗原因。

數據構造方法

Open CaptchaWorld的數據集構建遵循四階段流程，旨在生成多樣化、高質量、可交互的CAPTCHA樣本，用于評估多模態智能體在真實網頁場景下的表現。

第一步：圖像素材構建（Type Related CAPTCHA Image Curation）

根據每類CAPTCHA的設計需求，由人類設計師或者GPT-4o生成具有變化性的圖像素材。

包括目標位置、觀察角度、對象排布、數字與元素分布等多種視覺因素的系統調整，確保每類任務在結構上具有足夠的多樣性與泛化性。

第二步：驗證碼生成（CAPTCHA Generation）

圍繞構造好的圖像素材，為每個實例配套生成自然語言指令，任務描述由人類設計或由大模型輔助生成，確保語言表達清晰，易于Agent理解。

指令內容涵蓋點擊、滑動、拖動、計數、比對等典型交互操作，結合網頁前端組件實現真實交互邏輯。

第三步：推理深度估計（Reasoning Depth Estimation）

為精確刻畫每道CAPTCHA的解題復雜度，引入“CAPTCHA Reasoning Depth”指標。

該指標通過人工注釋者對解題過程的逐步分解，記錄人類在完成任務時涉及的視覺識別、邏輯判斷、記憶操作與交互控制等原子推理步驟，并據此評估任務的綜合認知深度。

第四步：標準注釋生成（Annotation）

最終由標注人員確認每個CAPTCHA實例的標準答案，包括操作路徑、點擊位置或數值輸入結果。

所有任務均保證為人類易解（成功率高），同時具備統一的判定邏輯和網頁反饋接口，為模型訓練與評估提供穩定可靠的標簽支撐。

多模態Agent在驗證碼面前“過度思考、頻繁失敗”

該團隊發現，多數先進Agent在CAPTCHA面前顯得手足無措，不僅成功率低，而且解題行為遠不如人類高效。

例如在“序列點擊”任務中：人類通常只需識別圖案 → 記住順序 → 一次性點擊完成；

模型（如OpenAI-o3）往往會把操作細化為十余步，比如“記住第一個圖標”、“確認當前狀態”、“點擊后等待反饋”…… 這種“過度分解任務”的現象。不僅拖慢操作流程，還增加了出錯概率。

這類現象反映出當前Agent在高交互、高動態場景下的顯著劣勢：缺乏人類式的抽象、泛化與控制能力。

除此之外研究團隊還展示了當前主流多模態大模型Agent在Open CaptchaWorld上的成本-性能權衡關系。

從下圖所示，橫軸為評估成本（以對數刻度表示），縱軸為CAPTCHA解題任務中的Pass@1成功率（百分比）。每個點代表一個具體模型的運行結果。

從圖中可以看出，OpenAI-o3雖然在成功率方面顯著領先（達40.0%），但同時也是成本最高的模型，顯示出較強的能力但較差的性價比。

而Gemini2.5-Pro和GPT-4.1等模型在保持相對較高成功率（約25%）的同時，成本控制更為合理，展現出較好的“單位預算表現”。

相比之下，Claude-3.5-Sonnet、GPT-4o與OpenAI-o1等模型盡管評估開銷中等或偏高，但解題成功率較低，顯示出在當前CAPTCHA場景下的適配能力仍較弱。

DeepSeek-V3和Claude-3.5-Haiku成本較低，成功率保持在15%~20%區間，體現出更優的成本效率平衡，適合作為輕量級基線。

總體來看，該圖揭示了多模態 Agent 在真實交互任務中并不總是“越貴越強”，也突出了Open CaptchaWorld平臺在分析Agent實用性、可部署性方面的重要價值。

未來的模型設計應更加關注效率與性能之間的協同優化。

Open CaptchaWorld平臺為Agent開發者、基準設計者提供了新的思路。

也揭示了——

當前Agent的真實“短板”——長序列任務動態交互和規劃交互能力；
現有Benchmark評估的盲區——大量省略了真實部署中不可或缺的“人機驗證”環節；
新模型設計方向——如何提升Agent在現實網頁任務中的自動化與魯棒性。
Agent時代下的新型Captcha設計——目前的Captcha遲早會被Agent能力增長而攻破，我們也需要實時更新設計新的Captcha來順應技術的發展。

Open CaptchaWorld的提出旨在鼓勵研究者在訓練和評估Agent時，不再回避CAPTCHA問題，而是勇敢面對它，因為在現實世界中，如果連驗證碼都通過不了，這個Agent就無法落地。

Spaces：https://huggingface.co/spaces/YaxinLuo/Open_CaptchaWorld

代碼庫 & 數據鏈接： https://github.com/MetaAgentX/OpenCaptchaWorld

責任編輯：張燕妮來源：量子位

代碼模型 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看