成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4o連驗證碼都解不了?SOTA模型成功率僅40%

人工智能 新聞
MetaAgentX團隊推出首個專注于“多模態交互智能體×CAPTCHA(人機驗證)問題”的開放式研究平臺——Open CaptchaWorld。

當前最強多模態Agent連驗證碼都解不了?

MetaAgentX團隊推出首個專注于“多模態交互智能體×CAPTCHA(人機驗證)問題”的開放式研究平臺——Open CaptchaWorld

該平臺專門用于測試Agent解驗證碼的能力。

圖片

實測結果顯示:人類平均成功率達93.3%,SOTA多模態模型平均僅5%-40%不等。

GPT-4o都被難住了。

驗證碼是現階段Agent部署的一大瓶頸

在真實網頁場景中部署多模態Agent,你是否也被人機驗證(CAPTCHA)卡住過?

項目團隊發現,不少大型Benchmarks(包括AgentBench、VisualWebArena等)在構建過程中都刻意跳過了含驗證碼的網頁,仿佛這道攔路虎根本不存在。

但現實很骨感:驗證碼從不是“特例”,而是任何實際任務中不可回避的存在,尤其在電商、登錄、票務等高價值網頁中更是常見。

于是,Open CaptchaWorld這個測試平臺以及Benchmark應運而生:一個針對多模態大模型Agent的CAPTCHA解題平臺與評估基準——專為視覺-語言-動作交互任務設計。

無論是OpenAI的o3、Anthropic的Claude?3.7-sonnet、還是Gemini?2.5-pro,這些最新的多模態大模型Agent盡管在靜態感知任務(如圖文問答、UI理解)中表現出色,但在真實交互環境中常常卡在了CAPTCHA環節:

  • WebAgent在執行end-to-end任務時,常因驗證碼而被“卡死”;
  • AgentBench、VisualWebArena等主流評估集普遍過濾掉含CAPTCHA的網頁;
  • 過去的驗證碼研究(如reCAPTCHA、DeepCAPTCHA)更聚焦靜態識別,對交互、多步規劃與狀態跟蹤能力評估嚴重不足

為了系統性地評估Agent在驗證碼中的真實表現,研究團隊設計了一個全新的開放基準與平臺——Open CaptchaWorld

這個平臺不僅包含最新的現代驗證碼而且類型豐富(20種),全部在真實 Web 瀏覽環境中進行操作,真正復現 Agent 實際遇到的挑戰:

“解圖+理解規則+計劃操作+逐步交互” = Agent能力的真實考驗。

圖片

Open CaptchaWorld平臺

具體特點

1、大規模、多樣性以及覆蓋全面:研究團隊創作了商用的最新的20類現代驗證碼,累計225個樣例;類型涵蓋點擊順序、滑塊對齊、圖像選擇、數字計數、拖拽匹配等。

圖片

2、交互真實:所有驗證碼均部署在網頁環境中,Agent必須通過觀察截圖、點擊、拖動等方式完成操作,模擬真實用戶交互流程。

3、提出新評估指標CAPTCHA Reasoning Depth:用于量化一個驗證碼背后需要多少步“視覺理解+認知計劃+動作控制”的過程;是對傳統“靜態圖像分類”評價方式的重要補充,更貼近Agent真實解題難度。

4、對比分析詳盡:對OpenAI-o3、GPT-4o、Claude-3.7、Gemini2.5-Pro等模型進行系統評估;人類解題成功率高達93.3%,最強模型OpenAI-o3僅為40.0%;并從策略偏差、視覺錯誤、執行失敗等維度剖析失敗原因。

數據構造方法

圖片

Open CaptchaWorld的數據集構建遵循四階段流程,旨在生成多樣化、高質量、可交互的CAPTCHA樣本,用于評估多模態智能體在真實網頁場景下的表現。

第一步:圖像素材構建(Type Related CAPTCHA Image Curation)

根據每類CAPTCHA的設計需求,由人類設計師或者GPT-4o生成具有變化性的圖像素材。

包括目標位置、觀察角度、對象排布、數字與元素分布等多種視覺因素的系統調整,確保每類任務在結構上具有足夠的多樣性與泛化性。

第二步:驗證碼生成(CAPTCHA Generation)

圍繞構造好的圖像素材,為每個實例配套生成自然語言指令,任務描述由人類設計或由大模型輔助生成,確保語言表達清晰,易于Agent理解。

指令內容涵蓋點擊、滑動、拖動、計數、比對等典型交互操作,結合網頁前端組件實現真實交互邏輯。

第三步:推理深度估計(Reasoning Depth Estimation)

為精確刻畫每道CAPTCHA的解題復雜度,引入“CAPTCHA Reasoning Depth”指標。

該指標通過人工注釋者對解題過程的逐步分解,記錄人類在完成任務時涉及的視覺識別、邏輯判斷、記憶操作與交互控制等原子推理步驟,并據此評估任務的綜合認知深度。

第四步:標準注釋生成(Annotation)

最終由標注人員確認每個CAPTCHA實例的標準答案,包括操作路徑、點擊位置或數值輸入結果。

所有任務均保證為人類易解(成功率高),同時具備統一的判定邏輯和網頁反饋接口,為模型訓練與評估提供穩定可靠的標簽支撐。

多模態Agent在驗證碼面前“過度思考、頻繁失敗”

該團隊發現,多數先進Agent在CAPTCHA面前顯得手足無措,不僅成功率低,而且解題行為遠不如人類高效。

例如在“序列點擊”任務中:人類通常只需識別圖案 → 記住順序 → 一次性點擊完成;

模型(如OpenAI-o3)往往會把操作細化為十余步,比如“記住第一個圖標”、“確認當前狀態”、“點擊后等待反饋”…… 這種“過度分解任務”的現象。不僅拖慢操作流程,還增加了出錯概率。

這類現象反映出當前Agent在高交互、高動態場景下的顯著劣勢:缺乏人類式的抽象、泛化與控制能力。

圖片

除此之外研究團隊還展示了當前主流多模態大模型Agent在Open CaptchaWorld上的成本-性能權衡關系

從下圖所示,橫軸為評估成本(以對數刻度表示),縱軸為CAPTCHA解題任務中的Pass@1成功率(百分比)。每個點代表一個具體模型的運行結果。

圖片

從圖中可以看出,OpenAI-o3雖然在成功率方面顯著領先(達40.0%),但同時也是成本最高的模型,顯示出較強的能力但較差的性價比。

而Gemini2.5-Pro和GPT-4.1等模型在保持相對較高成功率(約25%)的同時,成本控制更為合理,展現出較好的“單位預算表現”。

相比之下,Claude-3.5-Sonnet、GPT-4o與OpenAI-o1等模型盡管評估開銷中等或偏高,但解題成功率較低,顯示出在當前CAPTCHA場景下的適配能力仍較弱。

DeepSeek-V3和Claude-3.5-Haiku成本較低,成功率保持在15%~20%區間,體現出更優的成本效率平衡,適合作為輕量級基線。

總體來看,該圖揭示了多模態 Agent 在真實交互任務中并不總是“越貴越強”,也突出了Open CaptchaWorld平臺在分析Agent實用性、可部署性方面的重要價值。

未來的模型設計應更加關注效率與性能之間的協同優化。

Open CaptchaWorld平臺為Agent開發者、基準設計者提供了新的思路。

也揭示了——

  • 當前Agent的真實“短板”——長序列任務動態交互和規劃交互能力;
  • 現有Benchmark評估的盲區——大量省略了真實部署中不可或缺的“人機驗證”環節;
  • 新模型設計方向——如何提升Agent在現實網頁任務中的自動化與魯棒性。
  • Agent時代下的新型Captcha設計——目前的Captcha遲早會被Agent能力增長而攻破,我們也需要實時更新設計新的Captcha來順應技術的發展。

Open CaptchaWorld的提出旨在鼓勵研究者在訓練和評估Agent時,不再回避CAPTCHA問題,而是勇敢面對它,因為在現實世界中,如果連驗證碼都通過不了,這個Agent就無法落地。

更多細節歡迎閱讀原文。

論文鏈接:https://arxiv.org/abs/2505.24878Huggingface

Spaces:https://huggingface.co/spaces/YaxinLuo/Open_CaptchaWorld

代碼庫 & 數據鏈接: https://github.com/MetaAgentX/OpenCaptchaWorld

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-08-05 08:46:00

模型測評

2024-05-21 12:23:17

2024-05-20 08:20:00

OpenAI模型

2024-06-05 08:29:35

2024-05-28 13:00:55

2024-09-29 16:00:26

2025-01-08 09:00:00

訓練數據研究

2025-05-26 02:15:00

2024-05-14 11:29:15

2025-05-06 15:32:23

模型AI測試

2024-06-05 13:09:26

2024-05-15 17:34:15

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-07-23 12:32:11

2025-04-01 09:25:00

2024-05-24 14:04:04

2024-11-28 15:51:19

GPT-4o微軟

2012-10-23 14:27:55

無奈大裁員濾鏡拍照

2025-04-08 02:26:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: av黄色在线观看 | 99精品视频在线观看免费播放 | 免费一看一级毛片 | 国产精品影视 | 日韩aⅴ视频 | 日日夜精品视频 | 成人三级网址 | 中文字幕 在线观看 | 精久久久 | 国产日产欧产精品精品推荐蛮挑 | 日本a网站| 久久成人精品 | 亚洲一区二区三区在线视频 | 欧美一级欧美一级在线播放 | 国产高清免费 | 国产精品视频网站 | 中文字幕高清免费日韩视频在线 | 精品国产91乱码一区二区三区 | 日韩成人国产 | 在线观看亚洲精品 | jizz18国产 | 国产农村一级国产农村 | 日日av| 激情 亚洲 | 久久久久久久一区 | 黄色大片在线免费观看 | www.日本国产 | 国产精品视频一区二区三区四蜜臂 | 精品国产一区二区国模嫣然 | 特黄级国产片 | 国产成人亚洲精品自产在线 | 中文字幕第一页在线 | 久久不射网 | 欧美日韩电影一区二区 | 成人欧美一区二区三区黑人孕妇 | 日本三级视频 | 精精国产xxxx视频在线 | 精品视频一区二区三区在线观看 | 久久精品天堂 | 免费看日韩视频 | 欧美日韩1区 |