成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Manus 爆火,再次證明 Computer Use Agent 的潛力

人工智能
今天我更想聊聊它背后的技術(shù):Computer use,這個概念最早由 Anthropic 在 24年11月提出,雖然國內(nèi)討論的聲浪并不大,但這種通過 LLM 自行操作計算機系統(tǒng),進而實現(xiàn)更通用 Agent 能力的技術(shù),卻又非常大的想象空間,國外有不少廠商陸續(xù)跟進,做出了許多優(yōu)秀作品。

2025年3月4號晚,Monica.im 發(fā)布了一款通用型 AI Agent 產(chǎn)品: Manus(https://manus.im/),從官網(wǎng)透露出的視頻來看,這是一款基于 Computer Use 實現(xiàn)的 AI Agent,特點在于能夠自主操作計算機完成更復(fù)雜的任務(wù),例如做 PPT,分析股票市場變化,整理數(shù)據(jù)等。

本文無意探討 Manus 的具體能力,畢竟咱也沒試用過,沒資格評價。今天我更想聊聊它背后的技術(shù):Computer use,這個概念最早由 Anthropic 在 24年11月提出,雖然國內(nèi)討論的聲浪并不大,但這種通過 LLM 自行操作計算機系統(tǒng),進而實現(xiàn)更通用 Agent 能力的技術(shù),卻又非常大的想象空間,國外有不少廠商陸續(xù)跟進,做出了許多優(yōu)秀作品。

我認為,Computer Use 將會成為未來 AI Agent 的一種重要設(shè)計模式,因此有必要更深入理解這一概念以及背后的執(zhí)行原理。

Computer Use 是什么

24年11月,Anthropic官宣了Claude 3.5的同時,也低調(diào)官宣了一個Beta版本的能力 Computer Use,目前處于公開測試階段,這項功能允許 Claude 像人類一樣使用計算機,具體表現(xiàn)為:用戶可以指導(dǎo) Claude 像人類一樣使用計算機 —— 通過查看屏幕、移動光標、單擊按鈕和輸入文本,來完成各類任務(wù)。

https://www.anthropic.com/news/3-5-models-and-computer-use

這項技術(shù)旨在教會Claude通用的計算機操作技能,包括理解用戶界面內(nèi)容和執(zhí)行界面交互,而無需為每種軟件單獨開發(fā)代理程序,這使得 Claude 模型得以實現(xiàn):

  • 跨平臺界面解析:基于計算機視覺實時識別GUI元素(按鈕/輸入框/菜單欄等),準確率達92%

參考:https://www.mittrchina.com/news/detail/13924?locale=zh_CN

  • 擬人化操作鏈:構(gòu)建「屏幕感知→光標定位→點擊/輸入→結(jié)果驗證」的完整動作流:
  • 自適應(yīng)學(xué)習(xí)框架:通過強化學(xué)習(xí)動態(tài)優(yōu)化操作路徑,處理非結(jié)構(gòu)化界面時響應(yīng)速度提升40%
  • 雙向反饋機制:在執(zhí)行過程中實時捕獲屏幕變化,動態(tài)調(diào)整操作策略
  • 等等

特別適合替代人類完成一些常規(guī)計算機操作任務(wù),如端到端測試(E2E)、自動化重復(fù)流程處理,以及將簡單指令轉(zhuǎn)化為復(fù)雜計算機指令等。

Computer Use 解決了什么問題

Computer Use 技術(shù)極具想象空間,設(shè)想一套 Agent 軟件就能將自然語言精確轉(zhuǎn)換為復(fù)雜的系統(tǒng)操作指令,未來工作中可能不再需要耗費精力學(xué)習(xí)各類專業(yè)軟件(如 excel、word等)的繁瑣操作邏輯,只需以自然語言方式發(fā)出指令即可完成各種常見工作任務(wù),AI 輻射范圍將會進一步涵蓋所有依賴計算機的工種。

也因此,多家團隊正在積極探索推動這一技術(shù)落地應(yīng)用:

  • OpenAI 發(fā)布 Operator,可根據(jù)用戶指令操縱瀏覽器:
  • Xlang Lab 發(fā)起的 Computer Agent Arena;
  • 開源 Agent browser-use,可根據(jù)用戶指令操作瀏覽器;
  • 以及最近剛發(fā)布的國產(chǎn)通用 Agent :Manus
  • 等等

甚至可以說,Computer Use 的設(shè)計算是對當前 AI 系統(tǒng)工具使用范式做了一次根本性重構(gòu),過去實現(xiàn) LLM 與外部通訊手段多是集中在:function call、MCP 等技術(shù),而這類技術(shù)都需要 case by case 地針對各類具體場景設(shè)計實現(xiàn),而 computer use 則可以直接讀取、操作電腦,就像一個極高性能又通用的人類一樣,能夠理解各種復(fù)雜計算機界面并完成任務(wù),進而降低 agent 的開發(fā)成本(理論上)。

方案1:使用 VLM 模型

Computer Use Agent 重點在于理解計算機界面,因此通常強依賴于 VLM(Vision-Language Model)模型作為核心決策單元,通過多模態(tài)交互實現(xiàn)自動化的計算機操作。流程上整體遵循感知-決策-執(zhí)行的控制范式:

大致包含三個步驟:

  • 感知:采用動態(tài)屏幕捕捉技術(shù)獲取RGB像素流,通過GPU加速實現(xiàn)≤100ms的實時幀捕獲,同步記錄界面元數(shù)據(jù)(窗口層級/控件屬性/焦點等);
  • 決策:使用 VLM(Vision-Language Model) 實現(xiàn)界面元素檢測(Faster R-CNN)+語義分割(Mask R-CNN),理解屏幕截圖和用戶輸入,從而制定相應(yīng)的行為策略,例如鼠標移動到哪里,點擊哪里;在哪里輸入文本等等;
  • 執(zhí)行:最后,通過系統(tǒng)級輸入驅(qū)動來執(zhí)行相應(yīng)的操作指令;

持續(xù)執(zhí)行上述循環(huán),直到大語言模型(LLM)判斷任務(wù)完成、達到預(yù)設(shè)的最大操作次數(shù),或超出上下文限制為止。

這種模式的優(yōu)點是清晰簡潔,容易理解上手。但是:對VLM本身的能力要求非常高,需要能夠可靠地識別用戶界面中的可交互圖標,以及理解屏幕截圖中各種元素的語義,并準確地將預(yù)期作與屏幕上的相應(yīng)區(qū)域相關(guān)聯(lián)想要實現(xiàn)精確點擊和移動,難度很大。

方案2:基于VLM與OCR融合的增強型 CUA

在上述 VLM 技術(shù)的基礎(chǔ)上,我們還可以疊加 OCR 技術(shù)實現(xiàn)更精確的內(nèi)容理解與定位操作,實現(xiàn)流程:

  • 截圖
  • 基于視覺語言大模型(Vision-Language Model, VLM)+ OCR 實現(xiàn)多模態(tài)推理
[{{ "reasoning": "cognitive process here", "action_type": "click", "target_text": "target element"}}]
  1. 結(jié)合OCR文本定位與視覺特征,進行坐標映射計算
  • 輸入屏幕快照與用戶指令,生成操作指令集
  • 當指令類型為指針交互時,模型輸出結(jié)構(gòu)化定位請求:
  • 通過系統(tǒng)級輸入驅(qū)動執(zhí)行操作指令

直至LLM認為任務(wù)完成,或者達到設(shè)定的最大行為次數(shù),或者超出上下文上限。

這個過程中,VLM作為系統(tǒng)的認知中樞,負責跨模態(tài)信息融合相關(guān)的工作,包括視覺-語言對齊、指令上下文建模與推理、隱含需求推理等;而 OCR 主要負責解析界面文本信息的原子化解析,解決字形干擾、多語言支持、藝術(shù)字體解析等問題,進一步提升結(jié)果的準確度。

方案3:使用 MicroSoft Omniparser V2 實現(xiàn) CUA

2025年2月,Microsoft研究院發(fā)布Omniparser V2范式轉(zhuǎn)換技術(shù),可將任意大型語言模型(LLM)轉(zhuǎn)化為能直接操作計算機的智能代理。它通過實時解析屏幕界面元素(如按鈕、圖標),將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),使AI能理解用戶指令并執(zhí)行點擊、輸入等操作,無需針對特定界面微調(diào)。該技術(shù)顯著提升了處理效率(延遲降低60%)和精準度(在復(fù)雜界面測試中達先進水平),成為實現(xiàn)跨平臺、跨應(yīng)用的智能自動化操作的核心工具。

本質(zhì)上,OmniParser 與上面提到的 VLM 與 ocr 等技術(shù)相似,只是實現(xiàn)精度、準確度更高一些,整體邏輯:

  • 執(zhí)行動態(tài)屏幕狀態(tài)捕獲(ScreenState Capture)
  • 通過OmniParser V2進行多模態(tài)界面解析,輸出符合W3C ARIA標準的可交互元素元數(shù)據(jù):

  • 構(gòu)建VLM推理上下文
  • 調(diào)用系統(tǒng)級輸入模擬引擎執(zhí)行操作

總結(jié)

或許在未來,Computer Use 這種"所見即所控"的模式將徹底重構(gòu)人機協(xié)作邊界,并且很可能催生新的操作系統(tǒng)范式——AI將作為原生交互層直接駕馭數(shù)字世界。

不過就當下而言,各家產(chǎn)品都存在比較嚴重的性能問題,交互效率并不高,可以保持觀望吧。對程序員群體而言,也應(yīng)該理解 CUA 未來可能會成為一種主流 Agent 架構(gòu),值得提前投入精力學(xué)習(xí)。

責任編輯:姜華 來源: Tecvan
相關(guān)推薦

2025-03-24 12:50:49

2025-03-07 09:59:44

ManusAI科技圈

2025-01-23 00:00:01

2025-05-22 07:40:32

2025-01-26 10:25:53

2025-03-10 00:00:00

2025-02-12 10:06:25

2025-03-07 08:28:56

2015-10-20 15:00:51

七牛云

2024-02-22 10:17:39

AI模型

2023-04-21 10:33:42

2022-08-02 20:21:00

SaaS驅(qū)動PLG

2014-11-05 11:05:15

Ruby

2024-07-08 09:49:54

2024-10-29 15:29:06

2023-02-09 12:31:20

2025-05-15 13:43:44

AI生成模型

2023-05-11 15:27:06

2022-07-03 20:21:42

物聯(lián)網(wǎng)AIoT人工智能
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产va| 日本精品在线播放 | 国产欧美精品 | 久久国产电影 | 一区二区三区韩国 | 国产日韩av一区二区 | 中文字幕欧美日韩 | 午夜一区 | 97在线观看 | 日本在线免费观看 | 日韩精品 电影一区 亚洲 | 9久久精品| 99亚洲 | 国产人成精品一区二区三 | 欧美成人激情 | 国产精品美女久久久免费 | 涩色视频在线观看 | 国产欧美在线 | 99久久久国产精品 | 午夜欧美a级理论片915影院 | 国产大毛片 | 欧美中文字幕一区 | 久久中文一区二区 | 国产高清视频在线观看 | 亚洲毛片| 国产目拍亚洲精品99久久精品 | 欧美精品二区 | 蜜月aⅴ免费一区二区三区 99re在线视频 | 在线看av网址 | 91资源在线观看 | 婷婷成人在线 | 日本特黄特色aaa大片免费 | 国产96在线 | 伊人二区| 国产精品污污视频 | 欧美日韩综合 | 青青草av网站| 久久久久久久久国产精品 | 精品久久一区 | 亚洲一区中文字幕在线观看 | 欧美片网站免费 |