成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI像人一樣操控電腦:多模態(tài)AI Agents和屏幕交互新范式 原創(chuàng)

發(fā)布于 2024-11-20 10:11
瀏覽
0收藏

編者按: 未來我們與計(jì)算機(jī)的交互方式將發(fā)生怎樣的變革?當(dāng) AI 能像人類一樣自如地操控電腦和手機(jī),我們的工作方式會有什么改變?

本文深入剖析了 Anthropic、微軟和蘋果三大科技巨頭在突破這一瓶頸上的最新進(jìn)展。通過解讀他們各自獨(dú)特的技術(shù)路線 —— 從 Anthropic 采用像素計(jì)數(shù)方式實(shí)現(xiàn)精準(zhǔn)導(dǎo)航,到微軟將界面解析為結(jié)構(gòu)化數(shù)據(jù),再到蘋果專注于移動端的多模態(tài)交互方案,文章為我們展現(xiàn)了 AI 驅(qū)動屏幕交互的未來圖景。

作者 | Tula Masterman

編譯 |?岳揚(yáng)

01 引言:AI Agent 領(lǐng)域的持續(xù)變革

Anthropic、微軟和蘋果的最新動態(tài)正在重塑我們對 AI Agents 的認(rèn)知。目前,“AI Agent” 這一概念已被廣泛提及 —— 幾乎每一項(xiàng)與人工智能相關(guān)的公告都會涉及 AI Agents,但其先進(jìn)程度和實(shí)用性卻有著天壤之別。

在這個領(lǐng)域的一端,我們看到了一些能夠進(jìn)行多輪規(guī)劃、工具操作和目標(biāo)評估的先進(jìn) AI Agents。它們通過不斷迭代來完成特定任務(wù),甚至能夠建立和利用“記憶(memories)”,從過往的錯誤中吸取教訓(xùn),以推動未來的成功。如何打造一個高效的 AI Agents,是當(dāng)前人工智能研究的熱點(diǎn)之一。這涉及到探究成功 Agents 應(yīng)該具備哪些特性(例如,AI Agents 的規(guī)劃方式、記憶運(yùn)用、工具選擇以及任務(wù)跟蹤能力)以及如何構(gòu)建一個高效的 AI Agents 團(tuán)隊(duì)。

而在另一端,是一些執(zhí)行的任務(wù)目的單一、幾乎無需推理的 AI Agents。這些 AI Agents 往往更側(cè)重于特定的工作流程(例如,專門負(fù)責(zé)生成文檔摘要并保存結(jié)果的 Agent)。由于這些 Agents 的應(yīng)用場景較為明確,因此它們通常更容易實(shí)現(xiàn),不需要過多的規(guī)劃和跨工具協(xié)調(diào),也無需處理復(fù)雜的決策問題。

隨著 Anthropic、微軟和蘋果的最新動態(tài)不斷發(fā)布,我們目睹了基于文本的 AI Agents 向多模態(tài)轉(zhuǎn)變。這一變化意味著我們可以通過書面或口頭指令來指導(dǎo) AI Agents,使其能夠流暢地在手機(jī)或電腦上執(zhí)行任務(wù)。這一技術(shù)有很大的潛力可以提升跨設(shè)備使用的便利性,然而,與此同時,這種技術(shù)也伴隨著重大的風(fēng)險。Anthropic 關(guān)于 computer use 技術(shù)的相關(guān)公告強(qiáng)調(diào)了 AI 不受限制訪問用戶屏幕的潛在風(fēng)險,并提出了一系列降低風(fēng)險措施,例如在專用的虛擬機(jī)或容器中運(yùn)行 Claude,將互聯(lián)網(wǎng)訪問限制在允許的域名列表中,進(jìn)行人工干預(yù)檢查,并避免讓模型接觸敏感數(shù)據(jù)。他們還強(qiáng)調(diào),通過 API 提交的內(nèi)容不會被用于模型訓(xùn)練。

02 Anthropic、微軟和蘋果最新公告亮點(diǎn)

2.1 Anthropic推出Claude 3.5 Sonnet:賦予人工智能使用計(jì)算機(jī)的能力

  • 概述:Computer Use 的目標(biāo)是讓 AI 能夠像人類一樣操作計(jì)算機(jī)。在理想狀態(tài)下,Claude 能夠?qū)崿F(xiàn)文檔的打開與編輯、點(diǎn)擊頁面的各個區(qū)域、內(nèi)容的滾動閱讀,以及命令行代碼的運(yùn)行和執(zhí)行等多種操作。目前,Claude 已能按照人類指令在屏幕上移動光標(biāo)、點(diǎn)擊指定區(qū)域,并在虛擬鍵盤上輸入文字。在 OSWorld 基準(zhǔn)測試[1]中,Claude取得了 14.9% 的成績,雖然超過了同基準(zhǔn)測試中的其他 AI 模型,但與人類 70–75% 的平均得分相比,仍有不小的差距。

  • 工作原理:Claude 通過查看用戶上傳的屏幕截圖,并計(jì)算像素位置來確定光標(biāo)移動的位置,從而完成指定任務(wù)。研究人員提到,為了安全起見,在訓(xùn)練過程中并未給予 Claude 互聯(lián)網(wǎng)訪問權(quán)限,但 Claude 能夠?qū)氖褂糜?jì)算器和文本編輯器等簡單任務(wù)的訓(xùn)練中學(xué)習(xí)到的知識,應(yīng)用到更為復(fù)雜的任務(wù)上。在任務(wù)執(zhí)行失敗時,它還會進(jìn)行重試。Computer Use 功能包含了三個由 Anthropic 定義的工具:computer、text editor 和 bash。其中,computer 工具用于屏幕上的導(dǎo)航,text editor 用于文本文件的查看、創(chuàng)建和編輯,而 bash 則用于執(zhí)行 bash shell 命令。

  • 面臨的挑戰(zhàn):盡管 Claude 的能力表現(xiàn)良好,但還有很長的路要走。目前,它在頁面滾動、整體穩(wěn)定性方面存在問題,且對提示詞注入攻擊較為敏感。

  • 使用指南:公眾可通過 Anthropic API 體驗(yàn)公共測試版。Computer Use 功能可以與常規(guī)工具結(jié)合使用。

2.2 微軟的OmniParser & GPT-4V:讓AI能夠理解和操作屏幕

  • 概述:OmniParser 用于解析用戶界面截圖,并將其轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)輸出。這些輸出可以被傳遞給 GPT-4V 這樣的模型,以便根據(jù)檢測到的屏幕元素生成相應(yīng)的操作動作。在包括專為 Windows 系統(tǒng)設(shè)計(jì)的 Windows Agent Arena[2] 在內(nèi)的多種基準(zhǔn)測試中,OmniParser 與 GPT-4V 的組合得分約為20%。這些測試任務(wù)旨在評估 AI Agents 在規(guī)劃、理解屏幕內(nèi)容和使用工具方面的能力。
  • 工作原理:OmniParser 通過整合多個經(jīng)過微調(diào)的模型來解析屏幕內(nèi)容。它采用了微調(diào)后的可交互圖標(biāo)/區(qū)域檢測模型(YOLOv8[3])、圖標(biāo)描述模型(BLIP-2[4] 或 Florence2[5])以及 OCR 模塊。這些模型被用于識別圖標(biāo)和文本,并在生成內(nèi)容描述后,將輸出數(shù)據(jù)發(fā)送給 GPT-4V,由 GPT-4V 決定如何利用這些信息與屏幕交互。
  • 面臨的挑戰(zhàn):目前,當(dāng) OmniParser 檢測到重復(fù)的圖標(biāo)或文本并將其傳遞給 GPT-4V 時,GPT-4V 經(jīng)常無法正確點(diǎn)擊目標(biāo)圖標(biāo)。此外,OmniParser 的準(zhǔn)確性受 OCR 輸出影響,如果邊界框定位不準(zhǔn)確,整個系統(tǒng)可能無法正確點(diǎn)擊鏈接區(qū)域。還有,對于某些圖標(biāo)的理解也存在挑戰(zhàn),因?yàn)橥粋€圖標(biāo)有時會被用來表示不同的含義(例如,三個點(diǎn)可能代表加載中,也可能代表菜單選項(xiàng))。
  • 使用指南:OmniParser 可在 GitHub[6] 和 HuggingFace[7] 上獲取。您需要安裝必要的依賴項(xiàng),并從 HuggingFace 加載模型。之后,您可以嘗試運(yùn)行 demo notebooks,了解 OmniParser 如何分析圖像。

2.3 蘋果的Ferret-UI:將多模態(tài)智能引入移動端

  • 概述:蘋果的 Ferret(任意時間、任意地點(diǎn)、任意粒度下引用和定位任何事物)技術(shù)早在 2023 年便已問世。近期,蘋果推出了 Ferret-UI,這是一款 MLLM(多模態(tài)大語言模型),能夠在移動設(shè)備端用戶界面上執(zhí)行“引用、定位和推理”任務(wù)。這些任務(wù)包括小部件的分類和圖標(biāo)的識別(引用任務(wù)),以及尋找特定圖標(biāo)或文本(定位任務(wù))。Ferret-UI 能夠理解用戶界面并根據(jù)指令進(jìn)行交互。
  • 工作原理:Ferret-UI 在 Ferret 的基礎(chǔ)上進(jìn)行了優(yōu)化,通過訓(xùn)練來適應(yīng)不同分辨率的圖像,從而更好地掌握移動端用戶界面的細(xì)節(jié)。每張圖像都被分割成兩張子圖像,并生成各自的特征。大語言模型(LLM)結(jié)合全圖像、兩張子圖像、區(qū)域特征和文本嵌入信息來生成響應(yīng)。
  • 面臨的挑戰(zhàn):Ferret-UI 的相關(guān)論文指出,模型在某些情況下會預(yù)測目標(biāo)附近的文本,而不是目標(biāo)文本,或者當(dāng)屏幕上出現(xiàn)拼寫錯誤的單詞時,會預(yù)測出正確的單詞,而不是屏幕上顯示的錯誤單詞,有時還會錯誤地識別用戶界面的屬性。
  • 使用指南:蘋果在 GitHub[8] 上公開了 Ferret-UI 的數(shù)據(jù)和代碼,僅供研究目的使用。蘋果發(fā)布了兩個 Ferret-UI 模型版本,一個基于 Gemma-2b,另一個基于 Llama-3–8B。這些模型遵循 Gemma 和 Llama 的許可協(xié)議,而數(shù)據(jù)集則允許非商業(yè)用途。

2.4 總結(jié):AI 驅(qū)動屏幕導(dǎo)航的三種策略

總的來說,這些系統(tǒng)分別展示了構(gòu)建多模態(tài) AI Agents 的不同路徑,它們能夠代表我們與電腦或手機(jī)進(jìn)行交互。

Anthropic 推出的 Claude 3.5 Sonnet 著眼于一般的計(jì)算機(jī)交互,通過像素計(jì)數(shù)來實(shí)現(xiàn)屏幕上的精準(zhǔn)導(dǎo)航。微軟的 OmniParser 則專注于解決將用戶界面拆分為結(jié)構(gòu)化輸出的難題,隨后這些信息會被傳遞至 GPT-4V 等模型以決定下一步操作。而蘋果的 Ferret-UI 則是針對移動端用戶界面設(shè)計(jì)的,它能識別圖標(biāo)、文字和小部件,并能執(zhí)行與用戶界面相關(guān)的開放式指令。

這三種系統(tǒng)的工作流程一般包括兩個主要階段:一是解析視覺信息,二是思考如何與之交互。精確解析屏幕內(nèi)容對于規(guī)劃交互方式以及確保系統(tǒng)穩(wěn)定執(zhí)行任務(wù)至關(guān)重要。

03 結(jié)語:打造更智能、更安全的AI Agents

依我之見,這些進(jìn)步最激動人心的地方在于多模態(tài)功能與推理框架正逐步融合。雖然這些工具展現(xiàn)出巨大的潛力,但與人類的表現(xiàn)相比仍有較大差距。此外,在部署能夠訪問屏幕的 AI Agents 系統(tǒng)時,還必須正視和解決一系列 AI 安全方面的問題。

智能體系統(tǒng)的一大優(yōu)勢在于它們能夠通過將任務(wù)細(xì)分為多個部分,從而克服單個模型在認(rèn)知方面的局限性。這些系統(tǒng)的構(gòu)建方式多種多樣。有時候,用戶面前看似單一的智能體,實(shí)際上可能是由多個子智能體組成的團(tuán)隊(duì) —— 每個子智能體擁有不同的職責(zé),比如規(guī)劃(planning)、屏幕交互(screen interaction)或記憶存儲管理(memory management)。比如,負(fù)責(zé)推理的智能體可能會與專門處理屏幕數(shù)據(jù)的智能體協(xié)作,同時另一個智能體則負(fù)責(zé)整理記憶存儲,以提高未來的表現(xiàn)。

另外,這些功能也可以集成在一個全能的智能體中。在這種情況下,智能體可能包含多個內(nèi)部規(guī)劃模塊 —— 一個專注于屏幕操作的規(guī)劃,另一個則負(fù)責(zé)整個任務(wù)的管理。盡管構(gòu)建智能體的最佳方案尚待探索,但我們的目標(biāo)始終不變:那就是創(chuàng)造出能夠在不同模態(tài)下長期穩(wěn)定工作,并能無間適應(yīng)用戶需求的智能體。

Thanks for reading!
Hope you have enjoyed and learned new things from this blog!

END

本期互動內(nèi)容 ??

?如果讓 AI 來操作你的設(shè)備,你最擔(dān)心什么問題?安全、隱私還是其他?

??文中鏈接??

[1]https://os-world.github.io/

[2]https://microsoft.github.io/WindowsAgentArena/

[3]https://yolov8.com/

[4]https://arxiv.org/abs/2301.12597

[5]https://arxiv.org/abs/2311.06242

[6]https://github.com/microsoft/OmniParser/

[7]https://huggingface.co/microsoft/OmniParser

[8]https://github.com/apple/ml-ferret/tree/main/ferretui

原文鏈接:

https://towardsdatascience.com/computer-use-and-ai-agents-a-new-paradigm-for-screen-interaction-b2dcbea0df5b

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2024-11-20 10:22:06修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 综合精品| 亚洲精品视频免费 | 一区二区三区精品视频 | 玩丰满女领导对白露脸hd | 精品国产91乱码一区二区三区 | 91精品国产色综合久久 | 一级毛片大全免费播放 | 国产精品亚洲成在人线 | 欧美另类视频 | 欧美成人在线影院 | 精品成人佐山爱一区二区 | 国产精品成人一区二区三区 | 亚洲精品1区 | 玖玖玖在线观看 | 国产精品美女久久久久aⅴ国产馆 | 精品国产乱码久久久久久蜜臀 | 欧美日韩国产一区二区三区 | 国产一级免费视频 | 亚洲网址在线观看 | 国产精品福利一区二区三区 | 国产免费看 | 中文字幕一区二区三区精彩视频 | 国产成人在线一区二区 | 国产精品日韩在线观看 | 精品伊人久久 | 日韩一区二区三区在线播放 | 91精品久久久久久久久中文字幕 | 欧美国产精品一区二区 | 黄网站在线观看 | 日本黄色不卡视频 | 少妇性l交大片免费一 | 久久a久久| 武道仙尊动漫在线观看 | 四虎在线观看 | 中文字幕日韩一区二区 | 欧美激情在线一区二区三区 | 中文字幕一区二区三区四区 | 成人av高清在线观看 | 一级aaaaaa毛片免费同男同女 | 欧美夜夜 | 亚洲欧美在线观看 |