成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

控制電腦手機的智能體人人都能造,微軟開源OmniParser

人工智能 新聞
有網友發現蘋果已經默默發布了 Ferret-UI 的兩個實現版本(分別基于 Gemma 2B 和 Llama 8B)。

最近這幾天,讓大模型具備控制計算機(包括電腦和手機)的相關研究和應用如雨后春筍般不斷涌現。

先是 Anthropic 發布了能控制計算機的新版 Claude 3.5 Sonnet,之后榮耀 MagicOS 9.0 來了個全局智能體,再然后,昨天智譜發布了具備「全棧式工具使用能力」的 AutoGLM,同時華為也公布了一項可讓 AI 像人類一樣操作手機的新研究成果 LiMAC。

很顯然,這股熱潮完全沒有要停息的意思。今天,有網友發現蘋果已經默默發布了 Ferret-UI 的兩個實現版本(分別基于 Gemma 2B 和 Llama 8B),這是蘋果今年五月發布的一個可讓 AI 理解手機屏幕的技術,詳情參閱《讓大模型理解手機屏幕,蘋果多模態 Ferret-UI 用自然語言操控手機》。

圖片

來自 X 用戶  Niels Rogge

  • Ferret-UI 項目地址:https://huggingface.co/papers/2404.05719

不僅如此,微軟也低調開源了他們的相關研究 OmniParser,這是一個基于大模型的屏幕解析工具,可將 UI 截圖轉換成結構化的元素;據稱其解析和理解 UI 的能力達到了當前最佳水平,甚至超越了 GPT-4V。

圖片

  • 項目地址:https://huggingface.co/microsoft/OmniParser
  • 代碼地址:https://github.com/microsoft/OmniParser
  • 論文標題:OmniParser for Pure Vision Based GUI Agent
  • 論文地址:https://arxiv.org/abs/2408.00203

有了這個工具,或許每個人都可以創建自己的計算機操控智能體了。

圖片

先來看看 OmniParser 的效果。對于一個用戶任務:「將約翰內斯堡提供素食選擇的餐廳保存到我的行程中」。

OmniParser 首先會解析 Tripadvisor 網頁屏幕上的所有元素,然后它成功從中找到了「餐廳」選項。之后它點擊(動作執行需要搭配其它模型)該選項,打開了一個搜索框。OmniParser 繼續解析,這一次沒有在屏幕上找到所需關鍵詞,于是它在搜索框中輸入了「約翰內斯堡」。再次解析后,它打開了相應的搜索項,展開了搜索結果。同樣,繼續解析,它成功定位到了素食選項,然后進行了勾選。最后,點擊篩選出的第一個選項上的相應按鈕將其收藏到行程中。至此,任務完成。

圖片

而如果你想看看能否進入布萊斯峽谷國家公園呢?OmniParser 也能助你輕松完成。

圖片

整體來看,OmniParser 的解析能力非常出色,過程也還算流暢。

我們知道,不同的操作系統和應用有著大不相同的交互界面。為了穩健地應對各種不同情況,屏幕解析模型需要:

  1. 可靠地識別交互界面內可交互的圖標;
  2. 理解屏幕截圖中各種不同元素的含義,并將計劃動作與屏幕上相應的區域準確地關聯起來。

OmniParser 正是為這一目的而生的。OmniParser 可基于用戶任務和 UI 截圖輸出:(1) 解析后的截圖,帶有邊界框和數值 ID,(2) 包含提取出的文本和圖標描述的局部語義。下面展示了幾個例子:

圖片

圖片

圖片

如果再搭配上其它可以基于 UI 采取行動的模型(比如 GPT-4V、Phi-3.5 和 Llama 3.2),便可以創造出可以理解并控制計算機的智能體。

該團隊用 GPT-4V 做了實驗,結果發現 OmniParser 能大幅提升其為界面區域生成精準動作的能力。他們使用 OmniParser 和 GPT-4V 創建的一個智能體在 WindowsAgentArena 基準上達到了最佳水平。

OmniParser 是如何煉成的?

收集和整理專用數據集 ——OmniParser 的開發始于創建兩個數據集:

  • 一個可交互區域檢測數據集,該數據集收集整理自常見的網頁,其中可點擊和可操作的區域都做了標注。
  • 一個圖標描述數據集,旨在將每個 UI 元素與其相應的功能關聯起來。在訓練模型以理解檢測到的元素的語義方面,此數據集非常關鍵。

下面展示了可交互區域檢測數據集的一些樣本示例。

圖片

對檢測和描述模型進行微調 ——OmniParser 使用了兩個互補的模型:

  • 一個檢測模型,在可交互圖標數據集上進行了微調,其能可靠地識別屏幕截圖中的可操作區域。
  • 一個描述模型,在圖標描述數據集上完成了訓練,其作用是提取檢測到的元素的功能語義,為預期操作生成準確符合上下文的描述。

性能表現

該團隊對自己的方法進行了實驗驗證。結果發現,OmniParser 可大幅提升 GPT-4V 在 ScreenSpot 基準上的性能。

圖片

在 Mind2Web 基準上,OmniParser + GPT-4V 的表現也勝過可從 HTML 提取額外信息的 GPT-4V。

圖片

在 AITW 基準上,OmniParser 的表現優于一個經過增強的 GPT-4V—— 附帶了一個使用視圖圖層訓練的專用 Android 圖標檢測模型。

圖片

另外,其在新基準 WindowsAgentArena 上也達到了最佳性能。

圖片

OmniParser 可作為當前各種視覺 - 語言模型(VLM)的插件。為了進一步演示這一點,該團隊也測試了其與 Phi-3.5-V 和 Llama-3.2-V 的組合。

圖片

該團隊表示:「我們希望 OmniParser 可以作為一種通用且易于使用的工具,在 PC 和移動平臺上解析用戶的屏幕,而無需依賴 HTML 和 Android 中的視圖圖層等額外信息。」

不知道如果將 OmniParser 與新版 Claude 3.5 Sonnet 的 Computer Use 結合起來會是什么效果?可能會像這位網友說的,很贊吧。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2012-05-14 14:35:41

2025-01-23 13:05:42

2025-05-27 15:52:09

微軟開源智能體

2021-06-29 18:52:45

Windows 11主板新系統

2020-05-19 14:00:09

人工智能機器學習AI

2021-03-18 11:45:49

人工智能機器學習算法

2021-06-29 15:47:56

微軟Windows 11Windows

2021-06-29 11:40:51

Python郵件命令

2024-10-15 17:28:05

2013-08-02 13:25:00

2024-08-29 12:48:32

2010-08-25 10:35:31

微軟

2024-10-16 08:31:29

2024-08-14 15:00:00

模型數據

2025-05-20 08:00:45

2025-02-24 13:46:40

2020-11-05 09:01:41

冒泡排序

2021-09-27 13:50:13

Python裝飾器函數
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 爱操影视| 天天躁日日躁狠狠的躁天龙影院 | 久久精品亚洲精品国产欧美kt∨ | 福利一区在线观看 | 天色综合网 | 国产成人精品一区二三区在线观看 | 精品亚洲视频在线 | 欧美一区二区三区的 | 九九热最新视频 | 天天操天天摸天天爽 | 黄a网站 | 久久69精品久久久久久久电影好 | 国产精品久久毛片av大全日韩 | 亚洲国产一区在线 | 亚洲在线日韩 | 久久久精品网 | 精品国产精品一区二区夜夜嗨 | 欧美日韩在线观看一区 | 久久免费视频网 | 一区二区伦理电影 | 日本高清在线一区 | 国产精彩视频在线观看 | 爱综合 | 黄色一级片在线播放 | 免费h在线 | 一级片av| 免费午夜电影 | 久久亚洲国产精品日日av夜夜 | 久久综合久久久 | 久久久青草婷婷精品综合日韩 | 中文字幕亚洲视频 | 欧美一区二区大片 | 五月免费视频 | 久久精品网 | 成人免费激情视频 | 亚洲人成网站777色婷婷 | 一级免费a | 精品欧美一区二区三区久久久 | 国产免费xxx | 粉嫩高清一区二区三区 | 精品欧美黑人一区二区三区 |