成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<dl id="2cuyu"><strike id="2cuyu"></strike></dl>

<button id="2cuyu"></button>

<bdo id="2cuyu"></bdo>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

控制電腦手機的智能體人人都能造，微軟開源OmniParser

作者：機器之心 2024-10-28 10:00:00

人工智能新聞

有網友發現蘋果已經默默發布了 Ferret-UI 的兩個實現版本（分別基于 Gemma 2B 和 Llama 8B）。

最近這幾天，讓大模型具備控制計算機（包括電腦和手機）的相關研究和應用如雨后春筍般不斷涌現。

先是 Anthropic 發布了能控制計算機的新版 Claude 3.5 Sonnet，之后榮耀 MagicOS 9.0 來了個全局智能體，再然后，昨天智譜發布了具備「全棧式工具使用能力」的 AutoGLM，同時華為也公布了一項可讓 AI 像人類一樣操作手機的新研究成果 LiMAC。

很顯然，這股熱潮完全沒有要停息的意思。今天，有網友發現蘋果已經默默發布了 Ferret-UI 的兩個實現版本（分別基于 Gemma 2B 和 Llama 8B），這是蘋果今年五月發布的一個可讓 AI 理解手機屏幕的技術，詳情參閱《讓大模型理解手機屏幕，蘋果多模態 Ferret-UI 用自然語言操控手機》。

來自 X 用戶 Niels Rogge

Ferret-UI 項目地址：https://huggingface.co/papers/2404.05719

不僅如此，微軟也低調開源了他們的相關研究 OmniParser，這是一個基于大模型的屏幕解析工具，可將 UI 截圖轉換成結構化的元素；據稱其解析和理解 UI 的能力達到了當前最佳水平，甚至超越了 GPT-4V。

項目地址：https://huggingface.co/microsoft/OmniParser
代碼地址：https://github.com/microsoft/OmniParser
論文標題：OmniParser for Pure Vision Based GUI Agent
論文地址：https://arxiv.org/abs/2408.00203

有了這個工具，或許每個人都可以創建自己的計算機操控智能體了。

先來看看 OmniParser 的效果。對于一個用戶任務：「將約翰內斯堡提供素食選擇的餐廳保存到我的行程中」。

OmniParser 首先會解析 Tripadvisor 網頁屏幕上的所有元素，然后它成功從中找到了「餐廳」選項。之后它點擊（動作執行需要搭配其它模型）該選項，打開了一個搜索框。OmniParser 繼續解析，這一次沒有在屏幕上找到所需關鍵詞，于是它在搜索框中輸入了「約翰內斯堡」。再次解析后，它打開了相應的搜索項，展開了搜索結果。同樣，繼續解析，它成功定位到了素食選項，然后進行了勾選。最后，點擊篩選出的第一個選項上的相應按鈕將其收藏到行程中。至此，任務完成。

而如果你想看看能否進入布萊斯峽谷國家公園呢？OmniParser 也能助你輕松完成。

整體來看，OmniParser 的解析能力非常出色，過程也還算流暢。

我們知道，不同的操作系統和應用有著大不相同的交互界面。為了穩健地應對各種不同情況，屏幕解析模型需要：

可靠地識別交互界面內可交互的圖標；
理解屏幕截圖中各種不同元素的含義，并將計劃動作與屏幕上相應的區域準確地關聯起來。

OmniParser 正是為這一目的而生的。OmniParser 可基于用戶任務和 UI 截圖輸出：(1) 解析后的截圖，帶有邊界框和數值 ID，(2) 包含提取出的文本和圖標描述的局部語義。下面展示了幾個例子：

如果再搭配上其它可以基于 UI 采取行動的模型（比如 GPT-4V、Phi-3.5 和 Llama 3.2），便可以創造出可以理解并控制計算機的智能體。

該團隊用 GPT-4V 做了實驗，結果發現 OmniParser 能大幅提升其為界面區域生成精準動作的能力。他們使用 OmniParser 和 GPT-4V 創建的一個智能體在 WindowsAgentArena 基準上達到了最佳水平。

OmniParser 是如何煉成的？

收集和整理專用數據集 ——OmniParser 的開發始于創建兩個數據集：

一個可交互區域檢測數據集，該數據集收集整理自常見的網頁，其中可點擊和可操作的區域都做了標注。
一個圖標描述數據集，旨在將每個 UI 元素與其相應的功能關聯起來。在訓練模型以理解檢測到的元素的語義方面，此數據集非常關鍵。

下面展示了可交互區域檢測數據集的一些樣本示例。

對檢測和描述模型進行微調 ——OmniParser 使用了兩個互補的模型：

一個檢測模型，在可交互圖標數據集上進行了微調，其能可靠地識別屏幕截圖中的可操作區域。
一個描述模型，在圖標描述數據集上完成了訓練，其作用是提取檢測到的元素的功能語義，為預期操作生成準確符合上下文的描述。

性能表現

該團隊對自己的方法進行了實驗驗證。結果發現，OmniParser 可大幅提升 GPT-4V 在 ScreenSpot 基準上的性能。

在 Mind2Web 基準上，OmniParser + GPT-4V 的表現也勝過可從 HTML 提取額外信息的 GPT-4V。

在 AITW 基準上，OmniParser 的表現優于一個經過增強的 GPT-4V—— 附帶了一個使用視圖圖層訓練的專用 Android 圖標檢測模型。

另外，其在新基準 WindowsAgentArena 上也達到了最佳性能。

OmniParser 可作為當前各種視覺 - 語言模型（VLM）的插件。為了進一步演示這一點，該團隊也測試了其與 Phi-3.5-V 和 Llama-3.2-V 的組合。

該團隊表示：「我們希望 OmniParser 可以作為一種通用且易于使用的工具，在 PC 和移動平臺上解析用戶的屏幕，而無需依賴 HTML 和 Android 中的視圖圖層等額外信息。」

不知道如果將 OmniParser 與新版 Claude 3.5 Sonnet 的 Computer Use 結合起來會是什么效果？可能會像這位網友說的，很贊吧。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：爱操影视| 天天躁日日躁狠狠的躁天龙影院 | 久久精品亚洲精品国产欧美kt∨ | 福利一区在线观看 | 天色综合网 | 国产成人精品一区二三区在线观看 | 精品亚洲视频在线 | 欧美一区二区三区的 | 九九热最新视频 | 天天操天天摸天天爽 | 黄a网站 | 久久69精品久久久久久久电影好 | 国产精品久久毛片av大全日韩 | 亚洲国产一区在线 | 亚洲在线日韩 | 久久久精品网 | 精品国产精品一区二区夜夜嗨 | 欧美日韩在线观看一区 | 久久免费视频网 | 一区二区伦理电影 | 日本高清在线一区 | 国产精彩视频在线观看 | 爱综合 | 黄色一级片在线播放 | 免费h在线 | 一级片av| 免费午夜电影 | 久久亚洲国产精品日日av夜夜 | 久久综合久久久 | 久久久青草婷婷精品综合日韩 | 中文字幕亚洲视频 | 欧美一区二区大片 | 五月免费视频 | 久久精品网 | 成人免费激情视频 | 亚洲人成网站777色婷婷 | 一级免费a | 精品欧美一区二区三区久久久 | 国产免费xxx | 粉嫩高清一区二区三区 | 精品欧美黑人一区二区三区 |

<dl id="66m6m"><strike id="66m6m"></strike></dl>