成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

^{<input id="yqmeo"></input>}

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

阿里北交大實習生論文火了！MobileAgent 可模擬人類玩轉手機，網友：加速剁手、吃土！

作者：言征 2024-02-01 13:20:15

MobileAgent是由阿里巴巴聯合北京交通大學（一名在阿里實習的童鞋）開發的一個自主多模態AI代理，可以模擬人類操作手機，是一個純視覺解決方案，不需要任何系統代碼，完全通過分析圖像來理解和操作手機。

編輯 | 言征

出品 | 51CTO技術棧（微信號：blog51cto）

“太酷了，以后就靠AI幫我加速剁手吃土了。”近日一款名為MobileAgent的移動智能代理引起了圈內人的注意。

一個驚艷之處在于，這款Agent為“手機+GPT4”結合，做出了一個很好的應用示范，簡直解鎖了一種手機新形態。

MobileAgent與Siri、智能客服不同的是，規劃和推理方面非常出色，能夠自動完成各種復雜任務，比如——

在Alibaba上幫助用戶找到帽子，并根據條件添加到購物車；

在Amazon Music中搜索歌手Jay Chou或播放關于“代理”的音樂；

在Chrome中搜索今日湖人隊比賽結果或關于Taylor Swift的信息；

在Gmail中發送空郵件或具有特定內容的郵件；

在TikTok上為寵物貓視頻點贊或評論等，還可以結合使用多個應用完成復雜任務。

在Chrome中搜索今日湖人隊比賽結果或關于Taylor Swift的信息

在TikTok中滑動一段關于寵物貓的視頻，然后點擊“點贊”觀看該視頻。

據悉，MobileAgent是由阿里巴巴聯合北京交通大學（一名在阿里實習的童鞋）開發的一個自主多模態AI代理，可以模擬人類操作手機，是一個純視覺解決方案，不需要任何系統代碼，完全通過分析圖像來理解和操作手機。

圖片

最重要的特性有四點：純可視化解決方案，獨立于XML 和系統元數據；操作范圍不受限制，可進行多應用操作；多種視覺感知工具，用于操作定位；無需探索和培訓，即插即用。

圖片

現在代碼已經放在github上，感興趣的朋友不妨移步去實操一番：

https://github.com/X-PLUG/MobileAgent

1、多模態大模型的威力釋放到手機上

圖片

眾所周知，GPT4的在端側的本地能力是不足的，即便最先進的GPT-4V，仍然缺乏足夠的視覺感知能力來作為有效的媒介，雖然可以產生有效的操作，但它很難在屏幕上準確定位這些操作的位置。這種限制阻礙了僅通過高級多模態大模型在移動設備上進行操作的能力。

為了解決這個問題，此前有人想到一個通過利用用戶界面布局文件來幫助GPT-4V進行本地化的辦法，但效果差強人意。

與以往依賴應用程序的XML文件或移動系統元數據的解決方案不同，Mobile-Agent以視覺為中心，在各種移動操作環境中具有更大的適應性，消除了對特定系統定制的必要性。

MobileAgent利用視覺感知工具準確識別和定位應用程序前端界面的視覺和文字元素，實現了自主規劃和分解復雜操作任務，通過逐步操作導航移動應用程序。

2、如何評估多模態大模型作為手機Agent的能力

阿里團隊為了評估該代理的準確率和性能，還搭建了一套適配不同場景的基準測試集，包括電商購物、音樂、瀏覽器、地圖、應用商店、記事本、系統設置、視頻、短視頻、跨App等。每個場景設計了三個不同難度的指令，以評估 Mobile-Agent 在各種任務下的表現，

圖片

總結來看，MobileAgent有三類使用場景：

（1）自動化移動設備操作：Mobile-Agent可用于自動化執行移動應用程序中的任務，提高效率。

（2）移動設備性能評估：利用Mobile-Agent進行移動設備操作評估，以提高性能。

（3）提高移動應用程序適應性：Mobile-Agent可幫助移動應用程序在不同環境中實現更大的適應性。

該代理的功能特色也可圈可點：

利用多模大語言模型技術；利用視覺感知工具準確識別和定位應用程序前端界面中的視覺和文字元素；自主規劃和分解復雜操作任務；通過逐步操作來導航移動應用程序；具有更大的適應性，消除了對特定系統定制的必要性；引入了Mobile-Eval，用于評估移動設備操作的基準。

3、工作原理一覽

MobileAgent工作原理包括三方面：視覺感知工具，自主任務規劃和執行，自反思和提示格式。MobileAgent使用了視覺感知模塊、文本和圖標定位，自主規劃和自反思方法來實現對手機應用的操作。

圖片

觀察、思考和行動是MobileAgent采用的提示格式，要求代理輸出三個組成部分。

圖片

責任編輯：武曉燕來源： 51CTO技術棧

阿里模擬 GPT4

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：国产成人精品一区二区 | 国产av毛片 | 国产精品高潮呻吟久久av黑人 | japanhdxxxx裸体 | 全免费a级毛片免费看视频免费下 | 中文字幕第十页 | 免费成人av | 岛国av在线免费观看 | 久久久黄色 | 欧美精品久久久久久久久老牛影院 | 一区二区三区视频 | 亚洲精品一区二区三区中文字幕 | 国产精品久久影院 | 一级做a爰片性色毛片视频停止 | 天天色综 | 黄色大片在线播放 | www.99热.com | 在线欧美亚洲 | 天天搞天天操 | 久久久久国 | 91精品国产欧美一区二区 | 欧洲亚洲一区二区三区 | 欧美精品导航 | 成人精品一区二区 | 欧美日韩久久久久 | 久久香蕉精品视频 | 特级丰满少妇一级aaaa爱毛片 | 国产一区二区麻豆 | 欧美激情va永久在线播放 | 欧美久久久久久 | 夜夜夜夜草 | 国产一区中文字幕 | 91av在线看| 久久久久久久久久久成人 | 国产日韩精品一区二区 | 亚洲精品一区在线观看 | 粉色午夜视频 | 伊人网综合 | 日韩中文字幕2019 | 日韩一二三| 午夜在线|

<dfn id="mcamm"><source id="mcamm"></source></dfn>

^{<dfn id="mcamm"></dfn>}