編輯 | 言征
出品 | 51CTO技術棧(微信號:blog51cto)
“太酷了,以后就靠AI幫我加速剁手吃土了。”近日一款名為MobileAgent的移動智能代理引起了圈內人的注意。
一個驚艷之處在于,這款Agent為“手機+GPT4”結合,做出了一個很好的應用示范,簡直解鎖了一種手機新形態。
MobileAgent與Siri、智能客服不同的是,規劃和推理方面非常出色,能夠自動完成各種復雜任務,比如——
在Alibaba上幫助用戶找到帽子,并根據條件添加到購物車;
在Amazon Music中搜索歌手Jay Chou或播放關于“代理”的音樂;
在Chrome中搜索今日湖人隊比賽結果或關于Taylor Swift的信息;
在Gmail中發送空郵件或具有特定內容的郵件;
在TikTok上為寵物貓視頻點贊或評論等,還可以結合使用多個應用完成復雜任務。
在Chrome中搜索今日湖人隊比賽結果或關于Taylor Swift的信息
在TikTok中滑動一段關于寵物貓的視頻,然后點擊“點贊”觀看該視頻。
據悉,MobileAgent是由阿里巴巴聯合北京交通大學(一名在阿里實習的童鞋)開發的一個自主多模態AI代理,可以模擬人類操作手機,是一個純視覺解決方案,不需要任何系統代碼,完全通過分析圖像來理解和操作手機。
圖片
最重要的特性有四點:純可視化解決方案,獨立于XML 和系統元數據;操作范圍不受限制,可進行多應用操作;多種視覺感知工具,用于操作定位;無需探索和培訓,即插即用。
圖片
現在代碼已經放在github上,感興趣的朋友不妨移步去實操一番:
https://github.com/X-PLUG/MobileAgent
1、多模態大模型的威力釋放到手機上
圖片
眾所周知,GPT4的在端側的本地能力是不足的,即便最先進的GPT-4V,仍然缺乏足夠的視覺感知能力來作為有效的媒介,雖然可以產生有效的操作,但它很難在屏幕上準確定位這些操作的位置。這種限制阻礙了僅通過高級多模態大模型在移動設備上進行操作的能力。
為了解決這個問題,此前有人想到一個通過利用用戶界面布局文件來幫助GPT-4V進行本地化的辦法,但效果差強人意。
與以往依賴應用程序的XML文件或移動系統元數據的解決方案不同,Mobile-Agent以視覺為中心,在各種移動操作環境中具有更大的適應性,消除了對特定系統定制的必要性。
MobileAgent利用視覺感知工具準確識別和定位應用程序前端界面的視覺和文字元素,實現了自主規劃和分解復雜操作任務,通過逐步操作導航移動應用程序。
2、如何評估多模態大模型作為手機Agent的能力
阿里團隊為了評估該代理的準確率和性能,還搭建了一套適配不同場景的基準測試集,包括電商購物、音樂、瀏覽器、地圖、應用商店、記事本、系統設置、視頻、短視頻、跨App等。每個場景設計了三個不同難度的指令,以評估 Mobile-Agent 在各種任務下的表現,
圖片
總結來看,MobileAgent有三類使用場景:
(1)自動化移動設備操作:Mobile-Agent可用于自動化執行移動應用程序中的任務,提高效率。
(2)移動設備性能評估:利用Mobile-Agent進行移動設備操作評估,以提高性能。
(3)提高移動應用程序適應性:Mobile-Agent可幫助移動應用程序在不同環境中實現更大的適應性。
該代理的功能特色也可圈可點:
利用多模大語言模型技術;利用視覺感知工具準確識別和定位應用程序前端界面中的視覺和文字元素;自主規劃和分解復雜操作任務;通過逐步操作來導航移動應用程序;具有更大的適應性,消除了對特定系統定制的必要性;引入了Mobile-Eval,用于評估移動設備操作的基準。
3、工作原理一覽
MobileAgent工作原理包括三方面:視覺感知工具,自主任務規劃和執行,自反思和提示格式。MobileAgent使用了視覺感知模塊、文本和圖標定位,自主規劃和自反思方法來實現對手機應用的操作。
圖片
觀察、思考和行動是MobileAgent采用的提示格式,要求代理輸出三個組成部分。