成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率 精華

發(fā)布于 2024-6-7 12:17
瀏覽
0收藏

1. Mobile-Agent-V2是什么?

Mobile-Agent-v2是一款通過(guò)多Agent合作實(shí)現(xiàn)有效導(dǎo)航的移動(dòng)設(shè)備操作助手。它包含三個(gè)專(zhuān)業(yè)角色:規(guī)劃Agent、決策Agent和反思Agent。

? 規(guī)劃Agent負(fù)責(zé)根據(jù)歷史操作生成任務(wù)進(jìn)度,并通過(guò)設(shè)計(jì)的記憶單元保存歷史屏幕中的焦點(diǎn)內(nèi)容。

? 決策Agent在生成操作時(shí)會(huì)參考記憶單元,并檢查屏幕上的焦點(diǎn)內(nèi)容,同時(shí)更新記憶。

? 反思Agent則觀察決策代理操作前后屏幕的變化,評(píng)估操作是否達(dá)到預(yù)期,并在必要時(shí)采取措施重新執(zhí)行。

三個(gè)角色在進(jìn)度、決策和反思階段各司其職,共同協(xié)作,以簡(jiǎn)化導(dǎo)航的復(fù)雜性。

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

Mobile-Agent-v2 的運(yùn)作是循環(huán)迭代的,其流程上圖。為了提升代理對(duì)屏幕的識(shí)別力和從歷史記錄中導(dǎo)航焦點(diǎn)內(nèi)容的能力,特別設(shè)計(jì)了視覺(jué)感知模塊和記憶單元。規(guī)劃代理首先更新任務(wù)進(jìn)度,決策代理?yè)?jù)此導(dǎo)航當(dāng)前任務(wù)的發(fā)展。決策代理隨后根據(jù)任務(wù)進(jìn)度、屏幕狀態(tài)以及前一次操作的反饋(如果有誤)來(lái)執(zhí)行任務(wù)。操作后,反思代理會(huì)對(duì)比操作前后的屏幕,判斷操作是否達(dá)到預(yù)期效果。

1.1 視覺(jué)感知模塊

即便是最先進(jìn)的 MLLMs,在端到端處理屏幕識(shí)別時(shí)也面臨挑戰(zhàn)。為此,集成了視覺(jué)感知模塊來(lái)強(qiáng)化這一功能。該模塊包含三種工具:文本識(shí)別、圖標(biāo)識(shí)別和圖標(biāo)描述。將截屏輸入模塊,可以提取出屏幕上的文本和圖標(biāo)信息及其坐標(biāo)。

1.2 記憶模塊

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

鑒于規(guī)劃代理產(chǎn)出的任務(wù)進(jìn)度以文本形式展現(xiàn),從歷史屏幕中導(dǎo)航焦點(diǎn)內(nèi)容依舊充滿(mǎn)挑戰(zhàn)。為應(yīng)對(duì)這一難題,構(gòu)建了一個(gè)記憶模塊,用以保存與當(dāng)前任務(wù)相關(guān)聯(lián)的歷史屏幕焦點(diǎn)內(nèi)容。此記憶單元作為短期記憶模塊,伴隨任務(wù)進(jìn)展而實(shí)時(shí)更新。在涉及多個(gè)應(yīng)用的復(fù)雜場(chǎng)景中,記憶單元發(fā)揮著關(guān)鍵作用。例如,在上圖展示的情形中,決策代理所捕捉的天氣信息將在后續(xù)步驟中發(fā)揮作用,此時(shí),與天氣應(yīng)用頁(yè)面相關(guān)的信息會(huì)被同步更新至記憶單元。

1.3 規(guī)劃Agent

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

為了降低決策過(guò)程中對(duì)冗長(zhǎng)歷史操作的依賴(lài),引入了獨(dú)立的規(guī)劃代理。盡管每次操作發(fā)生在不同的頁(yè)面且各有差異,但許多操作的目標(biāo)往往是一致的。以上圖中的例子為例,前四次操作均旨在查找比賽結(jié)果。因此,設(shè)計(jì)了規(guī)劃代理,旨在歸納歷史操作并追蹤任務(wù)的進(jìn)展。

1.4 決策Agent

決策代理在決策階段運(yùn)行,生成操作動(dòng)作并在設(shè)備上執(zhí)行它們,同時(shí)還負(fù)責(zé)更新記憶單元中的焦點(diǎn)內(nèi)容。

操作空間:為了降低操作的復(fù)雜性,作者設(shè)計(jì)了一個(gè)操作空間,并限制決策代理僅從此空間中選擇操作。對(duì)于自由度較高的操作,如點(diǎn)擊和滑動(dòng),引入了一個(gè)額外的參數(shù)空間來(lái)定位或處理特定內(nèi)容。以下是操作空間的詳細(xì)描述:

? 打開(kāi)應(yīng)用(應(yīng)用名稱(chēng))。如果當(dāng)前頁(yè)面是主頁(yè),可以使用此操作打開(kāi)名為“應(yīng)用名稱(chēng)”的應(yīng)用。

? 點(diǎn)擊(x,y)。此操作用于點(diǎn)擊坐標(biāo)為(x,y)的位置。

? 滑動(dòng)(x1,y1),(x2,y2)。此操作用于從坐標(biāo)為(x1,y1)的位置滑動(dòng)到坐標(biāo)為(x2,y2)的位置。

? 輸入(文本)。如果當(dāng)前鍵盤(pán)處于激活狀態(tài),可以使用此操作在輸入框中輸入“文本”的內(nèi)容。

? 主頁(yè)。此操作用于從任何頁(yè)面返回到主頁(yè)。

? 停止。如果決策代理認(rèn)為所有要求都已滿(mǎn)足,可以使用此操作來(lái)終止整個(gè)操作過(guò)程。

記憶單元更新:由于決策代理所做的每項(xiàng)操作都與任務(wù)高度相關(guān),并基于當(dāng)前頁(yè)面的視覺(jué)感知結(jié)果,因此非常適合在屏幕頁(yè)面內(nèi)觀察與任務(wù)相關(guān)的焦點(diǎn)內(nèi)容。因此,賦予了決策代理更新記憶單元的能力。在做出決策時(shí),決策代理會(huì)被提示觀察當(dāng)前屏幕頁(yè)面內(nèi)是否有與任務(wù)相關(guān)的焦點(diǎn)內(nèi)容。如果觀察到此類(lèi)信息,決策代理會(huì)將其更新到記憶中,供后續(xù)決策參考。

1.5 反思Agent

盡管配備了視覺(jué)感知模塊,Mobile-Agent-v2 有時(shí)仍會(huì)執(zhí)行出人意料的操作。在某些特定情境下,即便是頂尖的 MLLM 如 GPT-4V,也可能引發(fā)嚴(yán)重的誤判。為此,作者引入了反思代理,用以監(jiān)測(cè)決策代理操作前后屏幕的變化,判斷操作是否達(dá)到預(yù)期效果。

參照上面的架構(gòu)圖,反思代理在執(zhí)行操作后會(huì)得出三種反思結(jié)果:錯(cuò)誤操作、無(wú)效操作和正確操作。以下是對(duì)這三種結(jié)果的具體說(shuō)明:

? 錯(cuò)誤操作:指引導(dǎo)設(shè)備進(jìn)入與任務(wù)無(wú)關(guān)頁(yè)面的操作。比如,代理本想在通訊應(yīng)用中與聯(lián)系人 A 發(fā)消息,卻誤入了聯(lián)系人 B 的聊天界面。

? 無(wú)效操作:指對(duì)當(dāng)前頁(yè)面未產(chǎn)生任何變化的操作。比如,代理意圖點(diǎn)擊某個(gè)圖標(biāo),卻誤觸了圖標(biāo)旁邊的空白區(qū)域。

? 正確操作:指符合決策代理預(yù)期,并向完成用戶(hù)指令邁進(jìn)的操作。

遇到錯(cuò)誤操作時(shí),頁(yè)面將回退至操作前的狀態(tài);遇到無(wú)效操作時(shí),頁(yè)面保持不變。無(wú)論是錯(cuò)誤還是無(wú)效操作,都不會(huì)被記錄在操作歷史中,以避免代理重復(fù)無(wú)效的行為。而當(dāng)操作正確時(shí),相關(guān)信息將被更新至操作歷史,頁(yè)面狀態(tài)也將同步更新。

2. 效果測(cè)評(píng)

2.1 任務(wù)完成度評(píng)估

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

上面兩個(gè)表分別展示了Mobile-Agent-v2在非英語(yǔ)和英語(yǔ)環(huán)境下的性能表現(xiàn)。相較于Mobile-Agent,Mobile-Agent-v2在基礎(chǔ)和高級(jí)指令的執(zhí)行上均有顯著提升。得益于多代理架構(gòu)的支持,即便面對(duì)極具挑戰(zhàn)性的高級(jí)指令,**Mobile-Agent-v2的成功率也能達(dá)到55%**,遠(yuǎn)高于Mobile-Agent的20%。在英語(yǔ)環(huán)境下,Mobile-Agent-v2同樣實(shí)現(xiàn)了顯著的性能提升,其成功率平均提高了27%,即便在Mobile-Agent本就表現(xiàn)較好的英語(yǔ)場(chǎng)景中。

2.2 反思能力評(píng)估

即便在知識(shí)注入的情況下,**決策準(zhǔn)確率可能無(wú)法達(dá)到100%,但完成率卻能達(dá)到100%**。這說(shuō)明即便有外部知識(shí)輔助,Mobile-Agent-v2在決策時(shí)仍可能犯錯(cuò),正如人類(lèi)一樣,完全避免決策錯(cuò)誤是困難的。這突顯了反思代理的重要性。

2.3 應(yīng)用類(lèi)型評(píng)估

綜合各項(xiàng)指標(biāo),可以發(fā)現(xiàn)所有方法在系統(tǒng)應(yīng)用上的性能普遍優(yōu)于第三方應(yīng)用。從多應(yīng)用的評(píng)估結(jié)果來(lái)看,Mobile-Agent-v2在成功率和完成率上相較于Mobile-Agent分別提升了37.5%和44.2%。與單一應(yīng)用任務(wù)相比,跨應(yīng)用任務(wù)更依賴(lài)于歷史操作和焦點(diǎn)內(nèi)容的檢索。這一顯著的性能提升證明了Mobile-Agent-v2的多代理架構(gòu)和記憶單元在其中扮演了重要角色

2.3 操作知識(shí)注入評(píng)估

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

從上面兩個(gè)表的知識(shí)注入結(jié)果來(lái)看,操作知識(shí)能顯著提高M(jìn)obile-Agent-v2的性能,表明人工注入的操作知識(shí)有助于克服代理在操作上的局限。這一發(fā)現(xiàn)意味著知識(shí)注入能夠擴(kuò)展Mobile-Agent-v2的應(yīng)用范圍,因?yàn)榧幢闶菑?fù)雜任務(wù),也可以通過(guò)人工編寫(xiě)的操作教程來(lái)指導(dǎo)代理完成。這為移動(dòng)設(shè)備自動(dòng)化腳本測(cè)試提供了新思路,表明通過(guò)自動(dòng)化生成高質(zhì)量的操作知識(shí),可以進(jìn)一步提升Mobile-Agent-v2的性能。此外,知識(shí)注入的成功也為未來(lái)移動(dòng)應(yīng)用測(cè)試開(kāi)辟了新的可能性。目前移動(dòng)應(yīng)用測(cè)試多依賴(lài)于手工腳本編寫(xiě),這限制了測(cè)試的普及性并提高了用戶(hù)使用門(mén)檻。通過(guò)將自然語(yǔ)言測(cè)試程序注入Mobile-Agent-v2,可以在移動(dòng)界面元素大小或顏色發(fā)生變化時(shí),保持系統(tǒng)的穩(wěn)定運(yùn)行,同時(shí)語(yǔ)言描述也省去了腳本編寫(xiě)中所需的知識(shí)庫(kù)。

2.4 MLLMs性能評(píng)估

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

在上表中,對(duì)Mobile-Agent-v2框架下不同MLLMs的性能進(jìn)行了評(píng)估。由于部分模型不擅長(zhǎng)處理序列輸入,特別挑選了特定指令,并調(diào)整了每一步,使其成為獨(dú)立的單步任務(wù)。因此,僅評(píng)估了成功率(等同于決策準(zhǔn)確率)。我們還評(píng)估了繞過(guò)代理架構(gòu),直接使用GPT-4V進(jìn)行端到端操作的效果。結(jié)果顯示,直接使用GPT-4V作為移動(dòng)設(shè)備操作助手幾乎不可行。結(jié)合代理架構(gòu)使用的GPT-4V,仍然是實(shí)現(xiàn)操作能力的最優(yōu)配置

3. 使用案例

在WhatApp上回復(fù)消息:

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

在社交媒體X上搜索明星并關(guān)注:

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

在Tiktok上搜索視頻并評(píng)論:

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

在小紅書(shū)上搜索內(nèi)容:

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

根據(jù)微博內(nèi)容發(fā)表評(píng)論:

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

在b站搜索大v并關(guān)注:

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片


? 論文原文: https://arxiv.org/abs/2406.01014

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)

本文轉(zhuǎn)載自??大語(yǔ)言模型論文跟蹤??,作者:HuggingAGI 

已于2024-6-7 12:27:33修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 亚洲精品日韩精品 | 精品成人免费一区二区在线播放 | 国产一区999 | 国产精品毛片 | 亚洲a在线视频 | 九九国产| 成在线人视频免费视频 | 一本综合久久 | 久草久草久草 | 国产精品久久久久久久久久免费看 | 亚洲经典一区 | 国产精品1区2区 | 精品视频免费 | 亚洲 中文 欧美 日韩 在线观看 | 欧美一区二区激情三区 | 中文二区 | 欧美激情亚洲天堂 | 日韩精品一区二区三区久久 | 日韩欧美中文 | 亚洲精品视频在线看 | 91高清视频 | 中文字幕在线一区 | 性在线 | 性做久久久久久免费观看欧美 | 日韩在线一区二区 | 久久久免费少妇高潮毛片 | 一级黄色绿像片 | 欧美日韩亚洲在线 | 青青久草 | 在线日韩欧美 | 日韩精品久久久久久 | 日韩精品专区在线影院重磅 | 蜜桃臀av一区二区三区 | 欧美精品首页 | 男女精品网站 | 久久久久久www | 婷婷综合网 | 欧美日产国产成人免费图片 | 在线播放精品视频 | 狠狠狠干 | 午夜一区二区三区在线观看 |