Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率精華

發(fā)布于 2024-6-7 12:17

瀏覽

0收藏

1. Mobile-Agent-V2是什么？

Mobile-Agent-v2是一款通過(guò)多Agent合作實(shí)現(xiàn)有效導(dǎo)航的移動(dòng)設(shè)備操作助手。它包含三個(gè)專(zhuān)業(yè)角色：規(guī)劃Agent、決策Agent和反思Agent。

? 規(guī)劃Agent負(fù)責(zé)根據(jù)歷史操作生成任務(wù)進(jìn)度，并通過(guò)設(shè)計(jì)的記憶單元保存歷史屏幕中的焦點(diǎn)內(nèi)容。

? 決策Agent在生成操作時(shí)會(huì)參考記憶單元，并檢查屏幕上的焦點(diǎn)內(nèi)容，同時(shí)更新記憶。

? 反思Agent則觀察決策代理操作前后屏幕的變化，評(píng)估操作是否達(dá)到預(yù)期，并在必要時(shí)采取措施重新執(zhí)行。

三個(gè)角色在進(jìn)度、決策和反思階段各司其職，共同協(xié)作，以簡(jiǎn)化導(dǎo)航的復(fù)雜性。

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

Mobile-Agent-v2 的運(yùn)作是循環(huán)迭代的，其流程上圖。為了提升代理對(duì)屏幕的識(shí)別力和從歷史記錄中導(dǎo)航焦點(diǎn)內(nèi)容的能力，特別設(shè)計(jì)了視覺(jué)感知模塊和記憶單元。規(guī)劃代理首先更新任務(wù)進(jìn)度，決策代理?yè)?jù)此導(dǎo)航當(dāng)前任務(wù)的發(fā)展。決策代理隨后根據(jù)任務(wù)進(jìn)度、屏幕狀態(tài)以及前一次操作的反饋（如果有誤）來(lái)執(zhí)行任務(wù)。操作后，反思代理會(huì)對(duì)比操作前后的屏幕，判斷操作是否達(dá)到預(yù)期效果。

1.1 視覺(jué)感知模塊

即便是最先進(jìn)的 MLLMs，在端到端處理屏幕識(shí)別時(shí)也面臨挑戰(zhàn)。為此，集成了視覺(jué)感知模塊來(lái)強(qiáng)化這一功能。該模塊包含三種工具：文本識(shí)別、圖標(biāo)識(shí)別和圖標(biāo)描述。將截屏輸入模塊，可以提取出屏幕上的文本和圖標(biāo)信息及其坐標(biāo)。

1.2 記憶模塊

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

鑒于規(guī)劃代理產(chǎn)出的任務(wù)進(jìn)度以文本形式展現(xiàn)，從歷史屏幕中導(dǎo)航焦點(diǎn)內(nèi)容依舊充滿(mǎn)挑戰(zhàn)。為應(yīng)對(duì)這一難題，構(gòu)建了一個(gè)記憶模塊，用以保存與當(dāng)前任務(wù)相關(guān)聯(lián)的歷史屏幕焦點(diǎn)內(nèi)容。此記憶單元作為短期記憶模塊，伴隨任務(wù)進(jìn)展而實(shí)時(shí)更新。在涉及多個(gè)應(yīng)用的復(fù)雜場(chǎng)景中，記憶單元發(fā)揮著關(guān)鍵作用。例如，在上圖展示的情形中，決策代理所捕捉的天氣信息將在后續(xù)步驟中發(fā)揮作用，此時(shí)，與天氣應(yīng)用頁(yè)面相關(guān)的信息會(huì)被同步更新至記憶單元。

1.3 規(guī)劃Agent

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

為了降低決策過(guò)程中對(duì)冗長(zhǎng)歷史操作的依賴(lài)，引入了獨(dú)立的規(guī)劃代理。盡管每次操作發(fā)生在不同的頁(yè)面且各有差異，但許多操作的目標(biāo)往往是一致的。以上圖中的例子為例，前四次操作均旨在查找比賽結(jié)果。因此，設(shè)計(jì)了規(guī)劃代理，旨在歸納歷史操作并追蹤任務(wù)的進(jìn)展。

1.4 決策Agent

決策代理在決策階段運(yùn)行，生成操作動(dòng)作并在設(shè)備上執(zhí)行它們，同時(shí)還負(fù)責(zé)更新記憶單元中的焦點(diǎn)內(nèi)容。

操作空間：為了降低操作的復(fù)雜性，作者設(shè)計(jì)了一個(gè)操作空間，并限制決策代理僅從此空間中選擇操作。對(duì)于自由度較高的操作，如點(diǎn)擊和滑動(dòng)，引入了一個(gè)額外的參數(shù)空間來(lái)定位或處理特定內(nèi)容。以下是操作空間的詳細(xì)描述：

? 打開(kāi)應(yīng)用（應(yīng)用名稱(chēng)）。如果當(dāng)前頁(yè)面是主頁(yè)，可以使用此操作打開(kāi)名為“應(yīng)用名稱(chēng)”的應(yīng)用。

? 點(diǎn)擊（x，y）。此操作用于點(diǎn)擊坐標(biāo)為（x，y）的位置。

? 滑動(dòng)（x1，y1），（x2，y2）。此操作用于從坐標(biāo)為（x1，y1）的位置滑動(dòng)到坐標(biāo)為（x2，y2）的位置。

? 輸入（文本）。如果當(dāng)前鍵盤(pán)處于激活狀態(tài)，可以使用此操作在輸入框中輸入“文本”的內(nèi)容。

? 主頁(yè)。此操作用于從任何頁(yè)面返回到主頁(yè)。

? 停止。如果決策代理認(rèn)為所有要求都已滿(mǎn)足，可以使用此操作來(lái)終止整個(gè)操作過(guò)程。

記憶單元更新：由于決策代理所做的每項(xiàng)操作都與任務(wù)高度相關(guān)，并基于當(dāng)前頁(yè)面的視覺(jué)感知結(jié)果，因此非常適合在屏幕頁(yè)面內(nèi)觀察與任務(wù)相關(guān)的焦點(diǎn)內(nèi)容。因此，賦予了決策代理更新記憶單元的能力。在做出決策時(shí)，決策代理會(huì)被提示觀察當(dāng)前屏幕頁(yè)面內(nèi)是否有與任務(wù)相關(guān)的焦點(diǎn)內(nèi)容。如果觀察到此類(lèi)信息，決策代理會(huì)將其更新到記憶中，供后續(xù)決策參考。

1.5 反思Agent

盡管配備了視覺(jué)感知模塊，Mobile-Agent-v2 有時(shí)仍會(huì)執(zhí)行出人意料的操作。在某些特定情境下，即便是頂尖的 MLLM 如 GPT-4V，也可能引發(fā)嚴(yán)重的誤判。為此，作者引入了反思代理，用以監(jiān)測(cè)決策代理操作前后屏幕的變化，判斷操作是否達(dá)到預(yù)期效果。

參照上面的架構(gòu)圖，反思代理在執(zhí)行操作后會(huì)得出三種反思結(jié)果：錯(cuò)誤操作、無(wú)效操作和正確操作。以下是對(duì)這三種結(jié)果的具體說(shuō)明：

? 錯(cuò)誤操作：指引導(dǎo)設(shè)備進(jìn)入與任務(wù)無(wú)關(guān)頁(yè)面的操作。比如，代理本想在通訊應(yīng)用中與聯(lián)系人 A 發(fā)消息，卻誤入了聯(lián)系人 B 的聊天界面。

? 無(wú)效操作：指對(duì)當(dāng)前頁(yè)面未產(chǎn)生任何變化的操作。比如，代理意圖點(diǎn)擊某個(gè)圖標(biāo)，卻誤觸了圖標(biāo)旁邊的空白區(qū)域。

? 正確操作：指符合決策代理預(yù)期，并向完成用戶(hù)指令邁進(jìn)的操作。

遇到錯(cuò)誤操作時(shí)，頁(yè)面將回退至操作前的狀態(tài)；遇到無(wú)效操作時(shí)，頁(yè)面保持不變。無(wú)論是錯(cuò)誤還是無(wú)效操作，都不會(huì)被記錄在操作歷史中，以避免代理重復(fù)無(wú)效的行為。而當(dāng)操作正確時(shí)，相關(guān)信息將被更新至操作歷史，頁(yè)面狀態(tài)也將同步更新。

2. 效果測(cè)評(píng)

2.1 任務(wù)完成度評(píng)估

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

上面兩個(gè)表分別展示了Mobile-Agent-v2在非英語(yǔ)和英語(yǔ)環(huán)境下的性能表現(xiàn)。相較于Mobile-Agent，Mobile-Agent-v2在基礎(chǔ)和高級(jí)指令的執(zhí)行上均有顯著提升。得益于多代理架構(gòu)的支持，即便面對(duì)極具挑戰(zhàn)性的高級(jí)指令，**Mobile-Agent-v2的成功率也能達(dá)到55%**，遠(yuǎn)高于Mobile-Agent的20%。在英語(yǔ)環(huán)境下，Mobile-Agent-v2同樣實(shí)現(xiàn)了顯著的性能提升，其成功率平均提高了27%，即便在Mobile-Agent本就表現(xiàn)較好的英語(yǔ)場(chǎng)景中。

2.2 反思能力評(píng)估

即便在知識(shí)注入的情況下，**決策準(zhǔn)確率可能無(wú)法達(dá)到100%，但完成率卻能達(dá)到100%**。這說(shuō)明即便有外部知識(shí)輔助，Mobile-Agent-v2在決策時(shí)仍可能犯錯(cuò)，正如人類(lèi)一樣，完全避免決策錯(cuò)誤是困難的。這突顯了反思代理的重要性。

2.3 應(yīng)用類(lèi)型評(píng)估

綜合各項(xiàng)指標(biāo)，可以發(fā)現(xiàn)所有方法在系統(tǒng)應(yīng)用上的性能普遍優(yōu)于第三方應(yīng)用。從多應(yīng)用的評(píng)估結(jié)果來(lái)看，Mobile-Agent-v2在成功率和完成率上相較于Mobile-Agent分別提升了37.5%和44.2%。與單一應(yīng)用任務(wù)相比，跨應(yīng)用任務(wù)更依賴(lài)于歷史操作和焦點(diǎn)內(nèi)容的檢索。這一顯著的性能提升證明了Mobile-Agent-v2的多代理架構(gòu)和記憶單元在其中扮演了重要角色。

2.3 操作知識(shí)注入評(píng)估

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

從上面兩個(gè)表的知識(shí)注入結(jié)果來(lái)看，操作知識(shí)能顯著提高M(jìn)obile-Agent-v2的性能，表明人工注入的操作知識(shí)有助于克服代理在操作上的局限。這一發(fā)現(xiàn)意味著知識(shí)注入能夠擴(kuò)展Mobile-Agent-v2的應(yīng)用范圍，因?yàn)榧幢闶菑?fù)雜任務(wù)，也可以通過(guò)人工編寫(xiě)的操作教程來(lái)指導(dǎo)代理完成。這為移動(dòng)設(shè)備自動(dòng)化腳本測(cè)試提供了新思路，表明通過(guò)自動(dòng)化生成高質(zhì)量的操作知識(shí)，可以進(jìn)一步提升Mobile-Agent-v2的性能。此外，知識(shí)注入的成功也為未來(lái)移動(dòng)應(yīng)用測(cè)試開(kāi)辟了新的可能性。目前移動(dòng)應(yīng)用測(cè)試多依賴(lài)于手工腳本編寫(xiě)，這限制了測(cè)試的普及性并提高了用戶(hù)使用門(mén)檻。通過(guò)將自然語(yǔ)言測(cè)試程序注入Mobile-Agent-v2，可以在移動(dòng)界面元素大小或顏色發(fā)生變化時(shí)，保持系統(tǒng)的穩(wěn)定運(yùn)行，同時(shí)語(yǔ)言描述也省去了腳本編寫(xiě)中所需的知識(shí)庫(kù)。

2.4 MLLMs性能評(píng)估

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

在上表中，對(duì)Mobile-Agent-v2框架下不同MLLMs的性能進(jìn)行了評(píng)估。由于部分模型不擅長(zhǎng)處理序列輸入，特別挑選了特定指令，并調(diào)整了每一步，使其成為獨(dú)立的單步任務(wù)。因此，僅評(píng)估了成功率（等同于決策準(zhǔn)確率）。我們還評(píng)估了繞過(guò)代理架構(gòu)，直接使用GPT-4V進(jìn)行端到端操作的效果。結(jié)果顯示，直接使用GPT-4V作為移動(dòng)設(shè)備操作助手幾乎不可行。結(jié)合代理架構(gòu)使用的GPT-4V，仍然是實(shí)現(xiàn)操作能力的最優(yōu)配置。