AgentCPM-GUI:強(qiáng)化微調(diào)(RFT)賦能的移動設(shè)備 GUI 智能體
大家好,我是肆〇柒。當(dāng)下,移動設(shè)備已成為人們?nèi)粘I钆c工作的核心交互樞紐。從早起解鎖手機(jī)查看消息,到工作時在各類應(yīng)用間切換處理任務(wù),圖形用戶界面(GUI)操作的高效性與智能性正深刻影響著我們的 productivity(生產(chǎn)力)與 accessibility(可訪問性)。目前,隨著大型語言模型(LLM)與多模態(tài)大型模型(MLLM)的飛速發(fā)展,自主 AI 智能體在 GUI 領(lǐng)域的應(yīng)用迎來重大突破。本文將聚焦一款由清華大學(xué)、中國人民大學(xué)及 ModelBest 公司聯(lián)合研發(fā)的創(chuàng)新性移動 GUI 智能體 ——AgentCPM-GUI,深度了解其如何憑借強(qiáng)化微調(diào)、緊湊動作空間設(shè)計(jì)以及高質(zhì)量數(shù)據(jù)集,在多語言 GUI 操作領(lǐng)域?qū)崿F(xiàn)卓越性能,為移動設(shè)備智能化交互注入全新活力。也為我們落地智能體應(yīng)用帶來深度的借鑒意義。
移動互聯(lián)網(wǎng)發(fā)展多年,安卓生態(tài)系統(tǒng)已成為全球數(shù)十億用戶每日數(shù)字任務(wù)的核心交互界面。從生活服務(wù)類應(yīng)用滿足衣食住行需求,到社交平臺維系人際關(guān)系網(wǎng)絡(luò),GUI 操作的便捷性與智能性直接決定了用戶使用體驗(yàn)的優(yōu)劣。然而,現(xiàn)有 GUI 智能體的發(fā)展進(jìn)程卻受到多重嚴(yán)峻挑戰(zhàn)的制約。
一方面,數(shù)據(jù)質(zhì)量和規(guī)模的瓶頸需要突破。目前多數(shù)公開數(shù)據(jù)集依賴合成生成或模擬器錄制,這類數(shù)據(jù)不僅噪聲水平高,而且語義多樣性匱乏。以模擬器錄制為例,其在模擬真實(shí)用戶行為時往往難以捕捉到細(xì)微且復(fù)雜的操作意圖,導(dǎo)致模型在學(xué)習(xí) GUI 組件精確定位、復(fù)雜推理以及長距離規(guī)劃時力不從心。另一方面,推理泛化能力的短板限制了智能體在實(shí)際場景中的應(yīng)用潛力。純模仿學(xué)習(xí)范式下的模型極易對訓(xùn)練見過的界面模式產(chǎn)生過擬合現(xiàn)象,一旦遭遇新場景或界面布局的微小變動,原本的規(guī)劃策略便瞬間失效,任務(wù)執(zhí)行成功率大幅下滑。
此外,語言和區(qū)域覆蓋的局限性進(jìn)一步加劇了 GUI 智能體發(fā)展的不平衡。過往研究過度聚焦于英文 GUI,而對中文等非英文移動生態(tài)的關(guān)注度嚴(yán)重不足。以中文移動應(yīng)用生態(tài)的特殊性為例,其界面設(shè)計(jì)規(guī)范、語言提示元素與交互邏輯均與英文應(yīng)用存在顯著差異。例如,中文應(yīng)用中常用雙字節(jié)字符、特殊的表情符號以及高度緊湊的布局方式,這些特性使得現(xiàn)有以英文為中心的 GUI 智能體在處理中文界面時出現(xiàn)定位偏差、語義理解錯誤等問題,極大地限制了其在全球多語言環(huán)境中的普適性與實(shí)用性。
為應(yīng)對上述挑戰(zhàn),AgentCPM-GUI 被提出,其創(chuàng)新性的技術(shù)方案與系統(tǒng)設(shè)計(jì)有望重塑移動 GUI 智能體的發(fā)展格局。
AgentCPM-GUI 核心解析
基本架構(gòu)與關(guān)鍵特性總覽
AgentCPM-GUI 基于輕量級且高效的 MiniCPM-V 模型構(gòu)建,擁有 80 億參數(shù)規(guī)模,使其在保證性能的同時具備出色的運(yùn)行效率。這款智能體能夠以智能手機(jī)截圖作為輸入源,精準(zhǔn)解析并自主執(zhí)行各類用戶指定的安卓任務(wù),無縫適配中英文應(yīng)用生態(tài)。其核心優(yōu)勢體現(xiàn)在以下關(guān)鍵特性之中:
高質(zhì)量 GUI 定位能力 :通過在大規(guī)模雙語 Android 數(shù)據(jù)集上的預(yù)訓(xùn)練,AgentCPM-GUI 深度學(xué)習(xí)了 GUI 組件的視覺特征與語義信息,從而在復(fù)雜多變的界面環(huán)境中實(shí)現(xiàn)對按鈕、輸入框、標(biāo)簽、圖標(biāo)等組件的精準(zhǔn)定位與語義理解。例如,在面對一款全新金融類應(yīng)用的登錄界面時,它能迅速識別 “用戶名輸入框”“密碼輸入框” 以及 “登錄按鈕” 的位置與功能,為進(jìn)一步的任務(wù)執(zhí)行奠定堅(jiān)實(shí)基礎(chǔ)。
廣泛的中文應(yīng)用適配性 :針對中文移動應(yīng)用生態(tài)的特殊性,AgentCPM-GUI 進(jìn)行了深度優(yōu)化。它能夠熟練操作 30 + 款主流中文應(yīng)用,涵蓋地圖導(dǎo)航類如高德地圖,生活服務(wù)類如同城旅游,社交類像微信、微博,以及影音娛樂類如愛奇藝、騰訊視頻等。在這些應(yīng)用中,無論是復(fù)雜的多級菜單操作,還是基于中文文本內(nèi)容的搜索查詢,它均能應(yīng)對自如,有效突破了語言障礙對 GUI 智能體發(fā)展的限制。
強(qiáng)化微調(diào)賦能的推理規(guī)劃能力 :借助強(qiáng)化微調(diào)技術(shù),AgentCPM-GUI 實(shí)現(xiàn)了從 “被動模仿” 到 “主動思考” 的跨越。在執(zhí)行任務(wù)前,模型能夠基于當(dāng)前界面狀態(tài)與任務(wù)目標(biāo)進(jìn)行多步推理,生成合理的操作序列。以在電商應(yīng)用中查找特定商品為例,它會先分析當(dāng)前頁面布局,確定搜索框位置并點(diǎn)擊進(jìn)入,再輸入商品關(guān)鍵詞,隨后根據(jù)搜索結(jié)果頁面的展示邏輯進(jìn)行篩選與瀏覽,最終定位到目標(biāo)商品,整個過程體現(xiàn)出 strong 的邏輯推理與規(guī)劃能力。
緊湊高效的動空間設(shè)計(jì) :為提升在移動邊緣設(shè)備上的執(zhí)行效率,AgentCPM-GUI 設(shè)計(jì)了一套精簡的動作空間。通過采用緊湊的 JSON 格式表示動作,平均每個動作僅需 9.7 個 token,大幅減少了輸出長度與計(jì)算開銷。例如,一個簡單的點(diǎn)擊操作可以表示為 {"POINT":[480,320]}
,滑動操作則表示為 {"POINT":[500,200],"to":"down"}
,既保證了語義的完整性,又優(yōu)化了運(yùn)行時的資源利用率,使其在算力有限的移動設(shè)備上能夠流暢運(yùn)行,響應(yīng)迅速。
深度科研細(xì)節(jié):漸進(jìn)式訓(xùn)練方法論
數(shù)據(jù)集構(gòu)建的藝術(shù)
AgentCPM-GUI 的卓越性能始于其精心構(gòu)建的數(shù)據(jù)集。研發(fā)團(tuán)隊(duì)投入大量精力收集中文安卓應(yīng)用的 55K 軌跡、470K 步驟,全面覆蓋生活服務(wù)、電子商務(wù)、地圖導(dǎo)航、社交、視頻、音樂 / 音頻、閱讀 / 學(xué)習(xí)以及生產(chǎn)力等八大功能領(lǐng)域,確保數(shù)據(jù)的豐富性與多樣性。為避免過擬合,他們還整合并去重多個公共英文數(shù)據(jù)集,形成統(tǒng)一的數(shù)據(jù)集框架,有力支撐跨語言、跨應(yīng)用的行為建模。
在數(shù)據(jù)收集過程中,團(tuán)隊(duì)采用多維度的質(zhì)量保障措施。一方面,利用參數(shù)化指令模板結(jié)合 GPT-4o 生成多樣化的查詢指令,再經(jīng)人工審核去除錯誤與重復(fù)內(nèi)容,并通過 GPT-4o 進(jìn)行改寫以拓展詞匯覆蓋范圍。另一方面,在真實(shí)的安卓手機(jī)上進(jìn)行軌跡采集,借助定制的數(shù)據(jù)記錄器僅記錄經(jīng)人工確認(rèn)的點(diǎn)擊、長按、滑動、文本輸入等操作及其關(guān)聯(lián)的 UI 元數(shù)據(jù),有效過濾掉模擬器錄制中常見的噪聲事件,確保數(shù)據(jù)的真實(shí)性與可靠性。
漸進(jìn)式訓(xùn)練流程的精妙
AgentCPM-GUI 的訓(xùn)練流程遵循從感知到行動、再到推理的漸進(jìn)式學(xué)習(xí)路徑,包含三個關(guān)鍵階段:
階段一:視覺感知與定位預(yù)訓(xùn)練 :聚焦于提升模型的底層感知與定位能力。研發(fā)團(tuán)隊(duì)收集大量 OCR(光學(xué)字符識別)任務(wù)數(shù)據(jù)以及組件定位任務(wù)數(shù)據(jù),使模型能夠精準(zhǔn)學(xué)習(xí) GUI 組件與文本描述之間的空間與語義對應(yīng)關(guān)系。例如,通過學(xué)習(xí)大量帶有標(biāo)記區(qū)域的圖像與對應(yīng)文本內(nèi)容的數(shù)據(jù)對,模型可以準(zhǔn)確識別出圖像中特定文本的位置與內(nèi)容,為后續(xù)的任務(wù)執(zhí)行提供可靠的視覺基礎(chǔ)。此階段混合 50% 的通用多模態(tài) SFT 數(shù)據(jù),不僅規(guī)整了視覺模塊,還讓模型吸收 GUI 特定的線索,在 12M 樣本的訓(xùn)練下,模型在視覺感知任務(wù)上展現(xiàn)出色的性能,但此時其在高層次任務(wù)語義理解和規(guī)劃方面仍較為薄弱。
階段二:監(jiān)督微調(diào)(SFT) :基于第一階段預(yù)訓(xùn)練的模型,對自然語言指令與 GUI 任務(wù)執(zhí)行軌跡數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)。這一階段使模型學(xué)會將自然語言指令映射到具體的操作動作,生成符合語境的有效動作序列。
第二階段訓(xùn)練參數(shù):有監(jiān)督微調(diào)
例如,當(dāng)接收到 “打開應(yīng)用菜單并選擇設(shè)置選項(xiàng)” 的指令時,模型能夠根據(jù)已學(xué)習(xí)的軌跡數(shù)據(jù),生成相應(yīng)的點(diǎn)擊操作序列來完成任務(wù)。在訓(xùn)練過程中,為增強(qiáng)跨語言泛化能力并減少過擬合風(fēng)險(xiǎn),團(tuán)隊(duì)將中文語料與英文語料進(jìn)行混合訓(xùn)練,并對英文數(shù)據(jù)集進(jìn)行去重處理。同時,在 SFT 階段引入初步的思考生成,為后續(xù)強(qiáng)化微調(diào)階段的推理優(yōu)化奠定基礎(chǔ)。共使用 6.9M 實(shí)例進(jìn)行監(jiān)督微調(diào),使模型在中英雙語環(huán)境下均能生成較為合理的操作序列。
階段三:強(qiáng)化微調(diào)(RFT) :采用 Group Relative Policy Optimization(GRPO)算法對模型進(jìn)行強(qiáng)化微調(diào),著重提升其推理決策能力。
第三階段訓(xùn)練參數(shù):強(qiáng)化微調(diào)
GRPO 算法通過組內(nèi)比較替代傳統(tǒng) PPO 算法中的價(jià)值critic,對每個查詢 q,當(dāng)前策略 πθold 采樣 N 個響應(yīng) {o1,…, oN},為每個響應(yīng)分配標(biāo)量任務(wù)獎勵 {r1,…, rN}。通過組內(nèi)比較計(jì)算方差減少的優(yōu)勢估計(jì),然后使用帶 KL 散度懲罰的裁剪目標(biāo)更新策略。在訓(xùn)練過程中,模型的策略會根據(jù)環(huán)境反饋的獎勵信號動態(tài)調(diào)整,以生成更具適應(yīng)性與高效性的操作序列。例如,在面對界面布局變化或任務(wù)目標(biāo)更新時,推理優(yōu)化器能夠引導(dǎo)模型重新規(guī)劃操作路徑,選擇最優(yōu)的操作序列以達(dá)成任務(wù)目標(biāo)。這種基于 GRPO 的強(qiáng)化微調(diào)策略,使 AgentCPM-GUI 能夠突破單純模仿學(xué)習(xí)的局限,實(shí)現(xiàn)更具適應(yīng)性與創(chuàng)造性的任務(wù)規(guī)劃與執(zhí)行。
關(guān)于本訓(xùn)練框架的概述
上圖展示了 AgentCPM-GUI 的完整訓(xùn)練框架,涵蓋了從視覺感知預(yù)訓(xùn)練到監(jiān)督微調(diào)再到強(qiáng)化微調(diào)的全過程,幫助我們更直觀地理解模型能力培養(yǎng)的路徑。
動作空間設(shè)計(jì)的巧思
AgentCPM-GUI 的動作空間設(shè)計(jì)精簡而高效,包含六種原子動作類型及其靈活組合方式:
POINT 動作 :用于指定屏幕上的一個坐標(biāo)點(diǎn)進(jìn)行點(diǎn)擊操作。它接收一個整數(shù)元組(x,y),坐標(biāo)范圍歸一化至 [0,1000],以當(dāng)前窗口的左上角為原點(diǎn),右下角為(1000,1000)。例如,{"POINT":[500,500]}
表示在屏幕中心位置執(zhí)行點(diǎn)擊操作。此外,POINT 動作還可與 duration 參數(shù)結(jié)合,表示長按操作;與 to 參數(shù)結(jié)合,表示從當(dāng)前點(diǎn)向指定方向或坐標(biāo)滑動的操作,如{"POINT":[500,200],"to":"down"}
表示從坐標(biāo)(500,200)向下方滑動。
to 動作:專門用于實(shí)現(xiàn)界面內(nèi)的滾動操作。它可以指定滾動方向,取值包括 “up”(向上)、“down”(向下)、“l(fā)eft”(向左)、“right”(向右),或者與 POINT 動作配合,定義從一個坐標(biāo)點(diǎn)到另一個坐標(biāo)點(diǎn)的滑動軌跡。例如,{"to":"up"}
表示在當(dāng)前界面內(nèi)向上滾動,而{"POINT":[200,300],"to":"right"}
則表示從坐標(biāo)(200,300)向右滑動。
TYPE 動作:用于在當(dāng)前輸入焦點(diǎn)處輸入指定文本。它接收一個字符串作為參數(shù),例如{"TYPE":"Hello, world!"}
表示在文本輸入框中輸入 “Hello, world!” 字符串。這一動作在需要進(jìn)行文本輸入的任務(wù)場景中至關(guān)重要,如登錄賬號、搜索查詢等操作。
PRESS 動作:用于觸發(fā)設(shè)備的特殊按鍵,包括 “HOME”(返回桌面)、“BACK”(返回上一界面)、“ENTER”(確認(rèn)輸入)等。這些按鍵操作在安卓系統(tǒng)的導(dǎo)航與交互中頻繁出現(xiàn),通過 PRESS 動作,模型能夠模擬用戶對設(shè)備按鍵的按下操作,實(shí)現(xiàn)界面的切換與任務(wù)的推進(jìn)。例如,{"PRESS":"BACK"}
表示按下返回鍵,回到上一界面。
STATUS 動作:用于更新當(dāng)前任務(wù)的狀態(tài),包括 “continue”(繼續(xù)執(zhí)行)、“finish”(任務(wù)完成)、“satisfied”(任務(wù)條件已滿足)、“impossible”(任務(wù)無法完成)、“interrupt”(任務(wù)中斷)、“need_feedback”(需要用戶反饋)等。例如,當(dāng)模型檢測到任務(wù)目標(biāo)已達(dá)成時,可生成{"STATUS":"finish"}
動作,終止后續(xù)操作。
duration 參數(shù):用于指定動作持續(xù)的時間長度,以毫秒為單位。它可以獨(dú)立使用,表示等待操作,如{"duration":1000}
表示等待 1000 毫秒(即 1 秒);也可以與其他動作結(jié)合使用,表示長按或滑動的持續(xù)時間,如{"POINT":[480,320],"duration":2000}
表示在坐標(biāo)(480,320)處進(jìn)行時長為 2000 毫秒的長按操作。
通過緊湊的 JSON 格式表示這些動作,AgentCPM-GUI 在保證動作語義清晰完整的同時,極大地減少了輸出長度與 token 消耗。例如,一個包含點(diǎn)擊操作和思考過程的完整輸出可能如下所示:
{"thought":"根據(jù)用戶指令,當(dāng)前需要點(diǎn)擊登錄按鈕完成登錄操作。在分析當(dāng)前界面后,確定登錄按鈕位于屏幕中央偏右位置。","POINT":[729,69]}
其中,thought 字段記錄了模型的思考過程,為操作提供了語義解釋;POINT 動作則指定了具體的點(diǎn)擊坐標(biāo)。這種設(shè)計(jì)提升了模型在移動設(shè)備上的運(yùn)行效率,還便于開發(fā)者對模型的輸出進(jìn)行解析與處理。
AgentCPM-GUI 的示例操作
上表展示了一些具體的動作示例,使我們能更清晰地了解 AgentCPM-GUI 的動作空間設(shè)計(jì)。
技術(shù)架構(gòu)的底層邏輯
MiniCPM-V 的選型智慧
AgentCPM-GUI 的底層架構(gòu)基于 MiniCPM-V,這款輕量級的視覺 - 語言模型在其設(shè)計(jì)之初便充分考慮了移動設(shè)備應(yīng)用場景的需求。MiniCPM-V 擁有 80 億參數(shù),這使得它在具備強(qiáng)大表達(dá)能力的同時,能夠保持相對較低的計(jì)算資源消耗與推理延遲,完美適配移動設(shè)備的硬件條件限制。
其模型結(jié)構(gòu)深度融合了視覺編碼器與語言解碼器,通過多層的交叉注意力機(jī)制實(shí)現(xiàn)視覺信息與語言指令的高效交互。在處理 GUI 操作任務(wù)時,視覺編碼器首先對輸入的截圖進(jìn)行特征提取,捕捉屏幕中各類 GUI 組件的視覺特征與空間布局信息;語言解碼器則對自然語言指令進(jìn)行語義解析,提取任務(wù)目標(biāo)的關(guān)鍵語義要素。隨后,交叉注意力機(jī)制將視覺特征與語言語義進(jìn)行深度融合,使模型能夠精準(zhǔn)理解任務(wù)目標(biāo)與當(dāng)前界面狀態(tài)之間的關(guān)系,從而生成合理有效的操作動作。
模塊間協(xié)作的機(jī)制
三個訓(xùn)練階段分別針對感知、行動、推理能力進(jìn)行強(qiáng)化,各模塊之間緊密協(xié)作,共同實(shí)現(xiàn)端到端的 GUI 操作流程:
1. 感知預(yù)訓(xùn)練階段 :視覺編碼器模塊專注于學(xué)習(xí) GUI 組件的視覺特征表示,包括按鈕的形狀、顏色、圖標(biāo)樣式,文本標(biāo)簽的字體、大小、位置等信息。通過大量的 OCR 與組件定位任務(wù)訓(xùn)練,該模塊能夠精確提取屏幕中各類組件的視覺特征,并將其轉(zhuǎn)換為高維特征向量,為后續(xù)的任務(wù)執(zhí)行提供豐富的視覺信息基礎(chǔ)。
2. 監(jiān)督微調(diào)階段 :引入語言解碼器模塊與操作生成器模塊。語言解碼器對自然語言指令進(jìn)行語義解析,將其轉(zhuǎn)換為語義向量;操作生成器則基于視覺編碼器提取的視覺特征與語言解碼器輸出的語義向量,學(xué)習(xí)生成對應(yīng)的操作動作。此時,模型通過聯(lián)合訓(xùn)練,逐漸學(xué)會將指令語義與視覺場景相結(jié)合,生成符合任務(wù)目標(biāo)的操作序列。
3. 強(qiáng)化微調(diào)階段 :推理優(yōu)化器模塊被激活。該模塊基于前兩個階段學(xué)習(xí)到的感知與操作生成能力,通過強(qiáng)化學(xué)習(xí)算法對操作序列進(jìn)行優(yōu)化。它根據(jù)環(huán)境反饋的獎勵信號,動態(tài)調(diào)整操作生成策略,使模型能夠生成更具適應(yīng)性與高效性的操作序列。例如,在面對界面布局變化或任務(wù)目標(biāo)更新時,推理優(yōu)化器能夠引導(dǎo)模型重新規(guī)劃操作路徑,選擇最優(yōu)的操作序列以達(dá)成任務(wù)目標(biāo)。
各模塊之間通過共享參數(shù)與梯度信息,在訓(xùn)練過程中不斷調(diào)整與優(yōu)化自身的權(quán)重與結(jié)構(gòu),最終實(shí)現(xiàn)緊密結(jié)合與高效協(xié)作。在實(shí)際推理過程中,輸入的截圖與指令依次經(jīng)過視覺編碼器、語言解碼器、操作生成器與推理優(yōu)化器的處理,最終輸出精準(zhǔn)的操作動作,實(shí)現(xiàn)從視覺感知到任務(wù)執(zhí)行的完整閉環(huán)。
實(shí)驗(yàn)驗(yàn)證:性能的全面度量
基準(zhǔn)測試的選擇依據(jù)
鑒于公共基準(zhǔn)測試在 GUI 智能體評估領(lǐng)域的廣泛應(yīng)用與權(quán)威性,AgentCPM-GUI 選擇在 AndroidControl、GUI-Odyssey、AITZ 等經(jīng)典基準(zhǔn)測試上進(jìn)行全面性能評估。這些基準(zhǔn)測試涵蓋了從簡單界面操作到復(fù)雜多步驟任務(wù)的廣泛場景,能夠充分衡量模型在不同類型任務(wù)中的表現(xiàn)。
同時,為彌補(bǔ)現(xiàn)有基準(zhǔn)測試在中文 GUI 評估方面的空白,團(tuán)隊(duì)引入了自行構(gòu)建的中文 GUI 基準(zhǔn) CAGUI。CAGUI 基準(zhǔn)包含豐富的中文安卓應(yīng)用操作任務(wù),從地圖導(dǎo)航中的地點(diǎn)搜索到社交應(yīng)用中的消息發(fā)送,全面覆蓋中文用戶的日常操作場景。通過在 CAGUI 上的評估,能夠精準(zhǔn)衡量模型在中文語言環(huán)境下的 GUI 操作能力,為多語言 GUI 智能體的研究與發(fā)展提供重要的參考依據(jù)。
評估指標(biāo)的考量維度
評估指標(biāo)體系由類型匹配(Type Match,TM)與精確匹配(Exact Match,EM)兩部分構(gòu)成,二者相輔相成,全面刻畫模型的性能表現(xiàn):
類型匹配(TM) :關(guān)注預(yù)測動作類型與真實(shí)動作類型的匹配程度。例如,若模型預(yù)測出點(diǎn)擊操作而真實(shí)動作確實(shí)是點(diǎn)擊,則 TM 指標(biāo)計(jì)為正確。這一指標(biāo)主要衡量模型對任務(wù)操作類型的判斷能力,反映其對任務(wù)語義的高層理解水平。在復(fù)雜的多步驟任務(wù)中,即使部分操作參數(shù)存在偏差,只要操作類型正確,TM 仍能體現(xiàn)出模型對任務(wù)執(zhí)行流程的合理性把握。精確匹配(EM) :在 TM 的基礎(chǔ)上進(jìn)一步要求動作參數(shù)完全正確。以點(diǎn)擊操作為例,不僅操作類型需為點(diǎn)擊,預(yù)測的坐標(biāo)點(diǎn)還需與真實(shí)坐標(biāo)點(diǎn)在預(yù)設(shè)的容差范圍內(nèi)(通常根據(jù)屏幕分辨率與組件大小確定合理閾值)才能判定為 EM 正確。這一指標(biāo)對模型的操作精度提出更高要求,直觀反映其在實(shí)際設(shè)備操作中的成功率與可靠性。
結(jié)合 TM 與 EM 兩項(xiàng)指標(biāo),研發(fā)人員能夠全面深入地了解模型在不同任務(wù)場景下的優(yōu)勢與不足,為后續(xù)的優(yōu)化與改進(jìn)提供明確的方向指引。
關(guān)鍵實(shí)驗(yàn)結(jié)果解讀
Grounding 定位能力測試
在 CAGUI 基準(zhǔn)測試的 Fun2Point、Text2Point 和 Bbox2Text 三項(xiàng)任務(wù)中,AgentCPM-GUI 憑借其卓越的感知與定位能力,分別取得了 79.1%、76.5% 和 58.2% 的準(zhǔn)確率,平均準(zhǔn)確率達(dá)到 71.3%,顯著超越其他基線模型。
在CAGUI基準(zhǔn)測試的Fun2Point、Text2Point和Bbox2Text子任務(wù)上對GUI定位準(zhǔn)確率進(jìn)行評估,加粗和下劃線分別表示最佳和第二好的結(jié)果
上表提供了 CAGUI 基準(zhǔn)測試中各模型在 Fun2Point、Text2Point 和 Bbox2Text 任務(wù)上的具體準(zhǔn)確率數(shù)據(jù),直觀地展示了 AgentCPM-GUI 在 GUI 定位能力上的優(yōu)勢。
例如,在 Text2Point 任務(wù)中,面對復(fù)雜多變的中文界面文本布局,AgentCPM-GUI 能夠精準(zhǔn)定位到指定文本字符串的位置,這得益于其在大規(guī)模雙語數(shù)據(jù)集上的預(yù)訓(xùn)練以及精心設(shè)計(jì)的漸進(jìn)式訓(xùn)練流程。相比之下,多數(shù)基線模型在 Bbox2Text 任務(wù)中表現(xiàn)不佳,準(zhǔn)確率低于 5%,主要?dú)w因于它們難以在視覺區(qū)域與文本內(nèi)容之間建立精準(zhǔn)的對應(yīng)關(guān)系,尤其在處理小字體、復(fù)雜背景以及文本密集排列的中文界面時,定位精度大幅下降。
動作預(yù)測能力測試
在多個基準(zhǔn)測試中,AgentCPM-GUI 的 TM 和 EM 指標(biāo)均展現(xiàn)出顯著的領(lǐng)先優(yōu)勢。
五個GUI Agent基準(zhǔn)測試中,按類型匹配(TM)和精確匹配(EM)衡量的步驟級動作預(yù)測性能。加粗和下劃線分別表示最佳和次佳結(jié)果。*OS-Atlas在GUI-Odyssey基準(zhǔn)測試中使用了不同的訓(xùn)練/測試分割,因此無法直接比較
上表列出了 AgentCPM-GUI 在 AndroidControl、GUI-Odyssey、AITZ 以及 CAGUI 等五個 GUI Agent 基準(zhǔn)測試上的 Type Match(TM)和 Exact Match(EM)性能指標(biāo),突顯了其在各類任務(wù)場景中的卓越表現(xiàn)。
在 AndroidControl-Low 數(shù)據(jù)集上,其 TM 達(dá)到 94.39%,EM 達(dá)到 90.20%;在更具挑戰(zhàn)性的 GUI-Odyssey 數(shù)據(jù)集上,TM 為 90.85%,EM 為 74.96%;而在中文專屬的 CAGUI 基準(zhǔn)測試中,TM 高達(dá) 96.86%,EM 達(dá)到 91.28%。這些數(shù)據(jù)有力證明了 AgentCPM-GUI 在復(fù)雜多步驟場景以及中文語言環(huán)境下的強(qiáng)大泛化能力與推理規(guī)劃能力。通過對比發(fā)現(xiàn),在面對長距離依賴、多步驟決策以及界面布局動態(tài)變化的任務(wù)時,其漸進(jìn)式訓(xùn)練方法與強(qiáng)化微調(diào)策略能夠有效提升模型對任務(wù)執(zhí)行路徑的優(yōu)化能力,使其在保持高操作類型準(zhǔn)確性的同時,顯著提高動作參數(shù)的精確度,從而在 EM 指標(biāo)上拉開與競爭對手的差距。
強(qiáng)化微調(diào)效果評估
通過對比強(qiáng)化微調(diào)(RFT)階段前后的模型性能,可以清晰地看到強(qiáng)化微調(diào)對模型推理能力的顯著提升作用。
消融研究比較了RFT前后AgentCPM-GUI的性能
上表展示了強(qiáng)化微調(diào)前后 AgentCPM-GUI 在不同數(shù)據(jù)集上的性能對比,說明了 RFT 對提升模型 Exact Match 準(zhǔn)確率的重要作用。
在 AndroidControl-Low、GUI-Odyssey 和 AITZ 等數(shù)據(jù)集上,RFT 后模型的 Exact Match 準(zhǔn)確率分別提升了 [具體提升數(shù)值],例如在 GUI-Odyssey 數(shù)據(jù)集上,RFT 前 EM 為 [X]%,RFT 后提升至 74.96%。這表明強(qiáng)化微調(diào)階段通過引入環(huán)境反饋與獎勵信號,引導(dǎo)模型對操作序列進(jìn)行深度優(yōu)化,使其能夠更好地應(yīng)對復(fù)雜任務(wù)場景中的不確定性與動態(tài)變化,生成更具適應(yīng)性與魯棒性的操作序列。
AgentCPM-GUI訓(xùn)練集和驗(yàn)證集上的獎勵曲線
上圖展示了 AgentCPM-GUI 在訓(xùn)練集和驗(yàn)證集上的獎勵曲線,反映了 RFT 過程中模型的優(yōu)化趨勢和良好的泛化能力。
模型局限性剖析
盡管 AgentCPM-GUI 在 GUI 智能體領(lǐng)域取得了顯著的成果,但其仍存在一些局限性有待克服。
- 泛化能力瓶頸 :在面對全新的應(yīng)用領(lǐng)域、未知類型的應(yīng)用程序以及動態(tài)變化的界面布局時,模型的泛化能力受到一定限制。例如,當(dāng)遇到一款采用全新交互設(shè)計(jì) paradigm(范式)的創(chuàng)新型應(yīng)用時,由于訓(xùn)練數(shù)據(jù)中缺乏對該類界面布局與交互邏輯的覆蓋,模型可能無法準(zhǔn)確理解界面元素的功能與操作方式,導(dǎo)致任務(wù)執(zhí)行失敗率上升。此外,不同應(yīng)用之間的組件布局差異、交互邏輯復(fù)雜度以及視覺設(shè)計(jì)風(fēng)格的多樣性,也對模型的泛化能力提出了更高的要求。
- 多模態(tài)交互局限 :目前的 AgentCPM-GUI 主要依賴視覺信息進(jìn)行 GUI 操作,對于復(fù)雜的多模態(tài)交互任務(wù)支持不足。在實(shí)際應(yīng)用中,用戶可能通過語音指令、手勢操作以及文本輸入等多種模態(tài)與設(shè)備進(jìn)行交互。然而,AgentCPM-GUI 在融合視覺、語音、文本等多種模態(tài)信息進(jìn)行綜合理解與決策方面存在短板,難以滿足復(fù)雜多模態(tài)指令的理解與執(zhí)行需求。例如,在語音指令與視覺場景存在語義關(guān)聯(lián)的情況下,模型無法有效整合兩者信息,從而影響任務(wù)執(zhí)行的準(zhǔn)確性和效率。
- 動作空間的拓展性不足 :盡管當(dāng)前的動作空間設(shè)計(jì)已經(jīng)能夠滿足大多數(shù)常見 GUI 操作需求,但在面對一些復(fù)雜的交互操作(如多指手勢、3D 觸控操作等)時,現(xiàn)有的動作表示方式顯得力不從心。這限制了模型在高端應(yīng)用與專業(yè)領(lǐng)域中的操作能力,無法充分發(fā)揮現(xiàn)代移動設(shè)備豐富多樣的交互功能。
深入剖析模型局限性
泛化能力瓶頸的深層次原因 :不同應(yīng)用界面布局的多樣性與復(fù)雜性是導(dǎo)致泛化能力瓶頸的關(guān)鍵因素。例如,一些應(yīng)用可能采用獨(dú)特的三層式菜單結(jié)構(gòu),而另一些應(yīng)用則可能使用創(chuàng)新的滑動式交互邏輯。這些差異使得模型在訓(xùn)練過程中難以接觸到所有可能的界面布局模式,從而在面對新應(yīng)用時出現(xiàn)特征提取與任務(wù)理解的困難。目前,領(lǐng)域內(nèi)針對泛化能力提升的前沿方法包括數(shù)據(jù)增強(qiáng)技術(shù)與元學(xué)習(xí)策略。數(shù)據(jù)增強(qiáng)技術(shù)通過模擬多樣化的界面風(fēng)格與布局形式,如隨機(jī)改變組件的大小、顏色、位置等,使模型在訓(xùn)練過程中接觸更廣泛的視覺變化,從而增強(qiáng)其對不同界面風(fēng)格的適應(yīng)性。元學(xué)習(xí)策略則側(cè)重于培養(yǎng)模型快速適應(yīng)新任務(wù)的能力,通過在訓(xùn)練中引入多種不同但相關(guān)的任務(wù),使模型學(xué)會如何利用少量的新數(shù)據(jù)快速調(diào)整自身的參數(shù)與策略,以適應(yīng)新領(lǐng)域的任務(wù)需求。
多模態(tài)交互局限的根源分析 :多模態(tài)交互局限主要源于模型當(dāng)前的感知模態(tài)覆蓋范圍有限。現(xiàn)有的 AgentCPM-GUI 僅依賴視覺信息進(jìn)行操作決策,而忽略了語音、手勢等其他模態(tài)所蘊(yùn)含的豐富語義信息。在實(shí)際交互場景中,語音指令可能包含用戶的情感、語調(diào)等非語言信息,手勢操作則能夠傳達(dá)空間位置、動作意圖等視覺難以捕捉的內(nèi)容。為了突破這一局限,學(xué)術(shù)界與工業(yè)界正在積極探索多模態(tài)融合技術(shù)。例如,構(gòu)建多模態(tài)融合模塊,通過深度神經(jīng)網(wǎng)絡(luò)將不同模態(tài)的信息映射到統(tǒng)一的語義空間,實(shí)現(xiàn)視覺、語音、文本等多模態(tài)信息的有效整合。同時,開展多模態(tài)預(yù)訓(xùn)練,在大規(guī)模多模態(tài)數(shù)據(jù)集上進(jìn)行聯(lián)合訓(xùn)練,使模型能夠?qū)W習(xí)到不同模態(tài)之間的語義關(guān)聯(lián)與交互模式,從而在面對多模態(tài)指令時能夠進(jìn)行準(zhǔn)確的語義解析與聯(lián)合決策。
動作空間拓展性不足的改進(jìn)方向 :動作空間拓展性不足限制了模型對復(fù)雜交互操作的支持能力。例如,現(xiàn)代移動設(shè)備支持多指手勢操作,如雙指縮放、三指滑動等,這些操作在專業(yè)繪圖、地圖瀏覽等應(yīng)用中具有重要作用。目前,拓展動作空間的可能方向包括引入手勢軌跡點(diǎn)序列與壓力級別等參數(shù),以詳細(xì)表示復(fù)雜手勢操作的細(xì)節(jié)。同時,研究如何將這些復(fù)雜動作與現(xiàn)有動作進(jìn)行有機(jī)組合,形成更加靈活的操作序列,以適應(yīng)高端應(yīng)用中的復(fù)雜交互需求。例如,設(shè)計(jì)一種復(fù)合動作表示格式,將多指手勢的起始位置、移動軌跡、結(jié)束位置以及壓力變化等信息進(jìn)行編碼,使模型能夠理解和執(zhí)行復(fù)雜的交互操作,充分發(fā)揮移動設(shè)備的交互潛力。
未來研究方向展望
針對上述局限性,未來 GUI 智能體的研究可著重探索以下幾個方向:
模型架構(gòu)優(yōu)化與泛化能力提升 :引入先進(jìn)的注意力機(jī)制變體(如動態(tài)路由注意力、層次化注意力等)以及元學(xué)習(xí)策略,使模型能夠快速適應(yīng)新領(lǐng)域的數(shù)據(jù)特征與界面布局模式。通過在訓(xùn)練過程中引入多樣化的領(lǐng)域風(fēng)格遷移技術(shù),增強(qiáng)模型對不同應(yīng)用視覺風(fēng)格的魯棒性。例如,采用基于生成對抗網(wǎng)絡(luò)(GAN)的界面風(fēng)格遷移方法,使模型在訓(xùn)練數(shù)據(jù)中接觸更多樣化的界面風(fēng)格與布局形式,從而提升其跨領(lǐng)域的泛化能力。
動作空間的拓展與豐富 :融合多模態(tài)交互動作,如語音指令觸發(fā)、手勢操作組合等,使模型能夠支持更加豐富多樣的交互方式。針對復(fù)雜手勢操作,設(shè)計(jì)相應(yīng)的動作表示格式與參數(shù)定義,例如通過引入手勢軌跡點(diǎn)序列與壓力級別等參數(shù),擴(kuò)展動作空間的表達(dá)能力。同時,研究如何將這些復(fù)雜動作與現(xiàn)有動作進(jìn)行有機(jī)組合,形成更加靈活的操作序列,以適應(yīng)高端應(yīng)用中的復(fù)雜交互需求。
多模態(tài)交互能力強(qiáng)化 :構(gòu)建多模態(tài)融合模塊,深度整合視覺、語音、文本等多種模態(tài)信息處理流程。利用多模態(tài)預(yù)訓(xùn)練技術(shù),在大規(guī)模多模態(tài)數(shù)據(jù)集上進(jìn)行聯(lián)合訓(xùn)練,使模型能夠?qū)W習(xí)到不同模態(tài)之間的語義關(guān)聯(lián)與交互模式。例如,通過構(gòu)建視覺 - 語音 - 文本三模態(tài)的關(guān)聯(lián)學(xué)習(xí)任務(wù),讓模型理解同一語義內(nèi)容在不同模態(tài)下的表達(dá)形式,從而在面對多模態(tài)指令時能夠進(jìn)行準(zhǔn)確的語義解析與聯(lián)合決策。
知識增強(qiáng)與跨領(lǐng)域適應(yīng)性提升 :結(jié)合知識圖譜技術(shù),將領(lǐng)域知識、常識知識以及操作流程知識等先驗(yàn)信息融入模型,增強(qiáng)模型對任務(wù)的語義理解與邏輯推理能力。采用遷移學(xué)習(xí)方法,通過在源領(lǐng)域與目標(biāo)領(lǐng)域之間建立知識遷移橋梁,使模型能夠利用源領(lǐng)域的知識經(jīng)驗(yàn)快速適應(yīng)新領(lǐng)域的任務(wù)需求。例如,針對辦公類應(yīng)用與生活服務(wù)類應(yīng)用之間的跨領(lǐng)域任務(wù)遷移,提取兩者在操作流程與界面布局上的共性知識,作為遷移學(xué)習(xí)的知識基礎(chǔ),加速模型在新領(lǐng)域的適應(yīng)過程。
實(shí)際應(yīng)用案例:從理論到實(shí)踐的跨越
案例一:小米 12S 上的嗶哩嗶哩視頻觀看與點(diǎn)贊
在小米 12S 設(shè)備上,用戶希望使用 AgentCPM-GUI 完成在嗶哩嗶哩應(yīng)用中觀看李子柒最新視頻并點(diǎn)贊的任務(wù)。以下是詳細(xì)的執(zhí)行流程與模型思考邏輯:
1. 初始界面分析與操作 :模型首先接收手機(jī)主屏幕截圖,根據(jù)用戶指令 “去嗶哩嗶哩看李子柒最新視頻并點(diǎn)贊” 進(jìn)行語義解析,確定任務(wù)目標(biāo)。在分析主屏幕界面時,它通過視覺感知模塊識別出嗶哩嗶哩應(yīng)用圖標(biāo)的位置,生成點(diǎn)擊操作 {"POINT":[396,470]}
,打開應(yīng)用。
2. 搜索操作執(zhí)行 :進(jìn)入嗶哩嗶哩應(yīng)用后,界面顯示為推薦視頻列表。模型根據(jù)任務(wù)目標(biāo)判斷需要進(jìn)行搜索操作,定位到搜索欄位置并點(diǎn)擊 {"POINT":[390,62]}
。隨后,生成文本輸入操作 {"TYPE":"李子柒"}
,在搜索框中輸入關(guān)鍵詞。
3. 搜索結(jié)果處理與視頻播放 :點(diǎn)擊搜索按鈕 {"POINT":[920,64]}
后,模型進(jìn)入搜索結(jié)果頁面。在結(jié)果列表中,它通過分析視頻標(biāo)題與封面圖片等視覺與文本信息,定位到李子柒的個人主頁入口或最新視頻縮略圖位置 {"POINT":[192,267]}
,點(diǎn)擊進(jìn)入視頻播放界面。
4. 點(diǎn)贊操作完成 :視頻開始播放后,模型持續(xù)監(jiān)測界面狀態(tài),等待視頻加載完成并出現(xiàn)點(diǎn)贊按鈕。一旦檢測到點(diǎn)贊按鈕位置,立即生成點(diǎn)擊操作 {"POINT":[141,490]}
完成點(diǎn)贊任務(wù)。最后,輸出 {"STATUS":"finish"}
表明任務(wù)執(zhí)行完畢。
在 B 站上的 Demo 用例
上圖直觀地演示了 AgentCPM-GUI 在小米 12S 設(shè)備上完成嗶哩嗶哩視頻觀看與點(diǎn)贊任務(wù)的操作流程,讓我們能更清晰地看到模型在實(shí)際應(yīng)用中的表現(xiàn)。
在整個過程中,AgentCPM-GUI 準(zhǔn)確理解用戶指令,靈活應(yīng)對不同界面布局與操作需求,精準(zhǔn)執(zhí)行每一步操作,充分展現(xiàn)出其在實(shí)際應(yīng)用中的高效性與可靠性。
案例二:網(wǎng)易云音樂歌曲搜索與播放
另一個典型案例是用戶要求在網(wǎng)易云音樂應(yīng)用中搜索并播放歌曲《大城小事》。AgentCPM-GUI 的操作流程如下:
1. 搜索框定位與點(diǎn)擊 :模型接收當(dāng)前屏幕截圖后,識別出網(wǎng)易云音樂應(yīng)用的搜索欄位置,生成點(diǎn)擊操作 {"POINT":[356,63]}
,激活輸入焦點(diǎn)。
2. 歌曲關(guān)鍵詞輸入 :執(zhí)行文本輸入動作 {"TYPE":"大城小事"}
,將歌曲名稱輸入到搜索框中。
3. 觸發(fā)搜索操作 :點(diǎn)擊搜索按鈕 {"POINT":[916,59]}
,提交搜索請求。
4. 搜索結(jié)果篩選與播放 :在搜索結(jié)果列表中,模型通過分析歌曲名稱、歌手信息以及專輯封面等多維度信息,定位到目標(biāo)歌曲《大城小事》的位置 {"POINT":[550,370]}
并點(diǎn)擊播放。
5. 任務(wù)完成判定 :確認(rèn)歌曲進(jìn)入播放界面后,輸出 {"STATUS":"finish"}
,結(jié)束任務(wù)執(zhí)行流程。
在網(wǎng)易云音樂上的 Demo 用例
上圖展示了 AgentCPM-GUI 在網(wǎng)易云音樂應(yīng)用中搜索并播放歌曲《大城小事》的任務(wù)執(zhí)行過程,體現(xiàn)了其在音樂類應(yīng)用任務(wù)處理中的高效性和準(zhǔn)確性。
該案例再次證明了 AgentCPM-GUI 在處理中文音樂類應(yīng)用任務(wù)時的強(qiáng)大能力,無論是對搜索流程的精準(zhǔn)把控,還是對播放界面元素的正確識別與操作,均體現(xiàn)出其卓越的 GUI 操作性能,有效提升用戶在移動音樂場景下的 productivity 與 accessibility。
開源生態(tài):共享與協(xié)作的力量
項(xiàng)目開源
AgentCPM-GUI 的研發(fā)團(tuán)隊(duì)秉持開放共享的理念,將項(xiàng)目的全部核心資源開源至 GitHub 平臺。開源內(nèi)容涵蓋模型訓(xùn)練與評估代碼、CAGUI 基準(zhǔn)測試數(shù)據(jù)以及模型檢查點(diǎn)文件,為全球開發(fā)者與研究人員提供了一個透明、可訪問且可復(fù)現(xiàn)的研究基礎(chǔ)。代碼遵循 Apache-2.0 協(xié)議,保障了使用者在遵循協(xié)議條款的前提下,能夠自由地對代碼進(jìn)行修改、分發(fā)與商業(yè)應(yīng)用,極大地促進(jìn)了技術(shù)的傳播與創(chuàng)新。
快速上手實(shí)踐指南
為了幫助開發(fā)者與研究人員快速掌握 AgentCPM-GUI 的使用方法,團(tuán)隊(duì)提供了詳盡的環(huán)境配置與模型部署指南。從依賴環(huán)境安裝、模型文件下載,到推理代碼示例,每一步均配有清晰的說明與示例代碼。例如,在推理部分,展示了如何加載模型與 tokenizer,如何構(gòu)建輸入消息格式,以及如何解析模型輸出結(jié)果,使用戶能夠迅速搭建起開發(fā)環(huán)境并開始應(yīng)用探索。
以下是 Qwen2.5-VL-7B 數(shù)據(jù)示例:System Message:
You are a helpful assistant.
# Tools
You may call one or more functions to assist with the user query.
You are provided with function signatures within <tools></tools> XML tags:
<tools>
{"type": "function", "function": {"name_for_human": "mobile\_use", "name": "mobile\_use", "
description": "Use a touchscreen to interact with a mobile device, and take screenshots.
* This is an interface to a mobile device with touchscreen. You can perform actions like clicking,
typing, swiping, etc.
* Some applications may take time to start or process actions, so you may need to wait and take
successive screenshots to see the results of your actions.
* The screen's resolution is 1092x2408.
* Make sure to click any buttons, links, icons, etc with the cursor tip in the center of the element.
Don't click boxes on their edges unless asked.", "parameters": {"properties": {"action": {"
description": "The action to perform. The available actions are:
* `key`: Perform a key event on the mobile device.
? This supports adb's `keyevent` syntax.
? Examples: \"volume\_up\", \"volume\_down\", \"power\", \"camera\", \"clear\".
* `click`: Click the point on the screen with coordinate (x, y).
* `long\_press`: Press the point on the screen with coordinate (x, y) for specified seconds.
* `swipe`: Swipe from the starting point with coordinate (x, y) to the end point with coordinates2 (
x2, y2).
* `type`: Input the specified text into the activated input box.
* `system\_button`: Press the system button.
* `open`: Open an app on the device.
* `wait`: Wait specified seconds for the change to happen.
* `terminate`: Terminate the current task and report its completion status.", "enum": ["key", "click",
"long\_press", "swipe", "type", "system\_button", "open", "wait", "terminate"], "type": "string
"}, "coordinate": {"description": "(x, y): The x (pixels from the left edge) and y (pixels from
the top edge) coordinates to move the mouse to. Required only by `actinotallow=click`, `actinotallow=
long\_press`, and `actinotallow=swipe`.", "type": "array"}, "coordinate2": {"description": "(x, y):
The x (pixels from the left edge) and y (pixels from the top edge) coordinates to move the
mouse to. Required only by `actinotallow=swipe`.", "type": "array"}, "text": {"description": "
Required only by `actinotallow=key`, `actinotallow=type`, and `actinotallow=open`.", "type": "string"}, "time":
{"description": "The seconds to wait. Required only by `actinotallow=long\_press` and `actinotallow=wait`.", "type": "number"}, "button": {"description": "Back means returning to the previous
interface, Home means returning to the desktop, Menu means opening the application
background menu, and Enter means pressing the enter. Required only by `actinotallow=system\
_button`", "enum": ["Back", "Home", "Menu", "Enter"], "type": "string"}, "status": {"
description": "The status of the task. Required only by `actinotallow=terminate`.", "type": "string", "
enum": ["success", "failure"]}}, "required": ["action"], "type": "object"}, "args\_format": "
Format the arguments as a JSON object."}}
</tools>
For each function call, return a json object with function name and arguments within <tool\_call></
tool\_call> XML tags:
<tool_call>
{"name": <function?name>, "arguments": <args?json?object>}
</tool_call>
User:
The user query: [user_request]
Current step query: low_lew_instruction (included only when low_lew_instruction is defined)
Task progress (You have done the following operation on the current device): [history_actions]
[current_screenshot]
Assistant:
[thought_and_action]
從Qwen2.5-VL-7B到AgentCPM-GUI的動作空間映射
上面提供了 Qwen2.5-VL-7B 模型的數(shù)據(jù)示例及動作空間映射到AgentCPM-GUI 的具體信息,為實(shí)踐者在不同模型間動作空間轉(zhuǎn)換時提供了參考。
Qwen2.5-VL-7B的推理超參數(shù)
上表列出了 Qwen2.5-VL-7B 的推理超參數(shù)設(shè)置,這些信息對實(shí)踐者在進(jìn)行模型推理時的參數(shù)配置具有指導(dǎo)意義。
此外,團(tuán)隊(duì)還提供了 Hugging Face 推理與 vLLM 推理兩種模式的代碼示例,滿足不同用戶在不同場景下的需求。對于希望進(jìn)一步定制與擴(kuò)展模型功能的用戶,開源代碼中包含了模型微調(diào)的訓(xùn)練腳本與配置文件,詳細(xì)說明了訓(xùn)練參數(shù)的調(diào)整方法與訓(xùn)練流程的控制方式,為深度開發(fā)提供了有力支持。(具體請見本文的參考資料開源部分)
AgentCPM-GUI:推動 GUI 智能體發(fā)展的重要一步
AgentCPM-GUI 創(chuàng)新性的漸進(jìn)式訓(xùn)練方法、高質(zhì)量數(shù)據(jù)集構(gòu)建、緊湊動作空間設(shè)計(jì)以及強(qiáng)化微調(diào)策略,在多個基準(zhǔn)測試中取得了卓越的性能表現(xiàn),有力推動了多語言 GUI 智能體的發(fā)展進(jìn)程。AgentCPM-GUI 的主要研究貢獻(xiàn)可概括為以下幾個方面:
1. 高質(zhì)量中英文 Android 數(shù)據(jù)集的構(gòu)建 :研發(fā)團(tuán)隊(duì)克服了數(shù)據(jù)收集與標(biāo)注過程中的諸多困難,打造出包含 55K 軌跡、470K 步驟的大規(guī)模雙語 Android 數(shù)據(jù)集。這一數(shù)據(jù)集涵蓋了豐富的應(yīng)用類型與操作場景,并且通過嚴(yán)格的質(zhì)量控制流程確保數(shù)據(jù)的真實(shí)性和多樣性,為 GUI 智能體的訓(xùn)練提供了寶貴的新資源,填補(bǔ)了現(xiàn)有數(shù)據(jù)集在中文 GUI 領(lǐng)域的空白。
2. 漸進(jìn)式訓(xùn)練方法的提出 :創(chuàng)新性地設(shè)計(jì)了涵蓋視覺感知預(yù)訓(xùn)練、監(jiān)督微調(diào)以及強(qiáng)化微調(diào)三個階段的漸進(jìn)式訓(xùn)練流程。這一方法論體系使模型能夠逐步學(xué)習(xí)從基礎(chǔ)的視覺感知技能到復(fù)雜的推理規(guī)劃能力,有效解決了純模仿學(xué)習(xí)模型泛化能力差、推理能力弱的問題。通過各階段訓(xùn)練目標(biāo)的合理設(shè)置與訓(xùn)練數(shù)據(jù)的精心組織,模型在不同層次的任務(wù)執(zhí)行能力上均得到顯著提升,為 GUI 智能體的訓(xùn)練提供了一種高效且可擴(kuò)展的范式。
3. 緊湊動作空間的設(shè)計(jì)與優(yōu)化 :針對移動設(shè)備資源受限的特點(diǎn),設(shè)計(jì)了一套精簡高效的動空間表示方案。通過采用緊湊的 JSON 格式與合理的動作抽象層次,大幅減少了動作輸出的長度與計(jì)算開銷,提高了模型在邊緣設(shè)備上的運(yùn)行效率與響應(yīng)速度。這一設(shè)計(jì)提升了模型的實(shí)際應(yīng)用價(jià)值,也為后續(xù)動作空間的拓展與優(yōu)化提供了良好的基礎(chǔ)架構(gòu)。
4. 多基準(zhǔn)測試性能突破 :在 AndroidControl、GUI-Odyssey、AITZ 以及 CAGUI 等多個權(quán)威基準(zhǔn)測試中,AgentCPM-GUI 取得了領(lǐng)先的成績,特別是在中文 GUI 設(shè)置中表現(xiàn)出色,充分證明了其方法論與技術(shù)架構(gòu)在多語言環(huán)境下的有效性與優(yōu)越性。這些實(shí)驗(yàn)結(jié)果為 GUI 智能體技術(shù)的實(shí)用化與產(chǎn)品化提供了有力的性能背書,加速了相關(guān)技術(shù)從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用的進(jìn)程。
5. 開源推動研究生態(tài)發(fā)展 :作為首款開源的支持中英文應(yīng)用的 GUI 智能體,AgentCPM-GUI 為全球研究人員與開發(fā)者提供了一個開放、共享的研究平臺。通過開源模型訓(xùn)練評估代碼、基準(zhǔn)測試數(shù)據(jù)以及模型檢查點(diǎn),團(tuán)隊(duì)降低了 GUI 智能體研究的入門門檻,促進(jìn)了知識共享與技術(shù)交流,激發(fā)了社區(qū)的創(chuàng)新活力,推動了多語言 GUI 智能體研究向更深層次發(fā)展。
我通讀了 AgentCPM-GUI 的研究成果以后,給我的感受就是,AgentCPM-GUI 對 Agent 在 RFT 上的流程太有示范作用了,給了我非常好的學(xué)習(xí)案例。在當(dāng)下移動設(shè)備已成為我們生活與工作的延伸,AgentCPM-GUI 讓我們看到了 AI 如何從Paper走向?qū)嵺`,如何從實(shí)驗(yàn)室的創(chuàng)新轉(zhuǎn)化為提升應(yīng)用 productivity 與 accessibility 的實(shí)際工具。它在多語言支持上的突破,打破了語言的隔閡,為全球不同地區(qū)的用戶帶來了同等便捷的智能交互體驗(yàn)。
從技術(shù)層面來看,AgentCPM-GUI 的漸進(jìn)式訓(xùn)練方法論給我留下了深刻的印象。這從感知到行動、再到推理的分階段學(xué)習(xí)策略,平衡了模型在不同能力維度上的發(fā)展需要。這種設(shè)計(jì)理念適用于 GUI 智能體,同時也可以為其他AI應(yīng)用的開發(fā)提供非常寶貴借鑒,要感謝開源呀。
另外,AgentCPM-GUI 緊湊動作空間的設(shè)計(jì),在移動設(shè)備資源受限的現(xiàn)實(shí)條件下,通過優(yōu)化動作表示方式來提升運(yùn)行效率,這種兼顧性能與實(shí)用性的思維,正是推動技術(shù) GUI Agent 在端側(cè)落地的關(guān)鍵。它提醒我們在追求技術(shù)卓越的同時,要對用戶需求與使用環(huán)境做深刻洞察。在移動設(shè)備上,資源有限是一個不可忽視的現(xiàn)實(shí)問題。因此,如何在保證功能完整性的前提下,盡可能地減少計(jì)算開銷和資源占用,也是我們在設(shè)計(jì) GUI Agent 時需要重點(diǎn)考慮的。
還有 AgentCPM-GUI 的局限性,比如,泛化能力的瓶頸這種踩坑經(jīng)驗(yàn)的分享非常寶貴。AgentCPM-GUI 真是值得深度研究的開源案例。