手機「自動駕駛」大揭秘！vivo萬字綜述探討大模型手機自動化

作者：機器之心 2025-01-07 13:22:58

人工智能新聞

隨著模型架構改進、設備端推理優化和多模態數據集成，基于大模型的手機 GUI 智能體有望在復雜任務中實現更高自主性，融合更多 AI 范式，為用戶提供無縫、個性化和安全的體驗。

1. 導言

你是否想過，手機能像電影鋼鐵俠中的智能管家賈維斯那般，一句話就能順暢自如地完成各種復雜任務。

最近國內外的手機廠商和 AI 公司紛紛發布了手機 AI 智能體相關產品，讓曾經的幻想逐漸有了可行性。

vivo 作為行業領跑者，在十月的開發者大會上推出了其手機智能體產品 “PhoneGPT"，能幫用戶實現一句話點咖啡、訂外賣、甚至能夠一句話找到最近的私房菜館并通過 AI 實現電話預定包廂，被網友們稱作 “i 人救星”。

圖 1 vivo PhoneGPT訂座（藍心小V對話或小V主界面下滑探索-智能體廣場體驗）

與此同時，各大廠家似乎提前約好一樣，都瞄準了一句話訂咖啡的場景，頗有當年喬布斯使用初代 iPhone 訂星巴克的即視感。更有坊間戲稱，今年秋天第一杯咖啡是手機智能體幫你點的。

圖 2 vivo PhoneGPT訂咖啡（藍心小V對話或小V主界面下滑探索-智能體廣場體驗）

盡管行業發展迅速，最近關于手機 AI 智能體的論文井噴，相關技術路線迭代發展迅速，但這一領域仍缺少系統性的綜述。此次 vivo AI Lab 聯合香港中文大學 MMLab 等團隊發布了 “大模型驅動的手機 AI 智能體” 綜述論文，該論文長達 48 頁，覆蓋 200 余篇文獻，對基于大模型的手機自動操作智能體相關技術展開了全面且深入的研究，希望給學界和產業界作為參考，共同推進行業發展。

論文標題：LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
論文地址：https://www.preprints.org/manuscript/202501.0413/v1

1.1 研究背景

手機 GUI 自動化旨在通過編程模擬人類與手機界面的交互，以完成復雜任務，傳統方法包括自動化測試、快捷指令和機器人流程自動化（RPA），但存在通用性、靈活性、維護成本、意圖理解和屏幕感知等方面的挑戰。
大語言模型（LLM）的出現為手機自動化帶來了新的范式，基于 LLM 的手機 GUI 智能體能夠理解自然語言指令，感知界面并執行任務，有望實現更智能、自適應的自動化操作。

1.2 研究目的

系統總結 LLM 驅動的手機 GUI 智能體的研究成果，包括框架、模型、數據集和評估方法。
分析 LLM 在手機自動化中的應用現狀，探討其優勢和面臨的挑戰。
指出未來研究的方向，為相關領域的研究人員和從業者提供參考。

1.3 主要貢獻

圖 3 大模型驅動的手機 GUI 智能體文獻分類

對 LLM 驅動的手機 GUI 智能體進行全面系統的綜述，涵蓋發展軌跡、核心技術和應用場景。
提出多視角的方法論框架，包括框架設計、模型選擇與訓練、數據集與評估指標。
深入分析 LLM 賦能手機自動化的原因，探討其在自然語言理解、推理和決策等方面的優勢。
介紹和評估最新進展、數據集和基準，為研究提供資源支持。
識別關鍵挑戰并提出未來研究的新視角，如數據集多樣性、設備端部署效率和安全問題。

2. 手機自動化的發展歷程

2.1 LLM 時代之前的手機自動化

自動化測試：為解決手機應用復雜度增加帶來的測試難題，經歷了從隨機測試到基于模型的測試、基于學習的測試，再到強化學習測試的發展，但仍面臨測試覆蓋范圍、效率、成本和模型泛化能力等挑戰。
快捷指令：如 Tasker 和 iOS Shortcuts，通過預定義規則或觸發條件實現任務自動化，但范圍和靈活性有限。
機器人流程自動化（RPA）：在手機上模擬人類執行重復性任務，但在處理動態界面和腳本更新方面存在困難。

2.2 傳統方法的挑戰

通用性有限：傳統方法針對特定應用和界面，難以適應不同應用和動態環境，缺乏靈活性和上下文適應能力。
維護成本高：編寫和維護自動化腳本需要專業知識，且隨著應用更新，腳本需頻繁修改，耗時費力，入門門檻高限制了用戶使用。
意圖理解能力差：基于規則和腳本的系統只能執行預定義任務，難以理解復雜自然語言指令，無法滿足用戶多樣化需求。
屏幕 GUI 感知能力弱：傳統方法難以準確識別和交互不同應用中的各種 GUI 元素，對動態內容和復雜界面的處理能力有限。

2.3 LLM 推動手機自動化

圖 4 大模型驅動的手機 GUI 智能體發展里程碑

發展歷程與里程碑：LLM 在手機自動化中的應用不斷演進，通過自然語言理解、多模態感知和推理決策能力的提升，逐步實現更復雜任務的自動化。
LLM 解決傳統挑戰的方式
上下文語義理解：從大量文本語料庫學習，理解復雜語言結構和領域知識，準確解析多步驟命令。
屏幕 GUI 多模態感知：利用多模態感知能力，統一文本和視覺感知信息，實現對屏幕元素的準確定位和交互。
推理和決策制定：基于語言、視覺上下文和歷史交互進行復雜推理、多步驟規劃和上下文感知適應，提高任務執行成功率。

2.4 新興商業應用

Apple Intelligence：2024 年 6 月推出，集成 AI 能力到 iOS、iPadOS 和 macOS，通過智能總結、優先級通知和上下文感知回復增強通信、生產力和專注功能，保障用戶隱私和安全。
vivo PhoneGPT：2024 年 10 月推出，OriginOS 5 操作系統中的個人 AI 助手，具備自主拆解需求、主動規劃路徑、實時環境識別和動態反饋決策的能力，能幫用戶實現一句話點咖啡、訂外賣、甚至能夠一句話找到最近的私房菜館并通過 AI 實現電話預定包廂等任務。
Honor YOYO Agent：2024 年 10 月發布，適應用戶習慣和復雜指令，通過語音或文本命令自動化多步驟任務，如購物比價、自動填表、定制飲品和會議靜音，提升用戶體驗。
Anthropic Claude Computer Use：2024 年 10 月推出 Claude 3.5 Sonnet 模型的 Computer Use 功能，使 AI 智能體能像人類一樣操作計算機，觀察屏幕、移動光標、點擊按鈕和輸入文本，改變人機交互范式。
Zhipu.AI AutoGLM：2024 年 10 月推出，通過簡單命令模擬人類操作智能手機，如點贊評論、購物、訂票和點餐，能導航界面、解讀視覺線索并執行任務，展示 LLM 驅動的手機自動化在商業應用中的潛力。

3. 手機 GUI 智能體框架

3.1 基本框架

圖 5 大模型驅動的手機 GUI 智能體基礎框架

感知模塊
UI 信息：包括 UI 樹（如 DroidBot - GPT 將其轉換為自然語言句子）、截圖（如 AutoUI 依賴截圖進行 GUI 控制）、Set - of - Marks（用于標注截圖，如 MM - Navigator）和 Icon & OCR 增強（如 Mobile - Agent - v2 集成 OCR 和圖標數據）。
手機狀態：如鍵盤狀態和位置數據，用于上下文感知操作。
大腦模塊
存儲：包括記憶（如記錄歷史屏幕任務相關內容）和知識（來自預訓練知識、領域特定訓練和知識注入）。
決策制定：包括規劃（如 Mobile - Agent - v2 的規劃智能體生成任務進度）、推理（可以利用 Chain - of - thought 增強推理能力）和反思（如 Mobile - Agent - v2 的反思智能體評估決策并調整）。
行動模塊：通過執行觸摸交互、手勢操作、輸入文本、系統操作和媒體控制等類型的動作，實現與手機 UI 和系統功能的交互，確保決策轉化為設備上的實際操作。

3.2 多智能體框架

圖 6 多智能體框架分類

角色協調多智能體框架（Role-Coordinated Multi-Agent Framework）：如 MMAC - Copilot 中多個具有不同功能的智能體協作，包括規劃、決策、記憶管理、反思和工具調用等，通過預定義工作流程共同完成任務。
基于場景的任務執行框架（Scenario-Based Task Execution Framework）：如 MobileExperts 根據特定任務場景動態分配任務給專家智能體，每個智能體可以具有針對特定場景（如購物、編碼、導航）的能力，提高任務成功率和效率。

3.3 計劃 - 然后 - 行動框架（Plan-Then-Act Framework）

如 SeeAct、UGround、LiMAC 和 ClickAgent 等工作展示了該框架的有效性，通過先生成動作描述，再根據動作描述定位到要操作的控件位置，提高了任務執行的清晰度、可靠性和適應性，允許獨立改進規劃和 UI 定位模塊。

4. 用于手機自動化的大語言模型

圖 7 模型分類

4.1 提示工程（Prompt Engineering）

圖 8 提示詞設計

純文本提示詞（Text-Based Prompt）：主要架構為單文本模態 LLM，通過解釋 UI 樹信息進行決策，如 DroidBot - GPT、Enabling Conversational 等，在不同應用中有一定進展，但存在對屏幕的全局信息理解利用不足等問題。
多模態提示詞（Multimodal Prompt）：多模態大語言模型（MLLM）集成視覺和文本信息，通過截圖和補充 UI 信息進行決策，包括基于 SoM 輸出索引方法（如 MM - Navigator、AppAgent）和直接坐標輸出方法（如 VisionTasker、Mobile - Agent 系列），提高了準確性和魯棒性，但在 UI 定位準確性方面仍面臨挑戰。

4.2 基于訓練的方法（Training-Based Methods）

GUI 任務專用模型架構（Task Specific Model Architectures）
通用目的：如 Auto - GUI、CogAgent、ScreenAI、CoCo - Agent 和 MobileFlow 等，旨在增強直接 GUI 交互、高分辨率視覺識別、全面環境感知和條件行動預測能力，以應對不同應用和界面的任務。

圖 9 不同的 UI 理解任務

特定領域：專注于屏幕理解任務，包括 UI 定位（如 LVG、UI - Hawk）、UI 引用（如 Ferret - UI、UI - Hawk）和屏幕問答（如 ScreenAI、WebVLN、UI - Hawk），通過特定技術提升智能體在復雜用戶界面中的交互能力。
監督微調（Supervised Fine-Tuning）
通用目的：通過在特定任務數據集上微調，增強模型在 GUI 定位、OCR、跨應用導航和效率等方面的能力，如 SeeClick、GUICourse、GUI Odyssey 和 TinyClick 等工作。
特定領域：應用于特定任務，如 ReALM 解決參考分辨率問題，IconDesc 用于生成 UI 圖標替代文本，提高了模型在特定領域的性能。
強化學習（Reinforcement Learning）
手機智能體：如 DigiRL、DistRL 和 AutoGLM，通過強化學習訓練智能體適應動態手機環境，提高決策能力和成功率，AutoGLM 還實現了跨平臺應用。
網頁智能體：ETO、Agent Q 和 AutoWebGLM 利用強化學習使智能體適應復雜網頁環境，通過學習交互和改進決策，提高在網頁導航和操作任務中的性能。
Windows 智能體：ScreenAgent 通過強化學習使智能體在 Windows 環境中與真實計算機屏幕交互，完成多步驟任務，展示了在桌面 GUI 自動化中的潛力。

5. 數據集和基準

5.1 相關數據集

表1 數據集

早期數據集：如 PixelHelp 將自然語言指令映射到 UI 動作，UIBert 通過預訓練提升 UI 理解，Meta - GUI 收集對話與 GUI 操作痕跡，UGIF 解決多語言 UI 指令跟隨問題，MoTIF 引入任務可行性和不確定性。
大規模數據集：Android In The Wild（AITW）和 Android In The Zoo（AITZ）提供大量設備交互數據，GUI Odyssey 用于跨應用導航訓練和評估，AndroidControl 研究數據規模對智能體性能的影響，AMEX 提供詳細注釋增強智能體對 UI 元素的理解。

5.2 基準

表 2 Benchmarks

評估方法（Evaluation Pipelines）：MobileEnv 提供通用訓練和評估平臺，AndroidArena 評估 LLM 智能體在復雜 Android 環境中的性能，LlamaTouch 實現移動 UI 任務的設備端執行和評估，B - MoCA 評估不同配置下的移動設備控制智能體，AndroidWorld 提供動態可參數化任務環境，MobileAgentBench 為移動 LLM 智能體提供高效基準，AUITestAgent 實現自動 GUI 測試，AndroidLab 提供系統框架和基準。
評估指標（Evaluation Metrics）
任務完成指標：如任務完成率、子目標成功率和端到端任務完成率，評估智能體完成任務的有效性。
行動執行質量指標：包括行動準確性、正確步驟、正確軌跡、操作邏輯和推理準確性，衡量智能體行動的精確性和邏輯性。
資源利用和效率指標：如資源消耗、步驟效率和反向冗余比，評估智能體資源利用效率。
任務理解和推理指標：如 Oracle 準確性、點準確性、推理準確性和關鍵信息挖掘能力，考察智能體的理解和推理能力。
格式和合規性指標：驗證智能體輸出是否符合格式約束。
完成意識和反思指標：評估智能體對任務邊界的識別和學習能力。
評估準確性和可靠性指標：確保評估過程的一致性和可靠性。
獎勵和整體性能指標：如任務獎勵和平均獎勵，綜合評估智能體性能。

6. 挑戰與未來方向

6.1 數據集開發與微調可擴展性

現有數據集缺乏多樣性，未來需開發大規模、多模態且涵蓋廣泛應用、用戶行為、語言和設備類型的數據集。
解決微調在域外性能方面的挑戰，探索混合訓練方法、無監督學習、遷移學習和輔助任務，以減少對大規模數據的依賴。

6.2 輕量級和高效的設備端部署

克服移動設備在計算和內存方面的限制，采用模型剪枝、量化和高效 transformer 架構等方法，如 Octopus v2 和 Lightweight Neural App Control 的創新。
利用專門硬件加速器和邊緣計算解決方案，減少對云的依賴，增強隱私保護并提高響應速度。

6.3 用戶中心適應：交互與個性化

提高智能體對用戶意圖的理解能力，減少手動干預，支持語音命令、手勢和持續學習用戶反饋。
實現智能體的個性化適應，通過集成多種學習技術，使其快速適應新任務和用戶特定上下文，無需大量重新訓練。

6.4 模型定位、推理等能力提升

改進語言指令到 UI 元素的精確映射，集成先進視覺模型、大規模注釋和有效融合技術，提升多模態定位能力。
增強智能體在復雜場景中的推理、長程規劃和適應性，開發新架構、內存機制和推理算法，超越當前 LLM 能力。

6.5 標準化評估基準

建立統一的基準，覆蓋多種任務、應用類型和交互模態，提供標準化指標、場景和評估協議，促進公平比較和全面評估。

6.6 確保可靠性和安全性

開發強大的安全協議、錯誤處理技術和隱私保護方法，防范對抗攻擊、數據泄露和意外行為，保護用戶信息和信任。
實施持續監測和驗證過程，實時檢測和緩解風險，確保智能體行為可預測、尊重隱私并在各種條件下保持穩定性能。

7. 總結

綜述了 LLM 驅動的手機自動化技術發展，包括多種框架（單智能體、多智能體、計劃 - 然后 - 行動）、模型方法（提示工程、基于訓練）和數據集 / 基準。
分析了 LLM 在提升手機自動化效率、智能性和適應性方面的作用，以及面臨的挑戰和未來發展方向。
強調了標準化基準和評估指標對推動領域發展的重要性，有助于公平比較不同模型和方法。

展望未來，隨著模型架構改進、設備端推理優化和多模態數據集成，基于大模型的手機 GUI 智能體有望在復雜任務中實現更高自主性，融合更多 AI 范式，為用戶提供無縫、個性化和安全的體驗。

責任編輯：張燕妮來源：機器之心

訓練模型數據

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看