成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

端到端GUI智能體首次實現“犯錯-反思-修正”閉環,模擬人類認知全過程

人工智能 新聞
隨著多模態大模型的發展,端到端GUI智能體在手機、電腦等設備上的自動化任務中展示出巨大潛力。它們能夠看懂設備屏幕,模擬人類去點擊按鈕、輸入文本,從而完成復雜的任務。

端到端多模態GUI智能體有了“自我反思”能力!南洋理工大學MMLab團隊提出框架GUI-Reflection。

圖片

隨著多模態大模型的發展,端到端GUI智能體在手機、電腦等設備上的自動化任務中展示出巨大潛力。它們能夠看懂設備屏幕,模擬人類去點擊按鈕、輸入文本,從而完成復雜的任務。

然而,當前端到端GUI多智能體的訓練范式仍存在明顯的瓶頸:當前模型往往使用幾乎完美的離線演示軌跡進行訓練,使得模型缺乏反思和改正自身錯誤的能力,并進一步限制了通過在線強化學習激發和提升能力的可能。

GUI-Reflection的核心思想是在智能體的各個訓練階段引入 “反思與糾錯”機制,這一機制貫穿預訓練、監督微調和在線訓練全過程,模擬了人類“犯錯→反思→重試”的認知過程。

  1. GUI預訓練階段:提出GUI-Reflection Task Suite任務套件, 將反思糾錯能力進一步分解,讓模型在預訓練階段框架讓模型初步接觸反思類任務,為后續打下基礎。
  2. 離線監督微調階段:構建自動化數據管道,從已有離線無錯軌跡中構建帶有反思和糾錯的行為數據,讓模型成功習得反思糾錯行為。
  3. 在線訓練階段:搭建分布式移動端GUI學習環境,并設計迭代式反思反饋調優算法,讓模型在與真實環境交互中進一步提升相關能力。

圖片

GUI-Reflection框架簡介

GUI-Reflection 是一個貫穿訓練全過程的框架,旨在系統性地賦予多模態GUI智能體以“自我反思與糾錯”的能力。該框架由三大關鍵階段組成,分別對應模型能力的認知啟發、行為習得與交互強化:

圖片

1 GUI預訓練階段:啟發反思相關能力

圖片

現有GUI預訓練多聚焦于界面理解和操作感知,而忽視了反思相關的原生能力構建。GUI-Reflection 首次提出專為反思設計的GUI-Reflection Task Suite,包含三類關鍵任務:

  • Action Verification(動作驗證):判斷某一步操作是否達成了預期目標,訓練模型識別執行偏差。
  • Action Reversal(動作回滾):學習如何撤銷錯誤操作,回退到正確的任務路徑。
  • Mistake-Informed Reattempt(基于錯誤的再嘗試):在明確過去錯誤的前提下,生成新的、改進的操作策略。

這些任務將復雜的反思行為分解為更細粒度的認知能力,使模型在預訓練階段即具備初步的“反思意識”。

2 離線監督微調階段:自動化構建糾錯軌跡

針對當前GUI數據集缺少犯錯和糾錯數據的問題,GUI-Reflection設計了一個自動化反思糾錯數據生成管道。該方法從已有成功軌跡中自動構造出“帶錯軌跡”與“糾錯行為”,實現數據維度上的“反思注入”。具體包括:

  • 目標擾動生成錯誤行為:通過修改原始任務目標,使模型原本的動作在新目標下變成“錯誤”動作,并構建對應的反思錯誤行為數據。
  • 行為插入模擬失誤:向成功軌跡中插入無效操作,讓模型對無效錯誤操作做出反思并嘗試新的正確操作。

整個數據增強過程無需人工標注,使得GUI模型在離線微調階段習得了有效的反思行為。

3. 在線訓練階段:搭建反饋式反思回路

圖片

為了進一步提升模型在真實環境中的適應能力,GUI-Reflection構建了一個分布式安卓模擬環境,涵蓋11個app和 215 個任務模板,支持高并發交互。基于此環境,GUI-Reflection設計了一種自動化迭代式在線反思調優算法:

  • 成功軌跡將被細粒度驗證,僅保留每一步的有效執行;
  • 失敗軌跡則被自動定位錯誤步驟,并為該步驟自動生成前向修正(Pre-Error Correction)與后向反思(Post-Error Reflection)操作。

通過多輪訓練迭代與動態采樣策略,模型逐步優化其容錯率、恢復能力與復雜規劃水平。

實驗結果

GUI-Reflection Task Suite測評結果

通過在構建的GUI-Reflection Task Suite上進行評測發現:

  • 通用大模型(如 GPT-4o、Gemini)在GUI任務中具備不錯的原生反思能力,能夠初步識別錯誤并進行合理推理;
  • 小規模開源模型在這方面能力明顯不足,尤其在面對失敗操作時難以自我修復;
  • 更關鍵的是,現有的標準GUI預訓練流程,反而會削弱模型原本具備的反思能力

當在預訓練階段引入反思導向任務數據,即使是較小規模的模型,也能顯著提升其在反思相關任務中的表現,甚至達到接近閉源大模型的水平。

圖片

反思行為的有效性

在評測環境中進行實驗后觀察到:

  • 在離線監督微調階段引入反思類數據,可以顯著提升模型的任務完成表現;
  • 進一步結合在線反思調優算法進行訓練,模型的成功率持續提升,表現出更強的泛化能力與穩定性。

圖片

GUI-Relection-8B模型在AndroidWorld基準中也實現了 34.5% 的成功率,證明了GUI-Reflection框架的有效性。這一系列結果充分表明:在多個訓練階段顯式引入反思機制,是提升GUI智能體能力的關鍵路徑,而不僅僅依賴大規模演示數據或強模型本身。

圖片

反思行為樣例

模型能夠成功認識到之前操作的錯誤并采取對應操作進行回退。

圖片

對于不熟悉或不確定的操作,模型可以根據之前的錯誤做出新的嘗試。

圖片

結語

GUI-Reflection為端到端多模態 GUI 智能體注入了全新的“自我反思”能力。從預訓練、離線微調到在線交互,它系統性地打通了“犯錯—反思—修正”的認知閉環,使模型在面對真實環境中的不確定性時,能夠更加魯棒、靈活地應對各種突發狀況。

論文鏈接:https://arxiv.org/abs/2506.08012
項目主頁:https://penghao-wu.github.io/GUI_Reflection
數據和模型HF鏈接:https://huggingface.co/collections/craigwu/gui-reflection-683c7fb964b44c0cca842290

代碼倉庫鏈接:https://github.com/penghao-wu/GUI_Reflection

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-12-12 08:42:25

2011-02-22 10:46:02

Samba配置

2024-04-29 09:36:14

仿真器傳感器

2025-06-04 02:35:00

2023-12-18 10:15:30

自動駕駛自然語言

2025-01-24 13:44:49

2009-12-08 17:56:16

WCF配置

2011-04-18 15:56:10

軟件測試

2009-04-13 12:37:18

2011-09-06 15:38:20

QT安裝

2011-01-21 17:51:52

2025-06-20 09:00:00

智能體訓練模型

2024-05-23 13:26:27

2021-05-26 10:04:09

人工智能AI深度學習

2024-01-03 10:12:07

Kubernetesdeploymentpod

2010-03-01 17:01:03

Python編程技巧

2010-03-10 13:24:45

Zend Debugg

2010-11-19 10:11:49

Oracle物化視圖

2012-11-06 10:19:18

Java自定義加載Java類

2010-06-17 13:10:09

Linux Grub修
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久综合久 | 久久精品国产免费看久久精品 | 久久综合av | 99久久久久久 | 男女视频在线观看免费 | 91九色视频 | 欧美一区日韩一区 | 91麻豆精品一区二区三区 | 黄色av观看 | 久久久久久99 | 欧美在线免费 | 亚洲精品久久嫩草网站秘色 | 国产欧美三区 | 丝袜一区二区三区 | 亚洲成人精品 | 亚洲丝袜天堂 | 色爱综合网 | 中文字幕久久精品 | 国产精彩视频 | 超碰97人人人人人蜜桃 | 国产综合精品一区二区三区 | 国产精品大片在线观看 | 九九伊人sl水蜜桃色推荐 | 玖玖在线免费视频 | 夜夜摸夜夜操 | 欧美日韩综合精品 | 亚洲一区中文字幕在线观看 | 精品日本久久久久久久久久 | 97久久久| 午夜成人在线视频 | 日本久久网站 | 国产精品欧美一区二区 | 亚洲精品久久嫩草网站秘色 | 可以免费观看的av片 | 狠狠的日 | 亚洲逼院 | 国产精品免费在线 | 国产精品免费一区二区三区四区 | 日韩精品免费在线观看 | 亚洲人人| 国产日韩一区 |