UI-R1 | 僅136張截圖，vivo開源DeepSeek R1式強化學習，提升GUI智能體動作預測

作者：機器之心 2025-04-09 09:41:43

vivo 與香港中文大學的研究團隊受到 DeepSeek-R1 的啟發，首次將基于規則的強化學習（RL）應用到了 GUI 智能體領域。

基于規則的強化學習（RL/RFT）已成為替代 SFT 的高效方案，僅需少量樣本即可提升模型在特定任務中的表現。

該方法通過預定義獎勵函數規避人工標注成本，如 DeepSeek-R1 在數學求解中的成功應用，以及多模態領域在圖像定位等任務上的性能突破（通常使用 IOU 作為規則 reward）。

vivo 與香港中文大學的研究團隊受到 DeepSeek-R1 的啟發，首次將基于規則的強化學習（RL）應用到了 GUI 智能體領域。

本研究創新性地將規則 RL 范式拓展至基于低級指令的 GUI 動作預測任務。具體實現中，多模態大語言模型為每個輸入生成包含推理標記和最終答案的多條響應軌跡，在訓練和測試時的 prompt 設計如下：

隨后通過我們設計的獎勵函數評估每條響應，并采用 GRPO 等策略優化算法更新模型參數。該獎勵函數包含三個維度：

數據制備方面，僅依據難度、多樣性和質量三原則篩選 130 余個移動端訓練樣本，展現出卓越的數據效率。實驗表明，UI-R1 在桌面端和網頁平臺等跨領域（OOD）數據上均取得顯著性能提升，印證了規則 RL 處理跨領域復雜 GUI 任務的潛力。

我們提出的 UI-R1 模型采用了三個關鍵創新：

1. 獨特的獎勵函數設計

研究團隊設計了專門針對 GUI 任務的獎勵函數：R = R_T + R_C + R_F

2. 精心篩選的高質量數據

與其使用大量普通數據，我們提出采用了「質量優先」的策略，從三個維度精選訓練數據：

最終只使用了 136 個高質量樣本，比傳統方法少了幾百甚至上千倍，就能夠訓練得到比 SFT 方式更優的效果。

3. 群體相對策略優化算法

UI-R1 采用了一種名為 GRPO（Group Relative Policy Optimization）的算法。這種算法不需要額外的評論家模型，而是通過比較同一問題的多個不同回答來學習什么是「好」的回答。

1. 域內效果提升明顯

在 AndroidControl 基準測試上，UI-R1-3B 與基礎模型 Qwen2.5-VL-3B 相比：

2. 域外泛化能力驚人

UI-R1 在從未見過的桌面 PC 端和網頁界面上表現同樣出色：

在 ScreenSpot 測試中，UI-R1-3B 的平均準確率達到 78.6%，超越 CogAgent-18B 等大模型。
在專業高分辨率環境 ScreenSpot-Pro 測試中，UI-R1-3B 達到 17.8% 的平均準確率，提升了與使用 76K 數據訓練的 OS-Atlas-7B（18.9%）性能相當。

我們關于 UI-R1 做了一系列分析，研究發現：在 GRPO 的強化學習微調的方式下，數據質量比數據數量重要：

此外，我們還發現動作預測的難度與思考的長度之間存在關聯：思考長度越長，準確率越低（說明問題越難），但通過 UI-R1 形式的強化學習微調之后，對于難樣本的成功率提升也更加明顯。

這一現象證明了強化微調的價值，通過讓模型自主思考來提升難樣本的準確率，這個特性是之前的監督微調所難以獲得的。

UI-R1 初步探索了大模型強化學習和推理技術在 GUI Agent 領域的應用。下一步，我們將嘗試將 UI-R1 從 RFT 拓展到 SFT + RFT 的組合，實現大規模 UI 數據下統一的思考、決策、規劃的 GUI Agent 大模型。

責任編輯：張燕妮來源：機器之心

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看