微軟亞洲研究院打造最強視覺元素定位模型

發布于 2025-4-22 07:09

瀏覽

0收藏

為什么需要 GUI 視覺定位技術？

1.1 數字時代的效率革命

圖形用戶界面(Graphical User Interface, GUI)智能體正在重塑人機交互方式。這類智能體通過模仿人類的視覺感知能力，可以直接"看懂"屏幕內容并執行操作指令。微軟亞洲研究院團隊的研究表明，相比依賴 HTML 等 GUI 元數據的傳統方法（存在平臺依賴性和實現差異問題），基于視覺的方法具有更廣泛的適用性。例如，在跨平臺操作場景中，視覺智能體可以統一處理 Windows、Web 和移動端界面，而無需針對每個平臺開發特定解析器。

1.2 現有技術的三大瓶頸

微軟亞洲研究院打造最強視覺元素定位模型-AI.x社區圖片

研究團隊在分析現有 GUI 視覺定位技術時發現了三個關鍵挑戰：

? 元素屏幕比失衡：現有基準測試中的按鈕等元素尺寸通常占據屏幕的 1%-5%，而真實桌面環境（如 1080p/1440p 分辨率）中元素占比往往小于 0.5%。這種差異導致模型在測試環境表現良好，但在實際應用中定位小元素時準確率驟降。例如，在 1440p 分辨率下，"保存"按鈕可能僅占屏幕面積的 0.2%。

? 元素類型不平衡：現有數據集過度集中于文本按鈕（占比超過 60%），而復選框、單選框等長尾元素占比不足 5%。這種不平衡導致模型難以識別功能性圖標，如 Photoshop 工具欄中的"魔棒工具"圖標，盡管這些圖標在專業軟件中至關重要。

? 隱含指令理解困難：用戶常基于元素功能而非可見文本發出指令。例如說"保存文檔"而非"點擊左上角第三個圖標"，現有模型對此類指令的理解準確率不足 40%。這種認知鴻溝嚴重限制了 GUI 智能體的實際應用價值。

1.3 數據標注的成本困局

構建高質量的 GUI 定位數據集面臨雙重挑戰：

? 標注人員需要同時理解界面元素功能（如區分"提交"按鈕和"保存"按鈕）

? 用戶操作意圖（如理解"完成注冊"對應的具體操作）。

這種復合型標注任務使得單個樣本標注成本高達 2-3 美元，而訓練一個實用模型通常需要百萬級樣本量。例如，標注一個電商結賬頁面可能需要識別 10-15 個交互元素，并生成 20 種以上的自然語言指令變體。

二、UI-E2I-Synth 技術解析

2.1 三步合成流水線

微軟亞洲研究院打造最強視覺元素定位模型-AI.x社區圖片

UI-E2I-Synth（User Interface Element-to-Instruction Synthesis，用戶界面元素到指令合成）采用分階段處理策略，將復雜的指令生成任務分解為三個關鍵步驟：

2.1.1. 原始數據收集與解析

系統從網頁、Windows 和 Android 平臺采集截圖-元數據對，通過啟發式解析器提取元素的三個核心屬性：類型（如按鈕/輸入框）、內容（如文本標簽）和邊界框坐標。這種結構化處理為后續步驟提供了可靠的基礎數據，例如從網頁 DOM（Document Object Model）中解析出的搜索框元素會被標記為"Inputfield"類型。

2.1.2. 指代表達生成

利用 GPT-4o 生成兩種元素描述方式：

? 顯式表達：直接描述可見特征（如"藍色搜索按鈕"）

? 隱含表達：通過功能或上下文關系間接描述（如"頁面頂部的返回箭頭"）

2.1.3. 指令合成

將用戶操作分解為動作類型（點擊/輸入）、動作內容（輸入文本）和元素對象三個參數。通過參數化組合生成自然的第一人稱指令，如"在用戶名輸入框填寫'admin'"。相比直接生成，這種方法使指令準確率顯著提高。

3. 效果評估

3.1 新基準測試 UI-I2E-Bench

研究團隊構建的 UI-I2E-Bench 基準測試包含 1,477 條指令，具有三大創新特性。

微軟亞洲研究院打造最強視覺元素定位模型-AI.x社區圖片

? 首先，該基準采用更接近真實場景的元素屏幕比（element-to-screen ratio），平均比現有基準小 37%。測試元素在屏幕中的占比更接近實際使用場景，如上圖所示，現有基準中的元素比例明顯大于常見的 1080p 和 1440p 桌面顯示器標準。這種設計能更準確地評估模型在真實環境中的表現。

? 其次，基準實現了元素類型的平衡分布，非文本元素（如圖標、輸入框等）占比達到 23%。如上圖右側所示，現有基準中文本按鈕占據主導地位，而 UI-I2E-Bench 通過精心設計的數據采樣策略，確保了各類 GUI 元素的均衡覆蓋。例如，對于復選框這類依賴周邊元素定義功能的組件，基準中給予了合理權重。

? 第三項創新是顯式/隱含指令分類標注，其中隱含指令占比達 42%。比如，當用戶說"返回頂部"時，這屬于需要理解功能語義的隱含指令；而"點擊藍色返回按鈕"則是直接描述視覺特征的顯式指令。這種區分有助于評估模型不同層次的認知能力。