微軟亞洲研究院打造最強視覺元素定位模型
為什么需要 GUI 視覺定位技術?
1.1 數字時代的效率革命
圖形用戶界面(Graphical User Interface, GUI)智能體正在重塑人機交互方式。這類智能體通過模仿人類的視覺感知能力,可以直接"看懂"屏幕內容并執行操作指令。微軟亞洲研究院團隊的研究表明,相比依賴 HTML 等 GUI 元數據的傳統方法(存在平臺依賴性和實現差異問題),基于視覺的方法具有更廣泛的適用性。例如,在跨平臺操作場景中,視覺智能體可以統一處理 Windows、Web 和移動端界面,而無需針對每個平臺開發特定解析器。
1.2 現有技術的三大瓶頸
圖片
研究團隊在分析現有 GUI 視覺定位技術時發現了三個關鍵挑戰:
? 元素屏幕比失衡:現有基準測試中的按鈕等元素尺寸通常占據屏幕的 1%-5%,而真實桌面環境(如 1080p/1440p 分辨率)中元素占比往往小于 0.5%。這種差異導致模型在測試環境表現良好,但在實際應用中定位小元素時準確率驟降。例如,在 1440p 分辨率下,"保存"按鈕可能僅占屏幕面積的 0.2%。
? 元素類型不平衡:現有數據集過度集中于文本按鈕(占比超過 60%),而復選框、單選框等長尾元素占比不足 5%。這種不平衡導致模型難以識別功能性圖標,如 Photoshop 工具欄中的"魔棒工具"圖標,盡管這些圖標在專業軟件中至關重要。
? 隱含指令理解困難:用戶常基于元素功能而非可見文本發出指令。例如說"保存文檔"而非"點擊左上角第三個圖標",現有模型對此類指令的理解準確率不足 40%。這種認知鴻溝嚴重限制了 GUI 智能體的實際應用價值。
1.3 數據標注的成本困局
構建高質量的 GUI 定位數據集面臨雙重挑戰:
? 標注人員需要同時理解界面元素功能(如區分"提交"按鈕和"保存"按鈕)
? 用戶操作意圖(如理解"完成注冊"對應的具體操作)。
這種復合型標注任務使得單個樣本標注成本高達 2-3 美元,而訓練一個實用模型通常需要百萬級樣本量。例如,標注一個電商結賬頁面可能需要識別 10-15 個交互元素,并生成 20 種以上的自然語言指令變體。
二、UI-E2I-Synth 技術解析
2.1 三步合成流水線
圖片
UI-E2I-Synth(User Interface Element-to-Instruction Synthesis,用戶界面元素到指令合成)采用分階段處理策略,將復雜的指令生成任務分解為三個關鍵步驟:
2.1.1. 原始數據收集與解析
系統從網頁、Windows 和 Android 平臺采集截圖-元數據對,通過啟發式解析器提取元素的三個核心屬性:類型(如按鈕/輸入框)、內容(如文本標簽)和邊界框坐標。這種結構化處理為后續步驟提供了可靠的基礎數據,例如從網頁 DOM(Document Object Model)中解析出的搜索框元素會被標記為"Inputfield"類型。
2.1.2. 指代表達生成
利用 GPT-4o 生成兩種元素描述方式:
? 顯式表達:直接描述可見特征(如"藍色搜索按鈕")
? 隱含表達:通過功能或上下文關系間接描述(如"頁面頂部的返回箭頭")
2.1.3. 指令合成
將用戶操作分解為動作類型(點擊/輸入)、動作內容(輸入文本)和元素對象三個參數。通過參數化組合生成自然的第一人稱指令,如"在用戶名輸入框填寫'admin'"。相比直接生成,這種方法使指令準確率顯著提高。
3. 效果評估
3.1 新基準測試 UI-I2E-Bench
研究團隊構建的 UI-I2E-Bench 基準測試包含 1,477 條指令,具有三大創新特性。
圖片
? 首先,該基準采用更接近真實場景的元素屏幕比(element-to-screen ratio),平均比現有基準小 37%。測試元素在屏幕中的占比更接近實際使用場景,如上圖所示,現有基準中的元素比例明顯大于常見的 1080p 和 1440p 桌面顯示器標準。這種設計能更準確地評估模型在真實環境中的表現。
? 其次,基準實現了元素類型的平衡分布,非文本元素(如圖標、輸入框等)占比達到 23%。如上圖右側所示,現有基準中文本按鈕占據主導地位,而 UI-I2E-Bench 通過精心設計的數據采樣策略,確保了各類 GUI 元素的均衡覆蓋。例如,對于復選框這類依賴周邊元素定義功能的組件,基準中給予了合理權重。
? 第三項創新是顯式/隱含指令分類標注,其中隱含指令占比達 42%。比如,當用戶說"返回頂部"時,這屬于需要理解功能語義的隱含指令;而"點擊藍色返回按鈕"則是直接描述視覺特征的顯式指令。這種區分有助于評估模型不同層次的認知能力。
3.2 模型性能對比
在跨平臺測試中,使用合成數據訓練的 UI-I2E-VLM-7B 模型展現出顯著優勢。UI-I2E-VLM-7B 在所有基準測試中均表現出色,超越了之前的最先進模型 OS-Atlas-7B,平均性能提高了9.7%。
圖片
模型對隱含指令的理解準確率提升 12.1%,這得益于合成數據中對功能語義的強化訓練。
圖片
模型在資源效率方面表現突出,僅使用 OS-Atlas 72%的訓練數據量就取得更好效果。如上表所示,這種優勢在長尾元素識別上尤為明顯:圖標識別準確率提升 18.3%,輸入框定位精度提升 14.6%。
圖片
如上圖,隨著元素屏幕比減小(即元素更小),模型性能優勢逐漸擴大,在最小比例區間(<0.03)仍保持 65%以上的準確率。
3.3 實際應用驗證
圖片
將模型集成到 OSWorld 實時 GUI 智能體測試環境后,任務成功率比純 GPT-4o 方案提升 23.4%。
這種提升源于兩方面:
? 一是合成數據包含各類專業軟件的界面樣本
? 二是指令生成時模擬了真實用戶的操作邏輯。
例如在"登錄郵箱"任務中,模型會先定位登錄模塊再尋找輸入框,展現出層級理解能力。
3.4 失敗案例分析
研究團隊對典型錯誤進行了系統歸類(如下圖所示):
圖片
上圖展示了UI-I2E-VLM在UI-I2E-Bench上的常見錯誤,包括:
? 由于知識有限而未能識別無文本的圖標。
? 行或列內元素的錯誤定位。
? 空間關系的誤解。
? 層級關系的誤解。
? 錯誤分類元素類型,例如將復選框與相鄰文本混淆。
3.5 測評榜單
作者已經公開發布了測評榜單:https://colmon46.github.io/i2e-bench-leaderboard/
圖片
本文轉載自???大語言模型論文跟蹤???,作者:HuggingAGI
