美團提出首個語音交互GUI智能體,端到端語音訓練能力優于傳統文本訓練
只需要動動嘴就可以驅動GUI代理?
由美團和浙江大學聯合推出的GUIRoboTron-Speech——讓用戶解放雙手,直接對計算機“發號施令”。
這是首個能夠直接利用語音指令和設備屏幕截圖進行端到端(End-to-End)決策的自主GUI智能體,旨在為用戶提供更直接、高效且無障礙的交互體驗。
從文本到語音,智能代理的下一次進化
當前,以大型語言模型(LLMs)為核心的自主GUI智能體,已能通過文本指令自動執行跨應用、多步驟的復雜任務,極大地提升了用戶的工作效率。但這種對文本的依賴,限制了其在更廣泛場景下的應用。
試想一個常見的家庭場景:在對家中的公用電腦發出指令“打開我的瀏覽器”時,一個僅能理解文本的智能體將不知所措——它無法分辨指令發出者是家庭中的哪一位成員,自然不知道什么是“我的”瀏覽器。
然而,一個能夠直接處理語音的智能體,則可以通過分析獨特的聲紋特征,準確識別指令發出者的身份,并打開該成員的個性化Google瀏覽器界面。
這正是語音模態所蘊含的獨特價值——它不僅傳遞了指令內容,更包含了身份、情緒等豐富的非言語線索,而這些對于實現真正個性化和智能化的交互至關重要。
傳統的解決方案,如采用“語音識別(ASR)模型轉錄+文本GUI代理”的級聯方式,不僅會增加系統的計算負擔和延遲,更會在轉錄過程中丟失寶貴的聲學信息。
而GUIRoboTron-Speech通過構建端到端的語音GUI代理,可直接利用語音指令和設備屏幕截圖進行決策。
構建端到端的語音GUI代理
GUIRoboTron-Speech團隊設計了一套嚴謹而創新的研發路徑,其核心方法可概括為以下幾個關鍵步驟:
第一步,高質量語音數據集的生成
面對業界缺乏用于訓練GUI智能體的語音指令數據集的挑戰,研究團隊提出并驗證了一種高效的解決方案。他們利用一個先進的隨機音色文本轉語音(TTS)模型,將現有的大規模文本指令數據集,轉換為包含多種說話人風格和音色的高質量語音指令數據集。這一策略不僅成功解決了數據稀缺的難題,也為后續模型的訓練奠定了堅實的基礎。
第二步,漸進式訓練框架:分階段賦能
為了讓模型逐步掌握復雜的能力,GUIRoboTron-Speech的訓練過程被劃分為兩個核心階段:
基礎Gounding階段(Grounding TrainingStage):在此階段,模型的核心任務是學習建立語音指令與GUI界面視覺元素之間的精確對應關系。即當聽到“點擊‘確定’按鈕”時,模型需要準確理解指令的意圖,并在截圖中定位到“確定”按鈕的視覺特征與坐標。
規劃Planning階段(Planning Training Stage):在掌握了基礎的“聽說看”能力后,模型進入規劃與推理訓練。在這一階段,它將學習如何理解并執行多步驟的復雜任務,例如“先登錄賬號,然后找到最新的郵件并打開附件”,展現出作為智能代理的邏輯推理與任務規劃能力。
第三步,啟發式混合指令訓練策略
由于預訓練的基座模型(Foundation Models)大多在以文本為核心的數據上進行訓練,存在著嚴重的模態不平衡(Modality Imbalance)問題,即模型可能在訓練中傾向于依賴其更為熟悉的文本信息,而忽略新引入的語音模態。
為解決此問題,研究團隊獨創了一種啟發式混合指令訓練策略(Heuristic Mixed-instruction Training Strategy)。該策略在訓練過程中,巧妙地混合使用語音指令和文本指令。
通過這種方式,強制模型同等地關注并處理來自兩種不同模態的輸入,有效緩解了模態偏見,確保模型能夠穩健地從語音信號中直接提取和理解指令意圖。
性能評估
使用不同模態的指令進行grounding能力訓練,通過性能對比可以看到,直接使用speec-based指令相比text-based指令會低1.6%的平均定位精度,而使用混合指令訓練策略可以緩解預訓練多模態基座的模態不平衡現象,相比text指令甚至取得了更好的性能。
在planning能力訓練上,基于grounding階段混合指令訓練得到的checkpoint,speech-based指令相比text-based指令也取得了更好的性能。
此外,GUIRoboTro-Speech在與同參數量級和訓練數據源的基線對比下,同樣取得了領先的地位。
在AndroidControlLow上使用公共數據時,GUIRoboTron-Speech在所有方法中實現了最高的平均成功率(+1.3%),在AndroidControl-High上,它在所有SOTAs中實現了最高的平均成功率(+7.8%)。在GUI-Odyssey上,它的排名僅次于使用內部數據的UI-TARS。
這些結果表明,GUIRoboTron-Speech作為接受用戶語音指令的GUI代理,具有很高的可行性,能夠通過多輪推理和動作預測實現用戶目標。這表明speech-based指令在GUI Agent這類用戶意圖清晰的場景下的可能性。
最后,GUIRoboTro-Speech團隊還針對指令長度對GUI Agent任務執行成功率的影響做了分析,發現在指令長度較短(用戶意圖清晰)的場景,speech-based指令相比text-based指令能取得更好的表現,然而隨著指令長度上升,text-based指令展現出其承載復雜用戶意圖的特質。
如何更好的承載復雜的用戶指令以取得穩定的任務成功率,將是speech-based GUI Agent未來的方向之一。
論文鏈接:https://arxiv.org/abs/2506.11127
Github倉庫鏈接:https://github.com/GUIRoboTron/GUIRoboTron-Speech