具身智能新時代!VLA迎來最強基礎模型Magma:UI導航、機器人操作全能
現有的大語言模型、圖像生成模型等都只是在某幾個模態數據上進行操作,無法像人類一樣與物理世界產生交互。
視覺-語言-行動(VLA,Vision-Language-Action)模型是可以感知視覺刺激、語言輸入以及其他與環境相關數據的自主智能體,能夠在物理和數字環境中生成有意義的「具身行動」(embodied actions)以完成特定任務。
圖片
由于二維數字世界和三維物理世界之間存在差異,現有的VLA模型通常對任務進行簡化,導致多模態理解能力偏弱,在跨任務和跨領域的泛化能力上不夠通用。
微軟、馬里蘭大學、威斯康星大學麥迪遜分校、韓國科學技術院、華盛頓大學的研究人員開發了一個具備多模態理解、行動預測的智能體基礎模型Magma,不僅保留了視覺語言模型的語言理解能力(語言智能),還具備在視覺空間世界中進行規劃和行動的能力(時空智能),能夠完成從用戶界面(UI)導航到機器人操作等各種智能體任務。
圖片
論文鏈接:https://arxiv.org/pdf/2502.13130
代碼鏈接:https://microsoft.github.io/Magma
為了賦予Magma智能體能力,研究人員使用海量圖像、視頻和機器人數據集對其進行預訓練:
在圖像中,可操作的視覺對象(如用戶界面中的點擊按鈕)通過「標記集合」(SoM,Set-of-Mark)進行標注,以便實現行動定位;
在視頻中,物體的運動(如人類手部或機器人臂的動作軌跡)則通過「標記軌跡」(ToM,Trace-of-Mark)進行標注,以支持行動規劃。
圖片
實驗結果表明,SoM和ToM之間形成了良好的協同效應,Magma在UI導航和機器人操作任務上實現了最佳性能記錄,同時在圖像和視頻相關多模態任務中的表現也優于其他常用的多模態模型。
多模態智能體建模
問題定義
通用的多模態AI智能體π能夠同時執行多模態理解和行動執行,以過去的視覺觀察圖像L={I1, ..., Ik}和文本形式的任務描述作為輸入,并輸出一組至少包含T≥1個token的集合O:
圖片
其中,ctx為上下文,l ∈ {verbal,spatial}表示第i個token是語言token還是空間token
二維截圖中的UI導航任務:對于「預訂酒店」任務,智能體的輸出應該包括表示動作語義類型的語言token(如type、click等)以及動作應用的具體位置(x, y)或矩形框(x, y, w, h);
三維世界中的機器人操作任務:對于「關閉抽屜」任務,智能體的輸出包括終端執行器的六自由度(6-DoF)位移(x, y, z, 偏航角、俯仰角、翻滾角),還可以添加一個維度來表示夾爪是打開還是關閉狀態;
多模態理解任務:如果任務僅與輸入圖像L有關,例如視覺問答(VQA)任務,問題就簡化為對生成「輸入圖像/視頻的文本描述」或「目標位置」。
盡管任務的輸出形式看似不同,但研究人員通常會將所有輸出統一轉換為文本token,以便于模型的學習。
方法
研究人員提出了一種簡單、有效的方法,結合「標記集合」(Set-of-Mark, SoM)和「標記軌跡」(Trace-of-Mark, ToM)將模型擴展到空間預測任務(可點擊按鈕)和時間維度,解決了兩個通用性難題:
1)如何構建一個統一的預訓練接口,以便實現聯合訓練?
2)現有的視覺語言動作數據在數量和多樣性上都較為有限,沒有足夠的數據用于擴大模型規模。
基于標記集合(SoM)的動作定位
「標記集合」提示方法最初是為了增強GPT-4V的視覺定位能力而提出的,但以往的研究主要利用SoM來增強現成的大型多模態模型(LMMs)的視覺語言定位能力,研究人員提出利用SoM來訓練智能體模型,使其能夠定位特定任務中的可操作點或區域,并在需要時進一步預測基本動作。
假設在時間步t,智能體觀察到一張圖像It,其大小為H×W×3(即高度、寬度和顏色通道),同時智能體的輸入還包括任務描述和上下文信息。
圖片
先從圖像中提取一組可操作的候選區域或點P = {p1, ..., pK},其中每個點pk可以是一個四維的矩形框坐標(例如x, y, w, h)或二維的點坐標(x, y),然后在圖像上對應的位置疊加標記和矩形框,并用數字標簽標記它們,例如M = {1: p1, 2: p2, ..., K: pK},從而生成一張帶有標記的新圖像。
模型需要從候選標記中選擇相應的標記,并結合原始坐標,極大簡化了智能體模型的動作定位任務。
圖片
基于標記軌跡(ToM)的動作規劃
視頻數據包含了大量人類動作和活動的信息,可以用來提升智能體模型的能力,但動作標簽數據極為稀缺。
研究人員提出「標記軌跡」(Trace-of-Mark, ToM)的方法,將「疊加標記」(overlaying marks)的策略從靜態圖像擴展到動態視頻,讓智能體模型能夠有效地從視頻中學習規劃和執行動作。
對于第t幀It中的K個標記,提取標記在接下來I幀中的對應位置,記為軌跡T = {Mt+1, ..., Mt+l},進一步要求模型預測有效標記的未來軌跡,其中trace[t+1:t+l]為標記集合T中有效標記的軌跡序列的一個子集。
圖片
ToM預測方法可以充分利用視頻數據,迫使模型理解視頻觀察中的時間動態,并在采取下一步動作之前「向前看」;使用更少的token來捕捉更長時間范圍內的動作相關目標動態,且忽略周圍無關的內容。
研究人員采用點跟蹤模型CoTracker來提取ToM數據。
建模
為了保持Magma所需的多模態理解能力,研究人員使用一個視覺編碼器V,將每一幀圖像編碼成多個token,然后將所有token拼接成一個序列,并與編碼任務描述的語言token一起輸入到一個僅解碼器的語言模型(LLM)中。
由于任務的多樣性,研究人員選擇ConvNeXt作為視覺主干網絡,能夠無縫處理各種分辨率圖像和視頻,能夠很好地捕捉全局上下文,效果與結合全局和局部裁剪的方法相當。
圖片
智能體建模為一個自回歸解碼過程,即基于之前的所有輸出、視覺編碼器對圖像的編碼、任務描述以及上下文信息,來生成下一個輸出。
實驗結果
智能體能力
研究人員使用了ScreenSpot來評估用戶界面(UI)動作定位和導航能力,使用VisualWebBench來測試其在網頁環境中的表現,同時還用SimplerEnv來評估機器人操作任務的表現。
圖片
結果顯示,Magma在所有測試中都持續超越了其他通用領域的大型多模態模型(例如LLaVA和Qwen-VL),以及特定領域的智能體模型,比如用于UI導航的SeeClick和用于機器人操作的OpenVLA;在用戶界面任務上,Magma的零樣本性能甚至超過了目前最先進的基于視覺的方法(結合了GPT-4V和Omniparser)。
圖片
Magma預訓練模型的成功率比排名第二的OpenVLA高出19.6%,幾乎達到了平均成功率的兩倍。
空間推理
研究人員將Magma模型在用戶界面(UI)導航和機器人操作任務上表現出色的原因歸結為其在空間推理能力上的提升,然后在視覺空間推理(VSR)、BLINK和SpatialEval基準測試中進行評估。
圖片
結果可以看到,Magma在VSR和SpatialEval上的表現顯著優于現有的方法,并且其預訓練僅使用了大約2900萬張圖像,對比CogVLM使用了約15億張圖像,兩個模型的性能大致相當;消融實驗證明了標記集合(SoM)和標記軌跡(ToM)預訓練任務在幫助Magma提升空間推理能力方面的有效性。
圖片
多模態理解
圖像指令微調:研究人員在Magma-SFT-820K數據集上進行微調,然后將微調后的Magma模型與現有的視覺語言模型(VLMs)在一系列常用的圖像推理基準測試上進行了比較,結果顯示Magma在大多數任務上的表現都優于最近提出的VLMs,尤其是在TextVQA和ChartQA任務上,分別取得了約5%和22%的顯著提升。
圖片
視頻指令微調:研究人員報告了Magma模型在多個視頻問答(QA)基準測試上的表現,包括IntentQA、NextQA、VideoMME和MVBench,結果展現了預訓練方法的有效性。
圖片
Magma在不同基準測試中持續超越了大多數參數數量相當的最先進模型,表明Magma能夠很好地理解和推理視頻內容,即使在復雜的任務場景中也能表現出色。
參考資料:https://huggingface.co/papers/2502.13130