微軟開源多模態AI基礎模型!無需額外微調輕松拿捏網頁、機器人
微軟研究院官宣開源多模態AI——Magma模型。
首個能在所處環境中理解多模態輸入并將其與實際情況相聯系的基礎模型。
該模型近期已被計算機視覺頂會CVPR接收,只要給定一個目標描述,Magma就能制定計劃、執行行動,無論是在數字界面中還是物理世界里,都能展現出靈活而高效的交互能力。
比如在網頁中找到天氣信息并打開飛行模式,或是執行分享、發送消息等多步驟操作。
再比如在真實機器人任務中,讓機器人移動桌面上的“熱狗”模型、把蘑菇模型放到鍋里,或者將抹布從左至右推開。
相比其它模型,它在實際滾動演示中更加“絲滑”,出錯率更低。
或者在多模態理解和對話任務中,贏了眼前國際象棋比賽(左),或根據當前環境提出放松幾個小時的建議(右)。
甚至還能描述視頻中發生了什么動作,并預測接下來會發生什么。
目前該模型以MIT許可證在GitHub上開源。
融合視覺、語言與動作的全新能力
傳統的視覺語言(VL)模型主要關注圖像與文本信息的理解,而Magma則在此基礎上進一步拓展,加入了空間與時序智能,賦予AI更強的行動決策能力。
微軟研究院團隊指出,Magma在視覺理解和語言理解的基礎上,又讓AI具備了在視覺空間世界進行動作規劃與執行的能力。
這意味著,Magma能夠勝任從UI界面導航到機器人精準抓取與移動等更多“跨界”任務。
Magma的核心創新在于其獨創的兩大標注方法:
1、Set-of-Mark(SoM)
該方法為任務中需要關注的關鍵對象(如網頁中的可點擊元素或餐桌上的擺放物品)提供了一組高層次的“關注標記”。通過對這些目標進行精準定位,Magma能夠更有效地捕捉任務的核心要素,從而為后續動作規劃奠定基礎。
微軟研究院的研究還顯示,SoM對UI導航、機器人和人類視頻都有統一的操作標記作用,讓模型能快速識別并鎖定可交互目標。
2、Trace-of-Mark(ToM)
不僅是靜態標記,ToM方法還擴展到動態視頻場景中,通過對物體運動軌跡的標注,捕捉到動作的時序變化。
無論是機器人抓取物體時的手臂軌跡,還是人類在視頻中的動態操作,ToM都能幫助模型理解任務的時序邏輯,預測未來狀態,進而作出更加精準的決策。
研究團隊表示,相比直接進行下一幀預測,ToM用更少的token就可捕捉更長時間跨度的動作語義,從而讓Magma更能關注關鍵動作細節。
那么,Magma的實際表現如何呢?
概括而言,它在零樣本智能與跨領域應用方面擁有強悍表現。
在多項測試中,包括UI導航、機器人操作與視頻理解,Magma無需針對特定領域進行額外微調,就能交出令人滿意的表現。
此外,研究團隊還對多個模型(包括ChatGPT在內)做了零樣本評估,結果顯示預訓練好的Magma是唯一能完成所有測試任務的模型。
而Magma的跨領域優勢表現在以下幾個方面:
- UI導航場景:在Mind2Web、AITW等網頁或移動設備界面導航任務中,Magma僅需少量微調(few-shot)就可以取得非常突出的成績;
- 機器人任務:在WidowX機械臂真實操作和LIBERO中進行少樣本微調,Magma同樣大幅領先于其它對比模型,尤其在軟物體操作和精確擺放任務中表現穩定。研究者還指出,在預訓練階段去除SoM和ToM標注后,Magma的性能顯著下降,這說明這兩大關鍵標注策略對模型的通用性和表現力至關重要;
- 跨實體模擬:在Google Robots和Bridge任務中,Magma也展現了強大的跨實體泛化能力,能勝任不同種類物品的抓取與擺放。
與此同時,其多模態理解能力體現在:
在視頻理解和對話場景中,Magma所需的視頻指令調優數據量并不大,卻在大多數基準測試上與Video-Llama2、ShareGPT4Video等先進方法相當甚至超越。
它不僅能描述視頻內容,還能對下一步動作進行合理的預測和推斷。
據介紹,Magma使用大規模異構視覺語言(VL)數據集預訓練,包含3900多萬條樣本,覆蓋圖像、視頻以及機器人動作軌跡等多種形式,并采用ConvNeXt-XXL作為視覺骨干網絡和Llama-3-8B作為語言模型。
目前團隊已經將Magma以MIT許可證在GitHub上開源,同時也在Hugging Face上提供了部分模型權重和示例,方便開發者快速上手。
團隊大部分為華人
從論文作者名單可以看到,其中大部分為華人。
論文一作兼項目負責人楊健偉,是Microsoft Research深度學習組的首席研究員,由Jianfeng Gao博士領導。
2020年3月加入微軟前,他在喬治亞理工學院互動計算學院獲得計算機科學博士學位,研究“結構化視覺理解、生成與推理”,師從Devi Parikh教授,并與Dhruv Batra教授合作。
他的研究專注于通用多模態智能體,是該領域的先驅之一,推動了多個重要突破,包括:
- 多模態視覺基礎模型:UniCL、RegionCLIP、GLIP、大規模基礎模型Florence;
- 通用多模態模型:X-Decoder、SEEM、Semantic-SAM;
- 大型多模態模型:LLaVa變體、GPT-4V的SoM提示工程、Phi-3-Vision。
由他主導的Project Magma項目,于發布后登上Hacker News熱榜第一,并在學術界和工業界引發廣泛關注。
作者之一顧禹,是Microsoft Research資深科學家,專注于大規模基礎模型、多模態學習和智能體技術,推動AI在醫療和企業級應用中的落地。
他主導開發了PubMedBERT,作為世界首批自適應大模型,下載量超過2000萬,ACM年度最佳論文,廣泛應用于全球醫療機構。他共同主導BiomedParse(發表于《自然·方法》),并研發BiomedJourney,用于模擬疾病進展,提升醫學AI在數據稀缺場景下的適應能力。
在智能體系統方面,他展示了LLM驅動的multi agent協作推理,優化腫瘤決策,并在世界經濟論壇上亮相,其研究成果發表在《自然》、《細胞》等期刊。
項目主頁:https://microsoft.github.io/Magma/
論文:https://www.arxiv.org/pdf/2502.13130
開源地址:https://github.com/microsoft/Magma