我在哪?要去哪?要怎么去?字節跳動提出Astra雙模型架構助力機器人自由導航
在當今科技飛速發展的時代,機器人在各個領域的應用越來越廣泛,從工業生產到日常生活,都能看到它們的身影。然而,現代機器人導航系統在多樣化和復雜的室內環境中面臨著諸多挑戰,傳統方法的局限性愈發明顯。
一、傳統導航瓶頸凸顯,Astra 應勢而生
在復雜的真實世界中,移動機器人想要安全可靠地行走,必須解決三大挑戰:我要去哪?我在哪?我要怎么去?這正是目標定位、自我定位與路徑規劃三大導航核心問題。目標定位時,在某些應用中,目標可能通過自然語言或目標圖像提示指定,這就需要系統理解提示并在地圖中定位目標;自我定位要求機器人在地圖中確定自身位置,尤其是在像倉庫這樣高度重復且缺乏全局地標的復雜場景中,傳統導航系統常依賴人工地標,如 QR 碼;路徑規劃又分為全局規劃和局部規劃,全局規劃根據機器人位姿和目標位姿生成粗略路線,局部規劃則負責在避開障礙物的同時到達全局路徑上的中間路點。
為解決這些任務,傳統導航系統通常由多個模塊組成,包含多個小模型或基于規則的系統。近年來,基礎模型的出現促使人們將小模型集成到更大的模型中以解決更多任務,但所需模型數量及如何有效整合仍有待探索。
為了突破傳統導航系統的瓶頸,字節跳動研發了一種創新的雙模型架構 Astra。
- 論文標題:Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning
- 網站:https://astra-mobility.github.io/
通過兩大子模型:Astra-Global 與 Astra-Local,在環境理解感知與實時規劃決策之間建立通路,為下一代智能體的 “通用導航能力” 打下基礎。Astra 遵循 System 1/System 2 理念,Astra-Global 負責低頻任務,如目標和自我定位;Astra-Local 管理高頻任務,包括局部路徑規劃和里程計估計。這種架構的出現,為移動機器人導航領域帶來了新的希望,有望徹底改變機器人在復雜室內環境中的導航方式。
圖1: Astra模型概述
二、Astra 雙模型架構揭秘,賦能機器人高效導航
1. Astra-Global:全局定位的智慧大腦
Astra-Global 作為 Astra 架構中的重要組成部分,猶如智慧大腦,承擔著關鍵的低頻任務,即自我定位和目標定位。它是一個多模態大語言模型(MLLM),能夠巧妙地處理視覺和語言輸入,在全局地圖中實現精準定位。其核心在于利用混合拓撲語義圖,將其作為上下文輸入,使得模型能夠依據查詢圖像或文本提示,在地圖中準確找到對應的位置。
圖2: Astra-Global 架構
在構建這個強大的定位系統時,離線映射是關鍵的第一步。研究團隊提出了一種離線方法來構建混合拓撲語義圖 G=(V,E,L)。在這個圖中,V 代表節點集合,通過對輸入視頻進行時間下采樣,并利用 SfM 估計近似的 6 自由度(DoF)相機位姿,將關鍵幀設為節點,這些節點編碼了相機位姿和地標引用;E 是基于節點相對位姿關系建立的無向邊集合,對于全局路徑規劃至關重要,它代表了幾何連通性;L 則是地標信息集合,通過 Astra-Global 從每個節點的視覺數據中提取語義地標,豐富了地圖的語義理解,地標存儲了語義屬性,并通過共視關系與多個節點相連。例如,在一個辦公室場景中,拓撲地圖構建確定了各個房間、走廊等位置的節點和連接關系,地標語義豐富則為這些節點添加了如 “會議室”“辦公桌區域” 等地標信息。地標共視圖表的構建進一步確保了不同節點間關于地標信息的一致性,使得機器人能夠更全面地理解場景。
在實際定位過程中,Astra-Global 的自定位與目標定位功能展現出獨特的優勢。視覺 - 語言定位采用粗到精的兩階段過程。在粗定位階段,模型分析輸入圖像和定位提示,檢測地標并與預建地標地圖建立對應關系,同時通過視覺一致性過濾,依據圖像相似性進一步優化匹配結果,確定最終候選節點。如在一個倉庫環境中,機器人通過攝像頭獲取圖像,Astra-Global 能夠識別出貨架、叉車等地標,并與地圖中的地標信息匹配,篩選出可能的位置。在精定位階段,模型利用查詢圖像和粗定位輸出的候選節點,從離線地圖中采樣參考地圖節點,通過比較參考節點的視覺和位置信息,直接輸出查詢圖像的預測位姿,實現高精度定位。基于語言的目標定位同樣出色,模型根據自然語言指令,利用地圖中地標已有的功能描述,識別相關地標,再通過地標到節點的關聯機制,定位相關節點,獲取目標位置的圖像和 6 自由度位姿。比如,當用戶發出 “找到打印機” 的指令時,Astra-Global 能迅速在地圖中找到與 “打印機” 相關的地標節點,從而確定打印機的位置。
為了讓 Astra-Global 具備強大的定位能力,研究團隊采用了精心設計的訓練方法。以 Qwen2.5-VL 為骨干,結合監督微調(SFT)和組相對策略優化(GRPO)。在 SFT 階段,準備包含不同任務的多樣化數據集,除了粗定位和精定位數據集外,還構建了如共視檢測、共視圖像選擇、運動趨勢估計等輔助任務數據集,以提升模型的空間理解能力。在 GRPO 階段,針對視覺 - 語言定位任務,利用基于規則的獎勵函數進行訓練,獎勵函數包括格式獎勵、地標提取獎勵、地圖匹配獎勵和額外地標獎勵等,通過不斷優化獎勵函數,提升模型在定位任務中的表現。實驗結果表明,GRPO 顯著提升了 Astra-Global 在零樣本場景下的泛化能力,如在未見過的家庭環境中,SFT + GRPO 方法的定位準確率達到 99.9%,超過同等數據量下 SFT-only 方法的 93.7% 。
2. Astra-Local:本地規劃的智能助手
Astra-Local 則是 Astra 架構中負責高頻任務的智能助手,它是一個多任務網絡,能夠從傳感器數據中高效地生成局部路徑并準確估計里程計。其架構包含三個核心組件:4D 時空編碼器、規劃頭和里程計頭,每個組件都發揮著不可或缺的作用。
圖3: Astra-Local 架構
4D 時空編碼器是 Astra-Local 的基礎組件,它旨在取代傳統移動性堆棧中的感知和預測模塊。首先是 3D 空間編碼器,它以 N 個環視圖像為輸入,通過 Vision Transformer(ViT)將圖像編碼為判別性特征表示,再利用 Lift-Splat-Shoot 將 2D 圖像特征轉換為 3D voxel 特征。為了訓練 3D 空間編碼器,采用自監督學習方式,通過 3D 體積可微神經渲染,利用深度和顏色圖像進行監督。對于缺乏深度標簽的情況,借助大尺度單目深度估計模型對齊稀疏深度傳感器數據后生成偽深度標簽。接著,4D 時空編碼器在 3D 編碼器的基礎上進行訓練,它以過去的 voxel 特征和未來時間戳為輸入,通過 ResNet 和 DiT 模塊預測未來 voxel 特征。經過預訓練的 4D 時空編碼器能夠生成當前和未來的環境狀態表示,為后續的路徑規劃和里程計估計提供有力支持。
規劃頭基于預訓練的 4D 特征,結合機器人速度和任務信息(如目標位姿),通過基于 Transformer 的流匹配來生成可執行的軌跡。在復雜環境中,軌跡具有多模態特性,流匹配因其高效率成為實時系統中路徑規劃的理想方法。為了避免與各種障礙物發生碰撞,規劃頭引入了掩碼 ESDF 損失。通過計算 3D 占用地圖的歐幾里得空間距離場(ESDF)圖,并在 ESDF 圖上添加 2D 地面真實軌跡掩碼,有效地減少了碰撞率。實驗結果顯示,在包含許多未見擁擠場景的 OOD 數據集上,使用掩碼 ESDF 損失的方法在碰撞率和綜合得分方面都優于其他方法,充分證明了其在生成高質量軌跡方面的有效性。
里程計頭的主要任務是利用當前和過去的 4D 特征以及額外的傳感器數據(如 IMU、車輪數據)來預測機器人的相對位姿。它通過訓練一個 Transformer 模型來融合不同傳感器的信息,每個傳感器模態的數據都經過特定的 tokenizer 處理,再結合模態嵌入和時間位置嵌入,輸入到 Transformer 編碼器中,最后利用 CLS token 預測相對位姿。在實驗中,與基于兩幀的基線方法相比,Astra-Local 的里程計頭在多傳感器融合和位姿估計方面表現出色,如在加入 IMU 數據后,旋轉估計精度大幅提升,整體軌跡誤差降低到約 2%,進一步加入車輪數據后,尺度穩定性和估計精度進一步增強,展示了其在多傳感器數據融合方面的優勢。
三、實驗數據見證實力
為了全面評估 Astra 的性能,研究團隊在多種不同的室內環境中展開了廣泛且深入的實驗,涵蓋了倉庫、辦公樓和家庭等場景。這些實驗不僅驗證了 Astra 在理論上的創新架構和算法的有效性,更展示了其在實際應用中的潛力和可靠性。
1. 多模態定位能力
Astra-Global 的多模態定位能力通過一系列實驗得到了驗證。在處理文本和圖像定位查詢時,Astra-Global 表現出色。對于目標定位任務,它能夠準確地根據文本指令在地圖中識別出匹配的圖像和位姿,例如當接收到 “找到休息的地方” 這樣的指令時,Astra-Global 能夠迅速定位到地圖中沙發等休息區域的位置信息。與傳統的視覺位置識別(VPR)方法相比,Astra-Global 具有較大優勢。在細節捕捉方面,傳統 VPR 方法常依賴全局特征,容易忽略像房間號這樣的精細細節,而 Astra-Global 能夠精準捕捉這些關鍵信息,避免在相似場景中出現定位錯誤。在視點變化的魯棒性上,Astra-Global 基于語義地標進行定位,即使相機角度發生較大變化,地標之間的相對位置關系保持不變,使其能夠更穩定地進行定位,而傳統 VPR 方法在面對大的視點變化時往往會出現定位偏差。在位姿精度上,當存在多個相似候選位置時,Astra-Global 能夠利用地標空間關系選擇最佳匹配位姿,在 1 米距離誤差和 5 度角誤差范圍內的位姿精度顯著高于傳統 VPR 方法,在倉庫環境中的位姿精度比傳統方法提升了近 30%+。
圖4: 不同場景下Astra Global的定位精度都顯著高于傳統VPR方法
2. 規劃與里程計性能
Astra-Local 中規劃頭和里程計頭的性能同樣在實驗中得到了充分的評估。在規劃頭方面,研究團隊將其與 ACT 和擴散策略(DP)等方法進行了對比。在碰撞率、速度和得分等指標上,使用基于 Transformer 的流匹配和掩碼 ESDF 損失的 Astra-Local 規劃頭表現良好。在包含許多未見擁擠場景的 OOD 數據集上,Astra-Local 的碰撞率明顯低于其他方法,同時能夠保持較高的速度和綜合得分,充分證明了掩碼 ESDF 損失在減少碰撞風險方面的有效性。在里程計頭方面,通過在包含同步圖像序列、IMU 和車輪數據以及地面真實位姿的多模態數據集上進行實驗,結果顯示,與基于兩幀 BEV-ODOM 的基線方法相比,Astra-Local 的里程計頭在多傳感器融合和位姿估計方面具有較大優勢。加入 IMU 數據后,旋轉估計精度大幅提升,整體軌跡誤差降低到約 2%,進一步加入車輪數據后,尺度穩定性和估計精度進一步增強,有效提升了機器人在復雜環境中的運動控制和導航能力。
圖5: 通過掩碼esdf loss可以顯著降低規劃頭的碰撞率
圖6: 里程計任務頭通過transformer有效的融合多傳感器信息
四、未來展望
展望未來,Astra 有著廣闊的發展前景和應用潛力。在更廣泛的場景部署方面,Astra 有望拓展到更多復雜的室內環境,如大型商場、醫院、圖書館等。在大型商場中,Astra 可幫助機器人快速定位商品位置,為顧客提供精準的導購服務;在醫院里,能協助醫療機器人高效地運送藥品和物資,提高醫療服務效率;在圖書館中,可助力機器人整理書籍、引導讀者查找資料。
然而,Astra 目前也存在一些需要改進的地方。對于 Astra-Global 模塊,當前的地圖表示雖在信息損失和 token 長度上取得了一定平衡,但在某些情況下仍可能缺乏關鍵的語義細節,影響定位的準確性。未來,研究團隊計劃深入研究替代地圖壓縮方法,在優化效率的同時,最大限度地保留重要語義信息,以提升定位精度。此外,現有的定位僅依賴單幀觀測,在特征缺失或高度重復的環境中可能會失效。為解決這一問題,后續將引入主動探索機制,讓機器人能夠主動感知周圍環境,并將時間推理融入模型,利用序列觀測實現更穩健的定位,使機器人在復雜環境中也能準確找到自身和目標的位置。
在本地導航與控制方面,Astra-Local 模塊也有提升空間。在實際機器人部署中,受限于模型的泛化能力以及基于規則的回退系統在邊緣情況下容易誤觸發,導致回退率不可忽視。為了增強對分布外(OOD)場景的魯棒性,團隊將通過改進模型架構和訓練方法,使其能夠更好地應對各種未知情況。同時,重新設計回退系統,使其更緊密地集成到整個系統中,實現更無縫的切換,提高系統的穩定性和可靠性。此外,還計劃將指令跟隨能力集成到模型中,使機器人能夠理解和執行人類的自然語言指令,進一步拓展其在動態、以人為中心的環境中的可用性,實現更自然、高效的人機交互。