開啟輕量化機器人控制新時代
視覺-語言-動作模型(Vision-Language-Action,VLA)已成為機器人智能控制的重要突破口。然而,傳統的VLA模型往往依賴于擁有數十億參數的大型變換器架構,這不僅帶來了巨大的內存和計算成本,還將實驗和部署局限在資源充足的實驗室和云端環境中。
Hugging Face于2025年6月3日正式發布了SmolVLA——一個專為經濟和高效部署而設計的緊湊型VLA模型。
SmolVLA的推出標志著機器人控制技術的一個重要轉折點。它不僅打破了傳統VLA模型的資源壁壘,還為廣大開發者和研究人員提供了一個可在單GPU或CPU環境中運行的開源解決方案。這一創新不僅降低了機器人學習的門檻,更為實現真正的邊緣計算機器人控制奠定了基礎。
1.傳統VLA局限性
硬件資源門檻過高:現有的VLA模型普遍采用基于變換器的骨干網絡,參數規模動輒數十億,導致顯著的內存和計算開銷。這種高資源需求使得只有配備高端硬件的實驗室才能進行相關研究,嚴重限制技術普及和應用。
研究成果封閉性:目前VLA研究領域的大部分進展要么屬于專有技術,要么基于不可復現的方法論,這嚴重阻礙了開放性研究的發展。
數據異構性問題:不同機器人平臺在形態學、傳感器配置、控制模式等方面存在顯著差異,這種數據異構性為通用化學習和跨平臺部署帶來了巨大挑戰。
2.SmolVLA
SmolVLA采用了創新的雙組件架構設計,將感知和動作預測功能巧妙分離。感知模塊(SmolVLM-2)基于預訓練的緊湊型視覺-語言編碼器,負責處理RGB圖像序列、感知運動狀態和語言指令。為了提高效率,該模塊通過下采樣限制視覺令牌數量,并僅使用Transformer的下半部分,因為有研究證明早期層通常產生更具可轉移性的特征。
動作專家模塊采用輕量級Transformer架構,使用流匹配(Flow Matching)技術訓練,預測連續控制動作序列。該模塊在自注意力和交叉注意力層之間交替。
SmolVLA的最大技術創新之一是其異步推理堆棧,該架構將動作預測與執行解耦。傳統方法中,機器人必須等待當前動作塊完全執行完畢后才能預測下一個動作塊,這會導致推理間隙期間的系統空閑,影響實時性能。
SmolVLA的異步架構通過RobotClient和PolicyServer的分離設計,實現了動作預測與執行的并行處理。當終端仍在消費先前可用的動作隊列時,系統就可以觸發新的動作塊預測,顯著提高了系統響應性。相比傳統同步推理,異步方法將平均任務時間減少約30%,在固定時間場景下完成的動作數量翻倍。這對于推理延遲會影響實時性能的邊緣部署場景尤為重要。
SmolVLA采用基于流匹配的動作專家架構,這是一個重要的技術突破。與傳統僅依賴自注意力或交叉注意力的方法不同,SmolVLA采用交替的設計方案。每個塊包含自注意力(SA)或交叉注意力(CA)層,其中CA層交叉關注VLM的鍵值對,SA層允許動作令牌相互關注。
在SA層中采用因果注意力掩碼,確保每個動作令牌只能關注塊內的過去令牌,防止未來動作依賴性。這一設計有效提高了動作塊的平滑性,特別是在真實機器人評估中表現突出。
基于先驗研究發現,SmolVLA只使用VLM的前半部分層(N = L/2),這一設計在速度和性能之間實現了良好平衡,有效將LLM和動作專家的計算成本減半。雖然高分辨率圖像對VLM性能至關重要,但會增加推理成本。SmolVLA不使用圖像分塊技術,僅使用全局圖像加像素重排操作,將每幀的視覺令牌限制為64個。
VLM(視覺-語言模型)的不同層處理不同層次的信息:
前半部分層(淺層)提取基礎視覺特征(邊緣、紋理、形狀),處理基本語言語義,計算效率高,參數相對較少。后半部分層(深層)進行高級抽象和推理,復雜的多模態融合,計算成本高,參數眾多。
假設任務是拿起紅色的杯子,前半部分層已經能提供識別出紅色區域,檢測到杯子的形狀,理解拿起的基本含義,物體的3D位置信息。
后半部分層提供的額外能力:關于杯子的文化背景知識,對于機器人執行動作來說,前者已經足夠了。
3.數據處理與標準化創新
SmolVLA在數據處理方面實現了重要突破,從481個社區數據集中篩選出約23,000個episode,覆蓋1060萬幀數據。這一數據規模雖然比其他最先進方法至少小一個數量級,但通過巧妙的數據處理策略實現了優異的性能。
VLM自動標注:針對社區數據集中任務標注質量參差不齊的問題,SmolVLA采用現成的VLM(Qwen2.5-VL-3B-Instruct)自動生成簡潔的任務描述。系統對每個數據集采樣代表性幀,結合原始指令,生成面向動作的簡短句子摘要。
標準化處理:為解決相機命名約定的高度變異性問題,SmolVLA手動將每個相機映射到標準化視圖類型,優先考慮頂部、腕部和側面視角,并重命名為OBS_IMAGE_1、OBS_IMAGE_2和OBS_IMAGE_3。
LIBERO基準測試:在LIBERO基準測試中,SmolVLA(0.45B參數)實現了87.3%的平均成功率,接近或超越了參數規模更大的模型如π?(3.3B參數)。這一表現尤其令人矚目,因為SmolVLA沒有經過機器人特定的預訓練。Meta-World評估:在Meta-World基準測試中,SmolVLA在各個任務難度級別上均優于擴散策略和小規模VLA模型,展現了其優秀的泛化能力。
在真實世界設置中,SmolVLA在抓取-放置、堆疊和分揀任務中實現了78.3%的平均成功率,顯著優于從頭訓練的ACT和經過微調的π?。更令人印象深刻的是,SmolVLA展現了優秀的跨機器人實體泛化能力。盡管僅在SO100數據上訓練,但在SO101平臺上仍保持了良好的性能表現。相比π?,SmolVLA的訓練速度快約40%,內存消耗減少6倍,為資源受限環境
下的機器人學習提供了可行的解決方案。
SmolVLA的核心設計哲學是追求效率與性能的最優平衡點。無論是前半部分VLM層的選擇、交替注意力的架構,還是適度的專家容量配置,每一個技術決策都體現了對計算資源的精打細算和對實用性的深度考量。
本文轉載自??????魯班模錘??????,作者:龐德公
