谷歌發布本地具身智能模型!全程無聯網執行精細操作,從人形機器人到工業機器人全覆蓋
機器人終于有了自己的“離線大腦”。
Google DeepMind團隊首個可以完全在機器人本地運行的視覺-語言-動作(VLA)模型Gemini Robotics On-Device發布。
這個模型不僅能離線運行,還保持了相當強悍的操作能力,能遵循指令完成各種需要精細操作的任務。
支持從人形機器人到工業雙臂機器人的多種機器人本體上部署,響應延遲還低到飛起。
此前3月份發布的Gemini Robotics雖然性能強大,但需要依賴云端計算。而這次的On-Device版本,直接把AI塞進了機器人的“大腦”里,徹底解決了網絡延遲和連接不穩定的老大難問題。
給機器人裝上本地大腦
團隊把Gemini 2.0的多模態推理能力和真實世界理解能力,全都塞進了這個可以在機器人設備上運行的模型里。
由于模型獨立于數據網絡運行,它特別適合對延遲敏感的應用,并確保在網絡間歇性或零連接的環境中也能穩定工作。
評測數據顯示,On-Device版本在泛化性能測試中表現亮眼。在視覺泛化、語義理解和行為泛化等多個維度上,雖然比云端版本的Gemini Robotics略有差距,但已經大幅超越了之前最好的本地模型。
在處理分布外任務(out-of-distribution tasks)和復雜多步驟指令時,Gemini Robotics On-Device對比此前的本地模型也展現出了碾壓級的優勢。
這種指令跟隨能力,讓機器人真正能夠理解人類的自然語言指令,而不是簡單地執行預設程序。
快速適應新任務,跨平臺部署不是夢
如果說性能強悍只是基礎,那么Gemini Robotics On-Device的適應能力才是真正的殺手锏。
這是谷歌首次開放VLA模型的微調功能。
開發者只需要50到100個演示樣本,就能讓模型適應全新的任務。在測試中,團隊在七個不同難度的靈巧操作任務上進行了驗證,包括給午餐盒拉拉鏈、抽卡片、倒沙拉醬等。
結果顯示,即使是最復雜的任務,用不到100個樣本就能達到相當高的成功率。
雖然這個模型最初只在ALOHA機器人上訓練,但團隊成功將其遷移到了完全不同的機器人平臺上。
在雙臂Franka FR3機器人上,模型不僅能執行通用的指令跟隨任務,還能完成工業級的皮帶裝配任務。
而在Apptronik公司的Apollo人形機器人上,面對截然不同的機械結構,模型同樣展現出了強大的泛化能力。它能夠遵循自然語言指令,操作各種物體,包括訓練時從未見過的新物體。
團隊還特別強調,他們在開發過程中嚴格遵循了谷歌的AI原則,采用了語義安全和物理安全并重的整體安全方案。通過Live API捕獲語義和內容安全問題,并與底層安全關鍵控制器接口來執行動作。
SDK開放申請,機器人開發者有福了
為了讓更多開發者能夠使用這項技術,谷歌同時發布了Gemini Robotics SDK。
這個SDK不僅能讓開發者輕松評估模型在自己任務和環境中的表現,還提供了MuJoCo物理模擬器的測試功能。開發者可以先在模擬環境中驗證想法,再部署到真實機器人上,大大降低了開發成本和風險。
目前,SDK正在通過可信測試者計劃(trusted tester program)逐步開放。感興趣的開發者可以在官網上申請加入,搶先體驗這項技術。