耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴! 原創
出品 | 51CTO技術棧(微信號:blog51cto)
想知道世界SOTA級別的模型用在物理世界中有多震撼嗎?Google DeepMind做了一件破天荒的事情。
大模型自爆火以來,已經過去兩年多,但在物理世界中真正能轉化為機器人行為,還是一個世界級難題。如何讓機器人理解物理世界,并能與之安全、高效地交互也是各大科技巨頭一直在研究的兩大前沿命題。
圖片
這一次,以Google DeepMind為主導的研究團隊投入了近120名研究人員,耗時一年半,一次性給這兩個命題做出了突破性的進展。
新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!網友:億些震撼!51CTO技術棧已關注分享點贊在看已同步到看一看寫下你的評論 視頻詳情
先來看看DeepMind重磅推出的兩大模型:Gemini Robotics-ER 和 Gemini Robotics。
首先,Gemini Robotics-ER(Embodied Reasoning):這是一個增強版的多模態模型,專注于物理世界的推理能力,包括物體檢測、軌跡預測、抓取預測和 3D 理解等。
其次,Gemini Robotics:這是基于 Gemini Robotics-ER 的 VLA 模型,能夠直接控制機器人,執行復雜的操作任務,并支持零樣本和少樣本學習,同時在不同環境中表現出強大的泛化能力。
圖片
可以說,谷歌DeepMind把“通用大模型用在機器人領用“重新立了一個領先的樣板。
進廠給齒輪套個皮圈,完全無壓力:
圖片
可以和人類玩家下井字棋,水平還不低:
圖片
甚至可以疊個千紙鶴:
圖片
網友看完展示的demo感受到億些震撼,直接說:
我一直認為阿西莫夫的機器人定律("機器人不得傷害人類 "等)是科幻小說中的一個有趣道具,與計算和機器人技術的實際工作方式完全脫節。原來,他只是在寫大模型的提示語。
圖片
Gemini 2.0 的物理世界推理能力究竟有多強?
用大模型解決機器人問題就需要讓其全面了解物理世界。GoogleDeepmind華人研究員Ted Xiao表示,“多模態模型是解決這一難題的關鍵部分,因此我們從最強大的模型-- Gemini 2.0 開始。我們利用新的具身推理問答 (ERQA) 基準來驗證 Gemini 的真實世界知識。”
圖片
這里需要注意,具身問答推理ERQA是DeepMind團隊研發的一套新基準,用于評估多模態模型的物理世界推理能力。Gemini 2.0 在該基準測試中表現出色,顯示出其在空間推理、軌跡推理和動作推理等方面的能力。
圖片
究竟Geimini2.0有多厲害?可以看下測試詳情和表現:
- 2D 和 3D 物體檢測:Gemini 2.0 能夠通過自然語言指令檢測圖像中的物體,并提供精確的 2D 和 3D 邊界框。
- 指向和軌跡預測:模型能夠根據語言描述指向特定物體或空間位置,并生成 2D 軌跡。
- 抓取預測:Gemini Robotics-ER 增強了 Gemini 2.0 的抓取預測能力,使其能夠預測物體的抓取點。
開啟具身推理時代:Gemini Robotics-ER徹底解鎖了機器人雙手的鐐銬
Gemini Robotics-ER(具身推理)是 Gemini 2.0 的增強版,以機器人技術所需的方式增強了其空間和時間理解能力。這就解鎖了機器人在指向、多視圖和 3D 理解以及抓握預測等基本功能。
圖片
它牛在何處呢?簡單來說,這個模型的目標是讓機器人理解復雜的、動態的世界。
以打包午餐盒為例,這種任務哪怕幾歲的小孩都能輕松的完成。
圖片
但訓練一個機器人完成同樣的工作,涉及的問題就多了:當桌上擺放著多個物品時,需要知道每樣物品的準確位置、如何打開午餐盒、如何抓取物品、以及如何正確擺放它們,才能夠完成整個工作。
最令人可貴的是,該模型可以直接用于機器人應用,端到端機器人控制能力。據介紹,Gemini Robotics-ER 可以執行開箱即用控制機器人所需的所有步驟,包括感知、狀態估計、空間理解、規劃和代碼生成。
在這樣的端到端設置中,與 Gemini 2.0 相比,該模型實現了 2 到 3 倍的成功率。
在代碼生成不足的情況下,Gemini Robotics-ER 甚至可以利用上下文學習的力量,機器人還能通過上下文學習,借鑒少量人類示范來生成解決方案。真的是越來越聰明了!
一個明顯的例子是,Gemini Robotics-ER 結合了空間推理和 Gemini 的編碼能力,可以動態實例化全新的功能。
例如,當展示一個咖啡杯時,模型可以憑直覺判斷出適當的雙指抓握以通過手柄拾取它,并可以安全地接近它。
而且,如果代碼生成無法完全滿足需求,機器人還能通過上下文學習,借鑒少量人類示范來生成解決方案。真的是越來越聰明了!
此外,模型可以連接到現有的 低級控制器(robot low-level controllers,例如,馬達、傳感器、執行器),從而解鎖 Gemini Robotics-ER 賦能的新功能。
舉個例子來說,無論機器人配備的是兩個機械手指還是靈巧手,Gemini Robotics-ER 都能提供所需的推理結果,幫助機器人識別最佳的抓取位置等,從而順利完成目標動作。
從Robotics-ER驗證了一件事:具身智能自己做模型,而不是直接接入主流模型,是有很意義的!
新SOTA模型誕生:Gemini Robotics !原生多模態的通用VLA模型
在具身推理能力的基礎上,DeepMind團隊引入了 Gemini Robotics,這是一種新的 SOTA 視覺-語言-動作 (VLA) 模型。這是一個非常強大的通用模型,能夠執行非常靈巧的任務,同時仍遵循指令并進行概括。
圖片
Gemini Robotics 已經是一款突破性的預訓練通用 VLA,但這還不是全部!研究團隊還展示了它如何輕松地專門用于長距離靈活性、高級推理、快速適應新任務,并轉移到全新的機器人化身(如人形機器人)。
Ted Xiao表示:“很難描述體驗通用 VLA 行動策略、強大的具身推理世界知識和 Gemini 2.0 --的原生多模態性的結合是多么神奇,這些的交互性和凝聚力整合非常有意義。”
圖片
七大創新,定義機器人世界的原生多模態通用SOTA
整體看下來,Gemini Robotics 有以下7個創新點:
1.長時序復雜任務通過進一步的微調,Gemini Robotics 能夠解決更復雜的長時序任務,例如折紙、玩牌游戲等。在這些任務中,Gemini Robotics 的成功率顯著高于其他基線模型,甚至在一些任務中達到了 100% 的成功率。
2. 快速適應新任務在技術報告中展示了 Gemini Robotics 在通過少量演示數據快速適應新任務方面的能力。在多個短時序任務中,Gemini Robotics 只需 100 個演示數據即可達到超過 70% 的成功率,顯示出強大的學習能力。
3. 適應新機器人形態Gemini Robotics 能夠通過少量數據適應全新的機器人形態,例如雙臂機器人和人形機器人。在這些新形態的機器人上,Gemini Robotics 的表現與專門的單任務模型相當,甚至在某些任務中表現更好。
4. 安全性和責任開發該項目在開發過程中遵循 Google AI 原則,確保模型的安全性和責任性。開發了安全策略,以防止模型生成有害內容或執行不安全的動作。通過 ASIMOV 數據集對模型進行了安全評估,確保其在物理世界中的行為符合人類的安全標準。
5. 模型架構和低延遲設計Gemini Robotics 由云端的 VLA 主干網絡和機器人本地的動作解碼器組成,能夠在低延遲下實現流暢的運動和實時控制。這種架構設計使得模型能夠在保持強大泛化能力的同時,實現高效的實時控制。
6. 多樣化任務的泛化能力Gemini Robotics 在多樣化任務中展現出強大的泛化能力,能夠處理從簡單抓取到復雜操作的各種任務。在多個任務中,Gemini Robotics 的成功率和進度得分顯著高于基線模型,尤其是在需要泛化能力的任務中。
7. 語言指令的精確跟隨Gemini Robotics 能夠精確地遵循自然語言指令,即使在包含新物體和復雜指令的場景中也能表現出色。在多個語言指令跟隨任務中,Gemini Robotics 的成功率顯著高于其他基線模型,顯示出其在語言理解和執行方面的強大能力。
耗時一年半摸索出物理世界通用大模型的基本路線
如此先進的模型遠比訓練微調一個定制模型那么簡單,據Ted Xiao介紹,這個項目耗時一年半!整個過程非常有趣:從基本的前沿模型多模態能力,到先進的具身推理,再到機器人低級控制。《Gemini Robotics: Bringing AI into the Physical World》的作者包括來自 Google DeepMind 的研究團隊成員,多達116位。
圖片
具身智能們都在“卷”這三件事
最近,具身智能領域的驚喜頻頻!
從稚暉君靈犀X2機器人刷屏的“騎自行車”“針縫葡萄”,到今天谷歌推出兩款SOTA級別的具身智能模型。
其實,具身智能們都在緊鑼密鼓地卷這三件事,以讓AI機器人真正有用:
- 通用性(Generality):能夠適應不同場景并解決多種任務,包括訓練時未見過的任務。
- 交互性(Interactivity):能夠理解并迅速響應指令,適應環境變化。
- 靈巧性(Dexterity):能夠執行需要精細操作的任務,例如精準操控物體。
圖片
稚暉君則將這三個方向總結為:運動智能(靈巧性)、交互智能(交互性)、和作業智能(通用性)。
圖片
在通用性方面,未來的目標聚焦在零樣本泛化能力上。稚暉君介紹,靈犀X2目前已具備簡單任務的零樣本泛化能力。而Gemini Robotics 則依托 Gemini 的世界知識實現了這一點。任務的零樣本泛化賦予機器人“隨機應變”的能力,真正能處理新物體、復雜指令和未知環境。
在交互性方面,則要依靠模型能力的提升。無論是靈犀X2定制的多模態交互大模型硅光動語,還是Gemini Robotics從Gemini 2.0上獲取了強大的語言理解能力,都是為了讓機器人在協作過程中更加自然、流暢。
在靈巧性方面,考驗的是機器人精細操作的能力,除了模型大腦的指揮要到位以外,硬件和材料的更新也同樣重要。現在,Gemini Robotics 已經勝任了折紙、將零食裝入密封袋等,需要高度精準的多步操作,但每步動作的流暢度還有很大提升空間。
寫在最后
隨著具身智能領域的進展,通用性、交互性和靈巧性已成為共識。無論是Google推出的Gemini Robotics,還是稚暉君的靈犀X2,機器人都在這些核心領域持續突破,讓我們離真正的智能機器人越來越近。
去年,Google發布了“機器人憲章”,內容就受到阿西莫夫機器人三定律的啟發。我們有理由相信,這波科技浪潮的涌動,正在把我們帶向一個科幻世界。
或許,下一個出現在我們身邊的“機器人伙伴”,就是那個帶領我們進入新時代的智能使者。
參考鏈接:
1.https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/
2.https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models?utm_source=chatgpt.com
本文轉載自??51CTO技術棧??,作者:云昭、伊風
