耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！原創

51CTO技術棧

發布于 2025-3-13 13:33

瀏覽

0收藏

出品 | 51CTO技術棧（微信號：blog51cto）

想知道世界SOTA級別的模型用在物理世界中有多震撼嗎？Google DeepMind做了一件破天荒的事情。

大模型自爆火以來，已經過去兩年多，但在物理世界中真正能轉化為機器人行為，還是一個世界級難題。如何讓機器人理解物理世界，并能與之安全、高效地交互也是各大科技巨頭一直在研究的兩大前沿命題。

耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！-AI.x社區圖片

這一次，以Google DeepMind為主導的研究團隊投入了近120名研究人員，耗時一年半，一次性給這兩個命題做出了突破性的進展。

耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！-AI.x社區

新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！網友：億些震撼！51CTO技術棧已關注分享點贊在看已同步到看一看寫下你的評論視頻詳情

先來看看DeepMind重磅推出的兩大模型：Gemini Robotics-ER 和 Gemini Robotics。

首先，Gemini Robotics-ER（Embodied Reasoning）：這是一個增強版的多模態模型，專注于物理世界的推理能力，包括物體檢測、軌跡預測、抓取預測和 3D 理解等。

其次，Gemini Robotics：這是基于 Gemini Robotics-ER 的 VLA 模型，能夠直接控制機器人，執行復雜的操作任務，并支持零樣本和少樣本學習，同時在不同環境中表現出強大的泛化能力。

耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！-AI.x社區圖片

可以說，谷歌DeepMind把“通用大模型用在機器人領用“重新立了一個領先的樣板。

進廠給齒輪套個皮圈，完全無壓力：

耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！-AI.x社區圖片

可以和人類玩家下井字棋，水平還不低：

耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！-AI.x社區圖片

甚至可以疊個千紙鶴：

耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！-AI.x社區圖片

網友看完展示的demo感受到億些震撼，直接說：

我一直認為阿西莫夫的機器人定律（"機器人不得傷害人類 "等）是科幻小說中的一個有趣道具，與計算和機器人技術的實際工作方式完全脫節。原來，他只是在寫大模型的提示語。

耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！-AI.x社區圖片

Gemini 2.0 的物理世界推理能力究竟有多強？

用大模型解決機器人問題就需要讓其全面了解物理世界。GoogleDeepmind華人研究員Ted Xiao表示，“多模態模型是解決這一難題的關鍵部分，因此我們從最強大的模型-- Gemini 2.0 開始。我們利用新的具身推理問答 (ERQA) 基準來驗證 Gemini 的真實世界知識。”

耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！-AI.x社區圖片

這里需要注意，具身問答推理ERQA是DeepMind團隊研發的一套新基準，用于評估多模態模型的物理世界推理能力。Gemini 2.0 在該基準測試中表現出色，顯示出其在空間推理、軌跡推理和動作推理等方面的能力。

耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！-AI.x社區圖片

究竟Geimini2.0有多厲害？可以看下測試詳情和表現：

2D 和 3D 物體檢測：Gemini 2.0 能夠通過自然語言指令檢測圖像中的物體，并提供精確的 2D 和 3D 邊界框。
指向和軌跡預測：模型能夠根據語言描述指向特定物體或空間位置，并生成 2D 軌跡。
抓取預測：Gemini Robotics-ER 增強了 Gemini 2.0 的抓取預測能力，使其能夠預測物體的抓取點。

開啟具身推理時代：Gemini Robotics-ER徹底解鎖了機器人雙手的鐐銬

Gemini Robotics-ER（具身推理）是 Gemini 2.0 的增強版，以機器人技術所需的方式增強了其空間和時間理解能力。這就解鎖了機器人在指向、多視圖和 3D 理解以及抓握預測等基本功能。

耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！-AI.x社區圖片

它牛在何處呢？簡單來說，這個模型的目標是讓機器人理解復雜的、動態的世界。

以打包午餐盒為例，這種任務哪怕幾歲的小孩都能輕松的完成。

耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！-AI.x社區圖片

但訓練一個機器人完成同樣的工作，涉及的問題就多了：當桌上擺放著多個物品時，需要知道每樣物品的準確位置、如何打開午餐盒、如何抓取物品、以及如何正確擺放它們，才能夠完成整個工作。

最令人可貴的是，該模型可以直接用于機器人應用，端到端機器人控制能力。據介紹，Gemini Robotics-ER 可以執行開箱即用控制機器人所需的所有步驟，包括感知、狀態估計、空間理解、規劃和代碼生成。

在這樣的端到端設置中，與 Gemini 2.0 相比，該模型實現了 2 到 3 倍的成功率。

在代碼生成不足的情況下，Gemini Robotics-ER 甚至可以利用上下文學習的力量，機器人還能通過上下文學習，借鑒少量人類示范來生成解決方案。真的是越來越聰明了！

一個明顯的例子是，Gemini Robotics-ER 結合了空間推理和 Gemini 的編碼能力，可以動態實例化全新的功能。

例如，當展示一個咖啡杯時，模型可以憑直覺判斷出適當的雙指抓握以通過手柄拾取它，并可以安全地接近它。

而且，如果代碼生成無法完全滿足需求，機器人還能通過上下文學習，借鑒少量人類示范來生成解決方案。真的是越來越聰明了！

此外，模型可以連接到現有的低級控制器（robot low-level controllers，例如，馬達、傳感器、執行器），從而解鎖 Gemini Robotics-ER 賦能的新功能。

舉個例子來說，無論機器人配備的是兩個機械手指還是靈巧手，Gemini Robotics-ER 都能提供所需的推理結果，幫助機器人識別最佳的抓取位置等，從而順利完成目標動作。

從Robotics-ER驗證了一件事：具身智能自己做模型，而不是直接接入主流模型，是有很意義的！

新SOTA模型誕生：Gemini Robotics ！原生多模態的通用VLA模型

在具身推理能力的基礎上，DeepMind團隊引入了 Gemini Robotics，這是一種新的 SOTA 視覺-語言-動作 (VLA) 模型。這是一個非常強大的通用模型，能夠執行非常靈巧的任務，同時仍遵循指令并進行概括。

耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！-AI.x社區圖片

Gemini Robotics 已經是一款突破性的預訓練通用 VLA，但這還不是全部！研究團隊還展示了它如何輕松地專門用于長距離靈活性、高級推理、快速適應新任務，并轉移到全新的機器人化身（如人形機器人）。

Ted Xiao表示：“很難描述體驗通用 VLA 行動策略、強大的具身推理世界知識和 Gemini 2.0 --的原生多模態性的結合是多么神奇，這些的交互性和凝聚力整合非常有意義。”

耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！-AI.x社區圖片

七大創新，定義機器人世界的原生多模態通用SOTA

整體看下來，Gemini Robotics 有以下7個創新點：

1.長時序復雜任務通過進一步的微調，Gemini Robotics 能夠解決更復雜的長時序任務，例如折紙、玩牌游戲等。在這些任務中，Gemini Robotics 的成功率顯著高于其他基線模型，甚至在一些任務中達到了 100% 的成功率。

2. 快速適應新任務在技術報告中展示了 Gemini Robotics 在通過少量演示數據快速適應新任務方面的能力。在多個短時序任務中，Gemini Robotics 只需 100 個演示數據即可達到超過 70% 的成功率，顯示出強大的學習能力。

3. 適應新機器人形態Gemini Robotics 能夠通過少量數據適應全新的機器人形態，例如雙臂機器人和人形機器人。在這些新形態的機器人上，Gemini Robotics 的表現與專門的單任務模型相當，甚至在某些任務中表現更好。

4. 安全性和責任開發該項目在開發過程中遵循 Google AI 原則，確保模型的安全性和責任性。開發了安全策略，以防止模型生成有害內容或執行不安全的動作。通過 ASIMOV 數據集對模型進行了安全評估，確保其在物理世界中的行為符合人類的安全標準。

5. 模型架構和低延遲設計Gemini Robotics 由云端的 VLA 主干網絡和機器人本地的動作解碼器組成，能夠在低延遲下實現流暢的運動和實時控制。這種架構設計使得模型能夠在保持強大泛化能力的同時，實現高效的實時控制。

6. 多樣化任務的泛化能力Gemini Robotics 在多樣化任務中展現出強大的泛化能力，能夠處理從簡單抓取到復雜操作的各種任務。在多個任務中，Gemini Robotics 的成功率和進度得分顯著高于基線模型，尤其是在需要泛化能力的任務中。

7. 語言指令的精確跟隨Gemini Robotics 能夠精確地遵循自然語言指令，即使在包含新物體和復雜指令的場景中也能表現出色。在多個語言指令跟隨任務中，Gemini Robotics 的成功率顯著高于其他基線模型，顯示出其在語言理解和執行方面的強大能力。

耗時一年半摸索出物理世界通用大模型的基本路線

如此先進的模型遠比訓練微調一個定制模型那么簡單，據Ted Xiao介紹，這個項目耗時一年半！整個過程非常有趣：從基本的前沿模型多模態能力，到先進的具身推理，再到機器人低級控制。《Gemini Robotics: Bringing AI into the Physical World》的作者包括來自 Google DeepMind 的研究團隊成員，多達116位。

耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！-AI.x社區圖片

具身智能們都在“卷”這三件事

最近，具身智能領域的驚喜頻頻！

從稚暉君靈犀X2機器人刷屏的“騎自行車”“針縫葡萄”，到今天谷歌推出兩款SOTA級別的具身智能模型。

其實，具身智能們都在緊鑼密鼓地卷這三件事，以讓AI機器人真正有用：

通用性（Generality）：能夠適應不同場景并解決多種任務，包括訓練時未見過的任務。
交互性（Interactivity）：能夠理解并迅速響應指令，適應環境變化。
靈巧性（Dexterity）：能夠執行需要精細操作的任務，例如精準操控物體。

耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！-AI.x社區圖片

稚暉君則將這三個方向總結為：運動智能（靈巧性）、交互智能（交互性）、和作業智能（通用性）。

耗時一年半！谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！-AI.x社區圖片

在通用性方面，未來的目標聚焦在零樣本泛化能力上。稚暉君介紹，靈犀X2目前已具備簡單任務的零樣本泛化能力。而Gemini Robotics 則依托 Gemini 的世界知識實現了這一點。任務的零樣本泛化賦予機器人“隨機應變”的能力，真正能處理新物體、復雜指令和未知環境。

在交互性方面，則要依靠模型能力的提升。無論是靈犀X2定制的多模態交互大模型硅光動語，還是Gemini Robotics從Gemini 2.0上獲取了強大的語言理解能力，都是為了讓機器人在協作過程中更加自然、流暢。

在靈巧性方面，考驗的是機器人精細操作的能力，除了模型大腦的指揮要到位以外，硬件和材料的更新也同樣重要。現在，Gemini Robotics 已經勝任了折紙、將零食裝入密封袋等，需要高度精準的多步操作，但每步動作的流暢度還有很大提升空間。

寫在最后

隨著具身智能領域的進展，通用性、交互性和靈巧性已成為共識。無論是Google推出的Gemini Robotics，還是稚暉君的靈犀X2，機器人都在這些核心領域持續突破，讓我們離真正的智能機器人越來越近。

去年，Google發布了“機器人憲章”，內容就受到阿西莫夫機器人三定律的啟發。我們有理由相信，這波科技浪潮的涌動，正在把我們帶向一個科幻世界。

或許，下一個出現在我們身邊的“機器人伙伴”，就是那個帶領我們進入新時代的智能使者。

參考鏈接：

1.https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

2.https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models?utm_source=chatgpt.com

本文轉載自??51CTO技術棧??，作者：云昭、伊風

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

谷歌

SOTA

機器人

已于2025-3-13 14:30:09修改

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂