成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴! 原創

發布于 2025-3-13 13:33
瀏覽
0收藏

出品 | 51CTO技術棧(微信號:blog51cto)

想知道世界SOTA級別的模型用在物理世界中有多震撼嗎?Google DeepMind做了一件破天荒的事情。

大模型自爆火以來,已經過去兩年多,但在物理世界中真正能轉化為機器人行為,還是一個世界級難題。如何讓機器人理解物理世界,并能與之安全、高效地交互也是各大科技巨頭一直在研究的兩大前沿命題。

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!-AI.x社區圖片

這一次,以Google DeepMind為主導的研究團隊投入了近120名研究人員,耗時一年半,一次性給這兩個命題做出了突破性的進展。

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!-AI.x社區

新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!網友:億些震撼!51CTO技術棧已關注分享點贊在看已同步到看一看寫下你的評論 視頻詳情

先來看看DeepMind重磅推出的兩大模型:Gemini Robotics-ER 和 Gemini Robotics。

首先,Gemini Robotics-ER(Embodied Reasoning):這是一個增強版的多模態模型,專注于物理世界的推理能力,包括物體檢測、軌跡預測、抓取預測和 3D 理解等。

其次,Gemini Robotics:這是基于 Gemini Robotics-ER 的 VLA 模型,能夠直接控制機器人,執行復雜的操作任務,并支持零樣本和少樣本學習,同時在不同環境中表現出強大的泛化能力。

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!-AI.x社區圖片

可以說,谷歌DeepMind把“通用大模型用在機器人領用“重新立了一個領先的樣板。

進廠給齒輪套個皮圈,完全無壓力:

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!-AI.x社區圖片

可以和人類玩家下井字棋,水平還不低:

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!-AI.x社區圖片

甚至可以疊個千紙鶴:

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!-AI.x社區圖片

網友看完展示的demo感受到億些震撼,直接說:

我一直認為阿西莫夫的機器人定律("機器人不得傷害人類 "等)是科幻小說中的一個有趣道具,與計算和機器人技術的實際工作方式完全脫節。原來,他只是在寫大模型的提示語。

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!-AI.x社區圖片

Gemini 2.0 的物理世界推理能力究竟有多強?

用大模型解決機器人問題就需要讓其全面了解物理世界。GoogleDeepmind華人研究員Ted Xiao表示,“多模態模型是解決這一難題的關鍵部分,因此我們從最強大的模型-- Gemini 2.0 開始。我們利用新的具身推理問答 (ERQA) 基準來驗證 Gemini 的真實世界知識。”

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!-AI.x社區圖片

這里需要注意,具身問答推理ERQA是DeepMind團隊研發的一套新基準,用于評估多模態模型的物理世界推理能力。Gemini 2.0 在該基準測試中表現出色,顯示出其在空間推理、軌跡推理和動作推理等方面的能力。

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!-AI.x社區圖片

究竟Geimini2.0有多厲害?可以看下測試詳情和表現:

  • 2D 和 3D 物體檢測:Gemini 2.0 能夠通過自然語言指令檢測圖像中的物體,并提供精確的 2D 和 3D 邊界框。
  • 指向和軌跡預測:模型能夠根據語言描述指向特定物體或空間位置,并生成 2D 軌跡。
  • 抓取預測:Gemini Robotics-ER 增強了 Gemini 2.0 的抓取預測能力,使其能夠預測物體的抓取點。

開啟具身推理時代:Gemini Robotics-ER徹底解鎖了機器人雙手的鐐銬

Gemini Robotics-ER(具身推理)是 Gemini 2.0 的增強版,以機器人技術所需的方式增強了其空間和時間理解能力。這就解鎖了機器人在指向、多視圖和 3D 理解以及抓握預測等基本功能。

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!-AI.x社區圖片

它牛在何處呢?簡單來說,這個模型的目標是讓機器人理解復雜的、動態的世界。

以打包午餐盒為例,這種任務哪怕幾歲的小孩都能輕松的完成。

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!-AI.x社區圖片

但訓練一個機器人完成同樣的工作,涉及的問題就多了:當桌上擺放著多個物品時,需要知道每樣物品的準確位置、如何打開午餐盒、如何抓取物品、以及如何正確擺放它們,才能夠完成整個工作。

最令人可貴的是,該模型可以直接用于機器人應用,端到端機器人控制能力。據介紹,Gemini Robotics-ER 可以執行開箱即用控制機器人所需的所有步驟,包括感知、狀態估計、空間理解、規劃和代碼生成。

在這樣的端到端設置中,與 Gemini 2.0 相比,該模型實現了 2 到 3 倍的成功率。

在代碼生成不足的情況下,Gemini Robotics-ER 甚至可以利用上下文學習的力量,機器人還能通過上下文學習,借鑒少量人類示范來生成解決方案。真的是越來越聰明了!

一個明顯的例子是,Gemini Robotics-ER 結合了空間推理和 Gemini 的編碼能力,可以動態實例化全新的功能。

例如,當展示一個咖啡杯時,模型可以憑直覺判斷出適當的雙指抓握以通過手柄拾取它,并可以安全地接近它。

而且,如果代碼生成無法完全滿足需求,機器人還能通過上下文學習,借鑒少量人類示范來生成解決方案。真的是越來越聰明了!

此外,模型可以連接到現有的 低級控制器(robot low-level controllers,例如,馬達、傳感器、執行器),從而解鎖 Gemini Robotics-ER 賦能的新功能。

舉個例子來說,無論機器人配備的是兩個機械手指還是靈巧手,Gemini Robotics-ER 都能提供所需的推理結果,幫助機器人識別最佳的抓取位置等,從而順利完成目標動作。

從Robotics-ER驗證了一件事:具身智能自己做模型,而不是直接接入主流模型,是有很意義的!

新SOTA模型誕生:Gemini Robotics !原生多模態的通用VLA模型

在具身推理能力的基礎上,DeepMind團隊引入了 Gemini Robotics,這是一種新的 SOTA 視覺-語言-動作 (VLA) 模型。這是一個非常強大的通用模型,能夠執行非常靈巧的任務,同時仍遵循指令并進行概括。

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!-AI.x社區圖片

Gemini Robotics 已經是一款突破性的預訓練通用 VLA,但這還不是全部!研究團隊還展示了它如何輕松地專門用于長距離靈活性、高級推理、快速適應新任務,并轉移到全新的機器人化身(如人形機器人)。

Ted Xiao表示:“很難描述體驗通用 VLA 行動策略、強大的具身推理世界知識和 Gemini 2.0 --的原生多模態性的結合是多么神奇,這些的交互性和凝聚力整合非常有意義。”

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!-AI.x社區圖片

七大創新,定義機器人世界的原生多模態通用SOTA

整體看下來,Gemini Robotics 有以下7個創新點:

1.長時序復雜任務通過進一步的微調,Gemini Robotics 能夠解決更復雜的長時序任務,例如折紙、玩牌游戲等。在這些任務中,Gemini Robotics 的成功率顯著高于其他基線模型,甚至在一些任務中達到了 100% 的成功率。

2. 快速適應新任務在技術報告中展示了 Gemini Robotics 在通過少量演示數據快速適應新任務方面的能力。在多個短時序任務中,Gemini Robotics 只需 100 個演示數據即可達到超過 70% 的成功率,顯示出強大的學習能力。

3. 適應新機器人形態Gemini Robotics 能夠通過少量數據適應全新的機器人形態,例如雙臂機器人和人形機器人。在這些新形態的機器人上,Gemini Robotics 的表現與專門的單任務模型相當,甚至在某些任務中表現更好。

4. 安全性和責任開發該項目在開發過程中遵循 Google AI 原則,確保模型的安全性和責任性。開發了安全策略,以防止模型生成有害內容或執行不安全的動作。通過 ASIMOV 數據集對模型進行了安全評估,確保其在物理世界中的行為符合人類的安全標準。

5. 模型架構和低延遲設計Gemini Robotics 由云端的 VLA 主干網絡和機器人本地的動作解碼器組成,能夠在低延遲下實現流暢的運動和實時控制。這種架構設計使得模型能夠在保持強大泛化能力的同時,實現高效的實時控制。

6. 多樣化任務的泛化能力Gemini Robotics 在多樣化任務中展現出強大的泛化能力,能夠處理從簡單抓取到復雜操作的各種任務。在多個任務中,Gemini Robotics 的成功率和進度得分顯著高于基線模型,尤其是在需要泛化能力的任務中。

7. 語言指令的精確跟隨Gemini Robotics 能夠精確地遵循自然語言指令,即使在包含新物體和復雜指令的場景中也能表現出色。在多個語言指令跟隨任務中,Gemini Robotics 的成功率顯著高于其他基線模型,顯示出其在語言理解和執行方面的強大能力。

耗時一年半摸索出物理世界通用大模型的基本路線

如此先進的模型遠比訓練微調一個定制模型那么簡單,據Ted Xiao介紹,這個項目耗時一年半!整個過程非常有趣:從基本的前沿模型多模態能力,到先進的具身推理,再到機器人低級控制。《Gemini Robotics: Bringing AI into the Physical World》的作者包括來自 Google DeepMind 的研究團隊成員,多達116位。

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!-AI.x社區圖片

具身智能們都在“卷”這三件事

最近,具身智能領域的驚喜頻頻!

從稚暉君靈犀X2機器人刷屏的“騎自行車”“針縫葡萄”,到今天谷歌推出兩款SOTA級別的具身智能模型。

其實,具身智能們都在緊鑼密鼓地卷這三件事,以讓AI機器人真正有用:

  • 通用性(Generality):能夠適應不同場景并解決多種任務,包括訓練時未見過的任務。
  • 交互性(Interactivity):能夠理解并迅速響應指令,適應環境變化。
  • 靈巧性(Dexterity):能夠執行需要精細操作的任務,例如精準操控物體。

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!-AI.x社區圖片

稚暉君則將這三個方向總結為:運動智能(靈巧性)、交互智能(交互性)、和作業智能(通用性)。

耗時一年半!谷歌新定義具身通用最強SOTA,轟動硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!-AI.x社區圖片

在通用性方面,未來的目標聚焦在零樣本泛化能力上。稚暉君介紹,靈犀X2目前已具備簡單任務的零樣本泛化能力。而Gemini Robotics 則依托 Gemini 的世界知識實現了這一點。任務的零樣本泛化賦予機器人“隨機應變”的能力,真正能處理新物體、復雜指令和未知環境。

在交互性方面,則要依靠模型能力的提升。無論是靈犀X2定制的多模態交互大模型硅光動語,還是Gemini Robotics從Gemini 2.0上獲取了強大的語言理解能力,都是為了讓機器人在協作過程中更加自然、流暢。

在靈巧性方面,考驗的是機器人精細操作的能力,除了模型大腦的指揮要到位以外,硬件和材料的更新也同樣重要。現在,Gemini Robotics 已經勝任了折紙、將零食裝入密封袋等,需要高度精準的多步操作,但每步動作的流暢度還有很大提升空間。

寫在最后

隨著具身智能領域的進展,通用性、交互性和靈巧性已成為共識。無論是Google推出的Gemini Robotics,還是稚暉君的靈犀X2,機器人都在這些核心領域持續突破,讓我們離真正的智能機器人越來越近。

去年,Google發布了“機器人憲章”,內容就受到阿西莫夫機器人三定律的啟發。我們有理由相信,這波科技浪潮的涌動,正在把我們帶向一個科幻世界。

或許,下一個出現在我們身邊的“機器人伙伴”,就是那個帶領我們進入新時代的智能使者。

參考鏈接:

1.https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

2.https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models?utm_source=chatgpt.com

本文轉載自??51CTO技術棧??,作者:云昭、伊風


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-3-13 14:30:09修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲精品一区二区三区蜜桃久 | www.天天操 | 国产乱码久久久久久 | 在线观看亚洲一区二区 | 精品小视频| av国产精品毛片一区二区小说 | 久久r精品 | 超碰人人91 | 久久久久久久一区二区三区 | 欧美精品一区在线 | 91视频电影| 91社区在线观看高清 | 欧美日韩高清在线观看 | 中文字幕亚洲一区 | 国产电影一区二区在线观看 | 久久精品中文 | 亚洲欧美中文日韩在线v日本 | 亚洲精品视频在线播放 | 欧美黄在线观看 | 亚洲视频免费在线 | 51ⅴ精品国产91久久久久久 | 国产高清一区二区三区 | 日韩精品免费视频 | 涩爱av一区二区三区 | 日本不卡免费新一二三区 | 欧美综合久久 | 色婷综合网 | 久久精品国产亚洲a | 国产成人免费视频网站高清观看视频 | 天天综合成人网 | 极品的亚洲 | 精品少妇一区二区三区日产乱码 | 韩日在线视频 | 在线观看一区 | 亚洲高清在线 | 国产小u女发育末成年 | 久久久九九九九 | 欧美成视频 | 91中文在线观看 | 中文字幕一区二区三区乱码在线 | 一区二区三区视频在线观看 |