成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

谷歌將大模型集成在實(shí)體機(jī)器人中，能看、聽、說執(zhí)行57種任務(wù)

發(fā)布于 2024-8-23 08:47

瀏覽

0收藏

谷歌DeepMind在社交平臺(tái)分享了最新研究，將大模型Gemini 1.5 Pro集成在實(shí)體機(jī)器人中，為其提供導(dǎo)航、推理等服務(wù)。

由于缺乏高級(jí)認(rèn)知、學(xué)習(xí)能力、語義理解以及數(shù)據(jù)存儲(chǔ)等，傳統(tǒng)機(jī)器人的“回憶能力”較差，無法提供更人性化的服務(wù)。而Gemini 1.5 Pro提供的100萬Tokens上下文長(zhǎng)度，可有效解決這些難題，通過語音對(duì)話的方式將能讓機(jī)器人執(zhí)行各種任務(wù)同時(shí)具備回憶的能力。

根據(jù)谷歌的測(cè)試結(jié)果顯示，在Gemini 1.5 Pro的幫助下，在836平方米的真實(shí)測(cè)試空間中，讓實(shí)體機(jī)器人執(zhí)行了57種四大類型的指令任務(wù)，成功率平均在71%左右。

論文地址：https://arxiv.org/abs/2407.07775

谷歌將大模型集成在實(shí)體機(jī)器人中，能看、聽、說執(zhí)行57種任務(wù)-AI.x社區(qū)

谷歌將大模型集成在實(shí)體機(jī)器人中，能看、聽、說執(zhí)行57種任務(wù)-AI.x社區(qū)

研究人員在Gemini 1.5 Pro的文本、圖像、音頻等能力基礎(chǔ)之上，開發(fā)了多模態(tài)視覺語言導(dǎo)航模型Mobility VLA。

在Mobility VLA模型中，Gemini 1.5 Pro會(huì)被用來理解用戶的多模態(tài)指令。這些指令包括自然語言描述、圖像或者二者的結(jié)合，例如，當(dāng)用戶手持一個(gè)物品并詢問“我應(yīng)該把這個(gè)放在哪里？”時(shí)，Gemini 1.5 Pro需要能夠理解這一指令的語義內(nèi)容，識(shí)別出用戶手中的物品。

谷歌將大模型集成在實(shí)體機(jī)器人中，能看、聽、說執(zhí)行57種任務(wù)-AI.x社區(qū)

在理解了用戶的語言指令后，接下來Gemini 1.5 Pro會(huì)在示范旅游視頻中定位與指令相關(guān)的目標(biāo)幀。

一些示范數(shù)據(jù)提供了環(huán)境的先驗(yàn)知識(shí)，Gemini 1.5 Pro通過分析這些視頻，能夠識(shí)別出與用戶指令相匹配的場(chǎng)景，并深入分析和對(duì)用戶指令的精確匹配，確保機(jī)器人能夠準(zhǔn)確地導(dǎo)航到正確的位置。

谷歌將大模型集成在實(shí)體機(jī)器人中，能看、聽、說執(zhí)行57種任務(wù)-AI.x社區(qū)

在確定了目標(biāo)幀后，Gemini 1.5 Pro的輸出將被用作Mobility VLA低層策略的輸入。

低層策略主要負(fù)責(zé)生成實(shí)體機(jī)器人的實(shí)際各種動(dòng)作，包括前進(jìn)、后退或轉(zhuǎn)向。Gemini 1.5 Pro通過其長(zhǎng)上下文處理能力，能夠在整個(gè)視頻的背景下識(shí)別出最合適的目標(biāo)幀，并將這些信息傳遞給低層策略，從而幫助機(jī)器人生成精確的導(dǎo)航路徑。

谷歌將大模型集成在實(shí)體機(jī)器人中，能看、聽、說執(zhí)行57種任務(wù)-AI.x社區(qū)

此外，Gemini 1.5 Pro在Mobility VLA模型中的作用不僅限于理解用戶指令和定位目標(biāo)。憑借其超長(zhǎng)的上下文處理能力，還有助于提升導(dǎo)航的準(zhǔn)確性和魯棒性。

在復(fù)雜的真實(shí)環(huán)境中，機(jī)器人可能會(huì)遇到各種意外情況，例如，遭遇座椅等障礙物或?qū)崟r(shí)的環(huán)境變化。Gemini 1.5 Pro能夠通過其對(duì)環(huán)境的深度理解，幫助機(jī)器人快速適應(yīng)這些變化，對(duì)接下來的行動(dòng)指令做出準(zhǔn)確判斷，在面對(duì)復(fù)雜和動(dòng)態(tài)的環(huán)境時(shí)，仍能保持高效的導(dǎo)航性能。

谷歌將大模型集成在實(shí)體機(jī)器人中，能看、聽、說執(zhí)行57種任務(wù)-AI.x社區(qū)

為了測(cè)試Mobility VLA在實(shí)體機(jī)器人的幫助能力，研究人員構(gòu)建了一個(gè)836平方米的真實(shí)空間，里面有架子、桌子、椅子等各種日常家具，還使用了無需推理、需要推理、多模態(tài)等多種類型指令進(jìn)行了綜合測(cè)試。

實(shí)驗(yàn)結(jié)果顯示，在無需推理的20個(gè)指令中，機(jī)器人的成功率達(dá)到了80%，顯示出其在處理直接且明確的導(dǎo)航任務(wù)時(shí)的高效性。

在需要推理的15個(gè)指令中，機(jī)器人也達(dá)到了80%的成功率，這證明了其在理解和處理復(fù)雜用戶指令方面擁有相當(dāng)出色的能力。

盡管在小物體類別都得12個(gè)指令中，成功率略有下降至40%，但這也在一定程度上反映了小物體識(shí)別的挑戰(zhàn)性。而在多模態(tài)的10個(gè)指令中，機(jī)器人的成功率再次提升至85%，顯示了其在整合視覺和語言信息方面的優(yōu)勢(shì)。

本文轉(zhuǎn)自 AIGC開放社區(qū) ，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/YQaPG08Xy0HYtear_McUKg??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

ChatGPT實(shí)體化了！手機(jī)變身ChatGPT實(shí)體機(jī)器人，只需一個(gè)配件，能說話還會(huì)做夢(mèng)，真的牛！

pangguiyu ? 4423瀏覽 ? 0回復(fù)
大模型一定就比小模型好？谷歌的這項(xiàng)研究說不一定

輕薄滴假象 ? 2924瀏覽 ? 0回復(fù)
谷歌 DeepMind CEO Hassabis 暢談 Gemini、Scalin Law、通用機(jī)器人、大模型開源、超級(jí)人工智能

lintoms ? 2837瀏覽 ? 0回復(fù)
Meta NLLB團(tuán)隊(duì)：將神經(jīng)機(jī)器翻譯擴(kuò)展到200種語言，問鼎Nature！

AIGC最前線 ? 3943瀏覽 ? 0回復(fù)
探討 | 大模型在傳統(tǒng)NLP任務(wù)的使用姿勢(shì)

NLP工作站 ? 3886瀏覽 ? 0回復(fù)
大型語言模型與智能機(jī)器人集成的調(diào)查研究

AIRoobt ? 3397瀏覽 ? 0回復(fù)
蘋果開源視覺模型界的“瑞士軍刀”，能執(zhí)行數(shù)十種任務(wù)

Aceryt ? 3326瀏覽 ? 0回復(fù)
大型語言模型（LLM）在機(jī)器人領(lǐng)域的機(jī)遇、挑戰(zhàn)與展望

AIRoobt ? 5793瀏覽 ? 0回復(fù)
新版PyTorch：AI任務(wù)加速與Intel GPU集成

魯班模錘1 ? 3211瀏覽 ? 0回復(fù)
LLM+P：賦予大語言模型最佳機(jī)器人規(guī)劃能力

AIRoobt ? 3145瀏覽 ? 0回復(fù)
大模型在機(jī)器人領(lǐng)域的應(yīng)用：機(jī)遇、挑戰(zhàn)與前景

AIRoobt ? 4707瀏覽 ? 0回復(fù)
訓(xùn)練模擬人形機(jī)器人的五種強(qiáng)化學(xué)習(xí)技術(shù)大PK

51CTO內(nèi)容精選 ? 3900瀏覽 ? 0回復(fù)
豐田、波士頓動(dòng)力聯(lián)手開發(fā)，實(shí)體大型行為模型機(jī)器人

Aceryt ? 2193瀏覽 ? 0回復(fù)
探討 | 大模型在傳統(tǒng)NLP任務(wù)的使用姿勢(shì)

NLP工作站 ? 3272瀏覽 ? 0回復(fù)
將大語言模型集成到現(xiàn)有軟件系統(tǒng)的完整指南

51CTO內(nèi)容精選 ? 3312瀏覽 ? 0回復(fù)
使用大模型實(shí)現(xiàn)一個(gè)聊天機(jī)器人思路以及困難點(diǎn)

AI探索時(shí)代 ? 2906瀏覽 ? 0回復(fù)
12個(gè)真實(shí)世界機(jī)器人任務(wù)成功率超OpenVLA 24.17% | EMMA-X：7B具身多模態(tài)動(dòng)作模型

angel ? 3783瀏覽 ? 0回復(fù)
機(jī)器人ChatGPT時(shí)刻！英偉達(dá)開源世界大模型，完美模擬物理世界！

Aceryt ? 3340瀏覽 ? 0回復(fù)
為什么大模型在 OCR 任務(wù)上表現(xiàn)不佳？

Baihai_IDP ? 1369瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來啦 2025-04-24 09:57:36發(fā)布
字節(jié)跳動(dòng)開源多模態(tài)AI Agent—UI-TARS-1.5 2025-04-23 11:55:00發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當(dāng)，實(shí)測(cè)來了 0回復(fù)

上一篇：谷歌通過數(shù)據(jù)增強(qiáng)、對(duì)比調(diào)優(yōu)，減少多模態(tài)模型幻覺

下一篇：美國(guó)律師協(xié)會(huì)：ChatGPT等生成式AI，能幫助律師提升效率

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：色呦呦在线 | 国产激情在线 | 中文字幕一区二区三区日韩精品 | 欧美成年黄网站色视频 | 精品一二区| 国产高清视频一区 | 亚洲视频欧美视频 | 操操操日日日 | 三级av在线| 狠狠色狠狠色综合日日92 | 日韩精品亚洲专区在线观看 | 午夜精品一区二区三区三上悠亚 | 色爱av | 精品美女在线观看视频在线观看 | 视频一区二区三区中文字幕 | 日韩在线观看一区 | 国产精品乱码一区二区三区 | 国产精品一区二区不卡 | 国产免费一区二区三区 | 久久精品国产一区二区三区 | 羞羞视频在线观看免费观看 | 午夜影院视频在线观看 | 99热国产精品 | 成人在线小视频 | 九九热在线免费视频 | 国产三区精品 | 亚洲午夜精品久久久久久app | 亚洲3级| 国产91丝袜 | 欧美一级一| 黄色网址大全在线观看 | 国产精品视频在线免费观看 | 国产成人免费视频网站视频社区 | 午夜精品一区二区三区免费视频 | 国产农村妇女毛片精品久久麻豆 | 亚洲精品久久久久久久久久久久久 | 中文字幕一区二区三区四区五区 | 日本精品一区二区 | 国产亚洲一区二区三区在线观看 | 欧美日韩一区二区三区在线观看 | 日本成人在线观看网站 |

<object id="kqzne"></object>

<th id="kqzne"><pre id="kqzne"></pre></th>

<s id="kqzne"></s>

<center id="kqzne"></center>

<strike id="kqzne"></strike>