成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

李飛飛「空間智能」之后,上交、智源、北大等提出空間大模型SpatialBot

人工智能 新聞
來自上交、斯坦福、智源、北大、牛津、東大的研究者提出了空間大模型 SpatialBot,并提出了訓(xùn)練數(shù)據(jù) SpatialQA 和測(cè)試榜單 SpatialBench, 嘗試讓多模態(tài)大模型在通用場景和具身場景下理解深度、理解空間。

本文第一作者為斯坦福大學(xué)研究生蔡聞驍,此前,他以績點(diǎn)第一名的成績?cè)跂|南大學(xué)取得學(xué)士學(xué)位。他的研究興趣為多模態(tài)大模型、具身智能。此工作為其在上海交通大學(xué)訪問和北京智源人工智能研究院實(shí)習(xí)期間完成,導(dǎo)師為本文通訊作者趙波教授。

此前,李飛飛老師提出了空間智能 (Spatial Intelligence) 這一概念,作為回應(yīng),來自上交、斯坦福、智源、北大、牛津、東大的研究者提出了空間大模型 SpatialBot,并提出了訓(xùn)練數(shù)據(jù) SpatialQA 和測(cè)試榜單 SpatialBench, 嘗試讓多模態(tài)大模型在通用場景和具身場景下理解深度、理解空間。

圖片

  • 論文標(biāo)題: SpatialBot: Precise Depth Understanding with Vision Language Models
  • 論文鏈接: https://arxiv.org/abs/2406.13642
  • 項(xiàng)目主頁: https://github.com/BAAI-DCAI/SpatialBot

在具身智能的 pick and place 任務(wù)中,需要判斷機(jī)械爪是否碰到了目標(biāo)物體。如果碰到,則可以合上爪子抓取。然而,在這個(gè) Berkerly UR5 Demonstration Dataset 場景中,即使是 GPT-4o 或人類,都無法從單張 RGB 圖像中判斷機(jī)械爪是否碰到了目標(biāo)物體,比如借助深度信息,將深度圖直接給 GPT-4o 看的話,也無法判斷,因?yàn)樗荒芾斫馍疃葓D。

SpatialBot 通過對(duì) RGB-Depth 的理解,可以準(zhǔn)確獲得機(jī)械爪和目標(biāo)物體的深度值,從而產(chǎn)生對(duì)空間概念的理解。

圖片

具身場景的 SpatialBot Demo:

1. 以人 (相機(jī)) 的視角,抓取右側(cè)的茶杯

2. 抓取最中間的茶杯

作為走向具身智能的必要路徑,如何讓大模型理解空間?

點(diǎn)云比較貴,雙目相機(jī)在使用中需要經(jīng)常校準(zhǔn)。相比之下,深度相機(jī)價(jià)格可以接受、使用范圍廣。在通用場景中,即使沒有這樣的硬件設(shè)備,大規(guī)模無監(jiān)督訓(xùn)練過的深度估計(jì)模型已經(jīng)可以提供較為準(zhǔn)確的深度信息。因此,作者提出,使用 RGBD 作為空間大模型的輸入。

目前的技術(shù)路線存在什么問題?

  1. 現(xiàn)有模型無法直接理解深度圖輸入。比如,圖像編碼器 CLIP/SigLIP 在 RGB 圖像上訓(xùn)練,沒有見過深度圖。
  2. 現(xiàn)有大模型數(shù)據(jù)集,大多僅用 RGB 就可以分析、回答。因此,如果僅僅簡單的將現(xiàn)有數(shù)據(jù)改為 RGBD 輸入,模型不會(huì)主動(dòng)到深度圖中索引知識(shí)。需要專門設(shè)計(jì)任務(wù)和 QA,引導(dǎo)模型理解深度圖、使用深度信息。

三個(gè)層次的 SpatialQA,逐步引導(dǎo)模型理解深度圖、使用深度信息

如何引導(dǎo)模型理解和使用深度信息,理解空間?

作者提出具有三個(gè)層次的 SpatialQA 數(shù)據(jù)集。

  1. 在 low level 引導(dǎo)模型理解深度圖,引導(dǎo)從深度圖直接獲取信息;
  2. 在 middle level 讓模型將 depth 與 RGB 對(duì)齊;
  3. 在 high level 設(shè)計(jì)多個(gè)深度相關(guān)任務(wù),標(biāo)注了 50k 的數(shù)據(jù),讓模型在理解深度圖的基礎(chǔ)上,使用深度信息完成任務(wù)。任務(wù)包括:空間位置關(guān)系,物體大小,物體接觸與否,機(jī)器人場景理解等。

示例對(duì)話

SpatialBot 包含什么?

1. 借鑒 agent 中的思想,SpatialBot 在需要時(shí),可以通過 API 獲取準(zhǔn)確的深度信息。在深度信息獲取、遠(yuǎn)近關(guān)系比較的任務(wù)上,可以達(dá)到 99%+ 的準(zhǔn)確率。

2. 針對(duì)空間理解任務(wù),作者公布了 SpatialBench 榜單。通過精心設(shè)計(jì)和標(biāo)注 QA,測(cè)試模型深度理解能力。SpatialBot 在榜單上展示了和 GPT-4o 接近的能力。

模型如何理解深度圖?

1. 輸入模型的深度圖:為了兼顧室內(nèi)室外任務(wù),需要統(tǒng)一的深度圖編碼方式。室內(nèi)的抓取、導(dǎo)航任務(wù)可能需要毫米級(jí)的精確度,室外的場景不需要這么精準(zhǔn),卻可能需要 100 米以上的深度值范圍。傳統(tǒng)視覺任務(wù)中會(huì)用 Ordinal Encoding 來編碼,但是 ordinal 的值無法進(jìn)行加減運(yùn)算。為了盡可能保留所有深度信息,SpatialBot 直接使用以毫米為單位的 metric depth,范圍為 1mm~131m,使用 uint24 或三通道的 uint8 來保留這些值。

2. 為了精準(zhǔn)的獲取深度信息,借鑒 agents 中的思想,SpatialBot 在認(rèn)為有必要的時(shí)候,會(huì)以點(diǎn)的形式調(diào)用 DepthAPI,獲取準(zhǔn)確的深度值。若想獲取物體的深度,SpatialBot 會(huì)先思考物體的 bounding box 是什么,然后用 bounding box 的中心點(diǎn)調(diào)用 API。

3. SpatialBot 使用物體的中心點(diǎn)、深度平均、最大和最小四個(gè)值來描述深度。

SpatialBot 和 DepthAPI 架構(gòu)

SpatialBot 在通用場景和具身場景效果如何?

1. SpatialBot 基于 3B 到 8B 的多個(gè) base LLM。通過在 SpatialQA 中學(xué)習(xí)空間知識(shí),SpatialBot 在常用 MLLM 數(shù)據(jù)集 (MME、MMBench 等) 上同樣展示了顯著的效果提升。

2. 在 Open X-Embodiment、作者收集的機(jī)器人抓取數(shù)據(jù)等具身任務(wù)上,SpatialBot 同樣展示了驚人效果。

圖片

SpatialBot 通用場景對(duì)比實(shí)驗(yàn)

數(shù)據(jù)如何標(biāo)注?

精心設(shè)計(jì)了關(guān)于空間理解的問題,比如深度、遠(yuǎn)近關(guān)系、上下左右前后位置關(guān)系、大小關(guān)系,并且包含了具身中的重要問題,比如兩個(gè)物體是否接觸。

在測(cè)試集 SpatialBench 中,首先人工思考問題、選項(xiàng)和答案。為了擴(kuò)大測(cè)試集大小,也使用 GPT 以同樣的流程標(biāo)注。

訓(xùn)練集 SpatialQA 包含三方面: 

  1. 直接理解深度圖,讓模型看深度圖,分析深度的分布,猜測(cè)其中可能包含的物體; 
  2. 空間關(guān)系理解和推理;
  3. 機(jī)器人場景理解:描述 Open X-Embodiment 和本文收集的機(jī)器人數(shù)據(jù)中的場景、包含的物體、可能的任務(wù),并人工標(biāo)注物體、機(jī)器人的 bounding box。

空間關(guān)系理解

圖片

Open X-Embodiment 機(jī)器人場景理解

圖片

深度圖理解。在使用 GPT 標(biāo)注這部分?jǐn)?shù)據(jù)時(shí),GPT 會(huì)先看到深度圖,描述深度圖、推理其中可能包含的場景和物體,然后看到 RGB 圖,篩選出正確的描述和推理。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-12-13 14:20:00

AI模型訓(xùn)練

2024-09-23 15:20:00

2024-12-23 13:50:00

數(shù)據(jù)訓(xùn)練模型

2024-11-11 08:30:00

2024-09-03 14:30:00

機(jī)器人模型

2023-11-07 11:50:14

AI訓(xùn)練

2021-02-07 10:01:31

AI 數(shù)據(jù)人工智能

2024-12-23 12:37:34

2024-05-06 07:10:00

李飛飛智能空間

2024-12-05 09:53:18

智能體AI

2024-05-16 12:44:30

模型訓(xùn)練

2024-05-21 12:23:00

模型訓(xùn)練

2025-06-03 14:14:59

智能技術(shù)AI

2018-10-15 10:32:10

Linux操作系統(tǒng)命令

2025-02-08 09:30:00

2021-07-06 10:37:37

模型人工智能深度學(xué)習(xí)

2024-12-19 13:30:00

2024-12-19 15:08:58

2025-03-24 08:40:00

2021-04-21 10:18:25

人工智能機(jī)器學(xué)習(xí)技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 成人免费av在线 | 精品国产欧美一区二区三区成人 | 日韩中文字幕高清 | 久亚州在线播放 | 视频在线一区二区 | 亚洲欧美在线观看视频 | 操操操av | 国产午夜精品一区二区三区 | 一区二区三区四区国产 | 亚洲成人免费视频在线观看 | 天天综合亚洲 | 国产精品久久久久久久 | 另类专区成人 | 国产精品久久久久久吹潮 | 欧美色综合 | 亚洲精品一区二区三区免 | 成人午夜免费网站 | 久久久久久久电影 | av手机免费在线观看 | 精品国产18久久久久久二百 | 理论片午午伦夜理片影院 | 亚洲97 | 97在线播放 | 日韩福利| 免费成人高清 | 久草欧美 | 5060网一级毛片 | 久久久入口| 亚洲欧美中文字幕 | 国产精品一区二区久久久久 | 久久精品国产免费看久久精品 | 全免费a级毛片免费看视频免 | 一区二区国产在线观看 | 日韩精品1区2区3区 国产精品国产成人国产三级 | 亚洲精品一区av在线播放 | 国产高清视频在线观看播放 | 成人免费在线 | 成人免费三级电影 | 精品国产网 | 国产一区二区三区色淫影院 | 91视频在线观看 |