成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<input id="s4y6m"><strike id="s4y6m"></strike></input>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

上海AI實驗室造出首個「通才」機器人大腦：看懂世界+空間推理+精準操控全拿下

2025-06-06 08:52:00

人工智能新聞

上海人工智能實驗室聯合多家單位提出了一種全新的通用具身智能大腦框架：Visual Embodied Brain，簡稱VeBrain。

機器人的新大腦框架來了！

上海人工智能實驗室聯合多家單位提出了一種全新的通用具身智能大腦框架：Visual Embodied Brain，簡稱VeBrain。

該模型通過同時集成視覺感知、空間推理和機器人控制能力，可實現多模態大模型（MLLM）對物理實體的直接操控，使機器人能像人類一樣“看到-思考-行動”。

相比現有的MLLM和視覺-語言-動作(VLA)模型，VeBrain具備以下亮點：

統一三類任務的語言建模范式將機器人控制轉化為MLLM中常規的2D空間文本任務，通過關鍵點檢測與具身技能識別等任務，打通感知、推理、控制三大能力的建模路徑；
提出“機器人適配器”實現閉環控制由關鍵點追蹤、動作控制、技能執行和動態接管模塊組成，實現從文本決策到真實動作的精準映射；
構建高質量多能力數據集VeBrain-600k涵蓋60萬條指令數據，覆蓋多模態理解、視覺-空間推理、機器人操作三類任務，輔以多模態鏈式思維（Multimodal CoT）標注，提升模型組合推理能力；
卓越的多模態和真機性能同時實現匹配同參數量下最強開源模型QwenVL-2.5的多模態能力，同參數量下最優的空間推理能力，以及分別在機械臂和機器狗兩個實體上驗證的真機控制能力。

測試結果表明，VeBrain在視覺感知、空間推理和機器人控制能力上同時取得了最先進的性能。

VeBrain架構：統一感知-推理-控制建模范式

當前MLLM在多模態感知方面表現卓越，但難以直接遷移到機器人控制等物理任務中，主要瓶頸在于任務目標空間的不一致。

而VeBrain打破這一限制，提出將機器人控制重構為兩個通用MLLM子任務：

關鍵點檢測（Keypoint Detection）以圖像為輸入，預測二維目標位置，作為運動錨點；
技能識別（Skill Recognition）基于上下文生成語義動作，如“前進”、“夾取”、“轉身”等。

通過此類語言化的建模方式，VeBrain控制任務得以與理解和推理任務共享統一的輸入輸出空間，能夠有效對抗多任務沖突與災難性遺忘。

VeBrain的另一個核心創新是機器人適配器模塊，其組成包括：

點追蹤器(Point Tracker)實時更新四足機器人在運動過程中的視角下關鍵點；
運動控制器(Movement Controller)結合RGBD相機獲取深度信息，將2D坐標轉換為3D控制指令；
策略執行器(Skill Executor)調用預訓練的低層控制策略（如行走、夾?。┩瓿扇蝿請绦校?/span>
動態接管(Dynamic Takeover)在出現目標丟失或策略失敗時，自動回調語言模型進行重規劃。

該模塊實現了MLLM與機器人之間的閉環通信，提升了機器人在動態環境中的穩定性與魯棒性。

VeBrain-600k：統一訓練多能力模型的高質量數據集

為支撐模型的統一訓練，VeBrain團隊還配套了VeBrain-600k數據集，包含：

20萬條多模態理解數據：整合圖像、視頻與文本，來源于ShareGPT4V、MMInstruct等；
31.2萬條空間推理數據：結合ScanNet點云數據，生成涉及計數、距離、尺寸等空間理解任務；
8.8萬條機器人控制數據：由人工采集、標注的真實機器人操作數據，覆蓋四足機器人與機械臂兩類平臺；

此外，大量任務引入鏈式思維（Chain-of-Thought，CoT）結構，由GPT-4o與Gemini自動生成推理過程并經專家復核，極大提升了數據質量與任務復雜度。

通過消融實驗，VeBrain團隊驗證了VeBrain-600k數據集的豐富性和必要性。

從表格中可以看到，盡管在多模態理解方面表現良好，現有的MLLM在視覺空間推理和機器人控制方面往往表現不足，“復雜尋找”任務的成功率僅為0%。而在為模型配備我們的機器人適配器后，Qwen2.5-VL在兩個機器人控制任務上的成功率明顯提高。

將VeBrain與兩個常用框架，即MLLM和VLA進行比較，發現MLLM由于控制能力較弱，在兩項任務中難以直接控制機器人；而VLA雖然在機器人控制任務中表現良好，但大大犧牲了多模態能力。與這些框架相比，VeBrain在所有任務中實現了最佳權衡性能，相較于其他框架平均提升了31.5%。

性能測試結果：多模態理解+空間智能+機器人控制三位一體

VeBrain團隊在13個多模態benchmark和5個空間推理benchmark上測試了VeBrain的性能。結果表明，VeBrain實現了比肩當前最強開源模型Qwen2.5-VL的多模態能力，以及同參數量下最優的視覺空間推理能力。

可以看到，VeBrain在MMVet（+5.6%）、DocVQA（94.4分）等13個基準上超越GPT-4o和Qwen2.5-VL，并取得了77.1的最佳歸一化平均性能，這表明其具有更強的多模態能力。

模型需要強大的3D空間感知和推理能力來回答不同類型的問題，大多數先前方法采用了基于3D的MLLM結構，并在四個基準測試上取得了有希望的結果。

相比之下，直接將2DMLLM遷移到這些任務會導致性能差，例如Qwen2.5-VL-7B的-50.1Acc@0.25，這表明它們在3D空間理解和推理方面的不足。與這些方法相比，GPT4Scene-HDM通過基于視頻的2DMLLM和對象標記取得了更好的結果，但作為一個專業模型，GPT4Scene-HDM難以應用于常見的2D多模態任務。

而VeBrain作為一個通才MLLM，在3D場景問答（ScanQA CIDEr 101.5）和物體定位（ScanRefer Acc@0.25 66.4%）上刷新了紀錄，甚至在所有任務上都能超越GPT4Scene-HDM。

進一步診斷現有MLLM和VeBrain的視覺空間推理能力。可以看出，VeBrain在VSI基準測試中的平均得分優于所有現有的MLLM，例如，比Qwen2.5-VL-7B高出+4.0%。與GPT-4o等更大的MLLM相比，VeBrain也能表現更出色。

為了證明VeBrain的泛化性和通用性，選擇四足機器人和機械臂作為真機驗證的兩個實體?？梢钥吹?，在四足機器人尤其是復雜的長程任務上，VeBrain相比于現有的VLA模型和MLLM模型取得了+50%成功率的提升。

在機械臂尤其是長程任務上，VeBrain相比于π0模型也取得了顯著的提升。

論文鏈接：https://huggingface.co/papers/2506.00123/項目主頁：https://internvl.github.io/blog/2025-05-26-VeBrain/推理代碼&模型鏈接：https://internvl.github.io/blog/2025-05-26-VeBrain/

責任編輯：張燕妮來源：量子位

機器人智能推理

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：国产91视频一区二区 | 久久夜夜| 久久久久久黄 | 成人免费网站在线 | 国产在线一 | 国产精品揄拍一区二区久久国内亚洲精 | 黄色电影在线免费观看 | 在线资源视频 | 青青草原综合久久大伊人精品 | 久久久av | 丝袜亚洲欧美日韩综合 | 久久久国产一区二区三区 | 一本一道久久a久久精品综合蜜臀 | 亚洲欧洲精品成人久久奇米网 | 红桃视频一区二区三区免费 | 成人综合久久 | 久久成人一区 | 久久高清 | 精品视频99 | 亚洲欧美精品久久 | 久久久国产一区二区 | 久久久蜜臀国产一区二区 | 日韩欧美二区 | 久久久性色精品国产免费观看 | 日韩免费一区二区 | 亚州成人 | 精品在线一区二区 | 欧美激情国产日韩精品一区18 | 爱爱视频网 | 中文字幕黄色大片 | 色999视频 | 91精品国产乱码久久久久久久久 | 精品一区av | 国产精品美女久久久久久免费 | 午夜视频在线免费观看 | 在线伊人 | 日本人做爰大片免费观看一老师 | 久草热视频 | av网站免费看 | 国产福利资源在线 | 国产视频1区 |

<button id="sia6o"></button>