成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

3D VLA新范式!中科院&字節Seed提出BridgeVLA,斬獲CVPR 2025 workshop冠軍!

人工智能 新聞
中科院自動化所譚鐵牛團隊聯合字節跳動 Seed 推出 BridgeVLA,展示了一種全新的 3D VLA 范式,實現了模型能力與數據效率的同步飛躍,并斬獲了 CVPR 2025 GRAIL workshop 的 COLOSSEUM Challenge 冠軍。目前代碼與數據已經全面開源。

只需要三條軌跡,就能取得 96.8% 的成功率?視覺干擾、任務組合等泛化場景都能輕松拿捏?或許,3D VLA 操作新范式已經到來。

當前,接收 2D 圖像進行 Next Action Token 預測的「2D VLA」模型已經展現出了實現通用機器人操作的潛力;同時,接受 3D 信息作為輸入,并以下一時刻的關鍵幀作為輸出的「3D 操作策略」已被證明擁有極高的數據效率(≈10 條操作軌跡)。

那么,直覺上來講,一個好的「3D VLA」模型應該能夠綜合以上的優點,兼具 efficient 和 effective 的特點。然而,當前 3D VLA 的模型設計并未實現上述期待。

為了解決上述問題,中科院自動化所譚鐵牛團隊聯合字節跳動 Seed 推出 BridgeVLA,展示了一種全新的 3D VLA 范式,實現了模型能力與數據效率的同步飛躍,并斬獲了 CVPR 2025 GRAIL workshop 的 COLOSSEUM Challenge 冠軍。目前代碼與數據已經全面開源。

圖片

  • 論文標題:BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models
  • 論文鏈接:https://arxiv.org/abs/2506.07961
  • 項目主頁:https://bridgevla.github.io/

出發點:對齊 VLM 與 VLA

BridgeVLA 的核心理念是將預訓練和微調的輸入輸出對齊到統一的 2D 空間,從而「bridge」VLM 和 VLA 之間的 gap。從這個理念出發,作者認為不應該使用傳統 3D VLA 的 3D 位置編碼或 3D 信息注入,而是將 VLA 輸入與 VLM 對齊,即僅輸入圖片和文字指令。

同時,作者將模型的輸出方式從 Next token prediction 變更為 Heatmap prediction,通過這種方式,將輸出從無空間結構的 token 變成有空間結構的 2D Heatmap,既能充分利用 3D 空間結構先驗,又能將模型的輸入輸出進一步在 2D 空間中對齊。

圖片

預訓練:賦予 VLM 預測 2D Heatmap 的能力

在使用機器人數據進行微調之前,需要先通過預訓練以賦予 VLM 目標檢測的能力。為此,作者提出了一種新穎的可擴展預訓練方法:給模型輸入圖片-目標文本對,并提取模型的輸出中對應圖像的 token,再將這部分圖像 token 進行重新排列作為圖像的隱藏狀態,最后,通過可學習的凸上采樣方法將其還原成與輸入圖片相同大小的 Heatmap。通過交叉熵損失監督訓練模型,使其具有 Heatmap 預測的能力。通過這個 Heapmap 即可獲取被操作的目標物體的像素位置。

圖片

微調:賦予模型預測 Action 的能力

與 RVT、RVT-2 等典型的 3D 操作策略類似,BridgeVLA 通過預測關鍵點來得到下一時刻的動作。具體來說,BridgeVLA 采用場景的點云和指令文本作為原始輸入。但為了將微調過程的輸入與預訓練的輸入進行對齊,作者將點云從正面、上面、右側這三個方向進行正交投影,產生 3 張 2D 圖像輸入給模型。模型采用與預訓練相同的方式輸出 Heatmap 后,通過將 3 個 Heatmap 進行反投影,進而估計 3D 空間內所有結構化網格點的分數,并選用得分最高的點作為機械臂末端執行器的平移目標。對于旋轉、夾持器狀態以及碰撞檢測,BridgeVLA 將提取到的全局特征和局部特征進行拼接,然后輸入給 MLP 進行預測。

此外,BridgeVLA 沿用了由粗到細(Coarse-to-fine)的多級預測方式,通過對首次 Heatmap 預測的目標位置附近的點云進行放大和裁剪,并在裁剪后的點云上進行第二次前向傳播,從而獲得更加精細的位置預測。

仿真實驗:屠榜三項主流 3D 操作任務基準

RLBench:實驗在 18 個復雜的 RLBench 任務上進行,包括非抓取操作任務、抓取放置任務和高精度插入任務等。BridgeVLA 在此基準測試中顯著優于所有現有基線方法,將平均成功率從 81.4% 提高到 88.2%,并在 18 個任務中的 10 個中取得了最佳表現,尤其在需要高精度對齊的任務(如「Insert Peg」和「Sort Shape」)中表現突出。

圖片

COLOSSEUM:作為 RLBench 的擴展,COLOSSEUM 基準專注于評估模型在 12 種擾動(包括物體紋理、顏色、大小、背景、光照、干擾物和相機姿態變化等)下的泛化能力和魯棒性。BridgeVLA 在 COLOSSEUM 基準測試中展示了強大的魯棒性,平均成功率從 56.7% 提升到 64.0%,并在 14 種評估擾動中的 13 種中表現最佳。

圖片

GemBench:該測試基準分為四個挑戰性遞增的層次(L1-L4),涉及新穎的放置、剛性物體、關節物體以及需要組合多個動作才能完成的長周期任務。BridgeVLA 在這四個評估設置中取得了最高的平均成功率,尤其在 L2 和 L3 設置中取得了最先進的成果,證明了其強大的泛化能力。然而,與大多數基線方法類似,BridgeVLA 在 L4(長周期任務)設置中的表現仍然有限。

圖片

真實機器人實驗:遠超現有 Baseline

在真實世界評測中,作者設計了 13 個基本任務,并設計了 6 種不同的泛化性能測試(包括干擾物體、光照、背景、高度、組合和類別)以全面評估模型性能。如圖所示,BridgeVLA 在七種設置中的六種中均優于最先進的基線方法 RVT-2。

圖片

在四種視覺干擾設置中,BridgeVLA 表現出十分顯著的魯棒性,尤其在干擾物和背景變換的設置中,其仍然能夠保持超高成功率。此外,作者還發現 2D 熱圖預訓練對于模型理解語言語義和泛化到新的對象-技能組合至關重要。同時,即使在經過機器人動作數據微調后,模型仍能很好地對預訓練數據進行預測,證明預訓練知識被成功地保留了下來。

圖片

總結和展望

VLA 新范式:從「Next Token Prediction」到「Heatmap Prediction」,BridgeVLA 為 3D VLA 的設計提供了數據效率更高、操作效果更好的技術范式;

擴展預訓練任務:未來的研究可以嘗試在更多樣化的任務上進行預訓練,例如語義分割和關鍵點檢測,以增強模型的通用視覺理解能力;

提升動作解碼能力:研究團隊未來將考慮整合更具表達能力的動作解碼方法(例如擴散模型),以持續提升策略性能;

改善長周期任務表現:針對復雜長周期任務的挑戰,未來計劃探索利用大型語言模型(LLM)進行任務分解,以進一步提升模型在此類任務中的表現。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-09-01 13:30:03

人工智能機器學習技術

2020-07-27 10:23:10

開源技術 數據

2025-03-11 13:49:20

2025-01-02 12:22:09

2018-02-28 16:20:57

中科睿芯

2023-07-09 15:16:02

3D人像

2017-05-15 15:07:36

納米材料農藥

2025-02-06 09:20:00

2025-02-26 13:00:00

2025-04-07 08:35:00

3DAI生成

2019-01-16 15:21:12

中科院大數據數據庫

2025-04-03 09:27:44

2009-09-18 09:40:57

浪潮中科院合肥

2024-09-14 09:29:37

2025-02-08 13:30:00

2013-09-02 10:21:31

曙光核高基中科院

2016-04-19 12:51:26

2009-10-11 01:04:43

曙光中科院計算中心

2010-05-14 10:09:21

中科院LED無線上網

2022-03-28 15:27:13

3D打印機器人技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久99视频| 免费精品| 国产 日韩 欧美 在线 | 国产欧美精品一区二区色综合朱莉 | 久久久青草婷婷精品综合日韩 | 一区二区三区日韩精品 | 国产一区二区三区网站 | 亚洲欧洲成人av每日更新 | 国产精品一区二区三区四区 | 欧美白人做受xxxx视频 | 亚洲精品第一 | 黄色片网站国产 | 久久久久久亚洲精品 | 成人亚洲片 | 不卡av在线 | 国产在线播放av | 波多野结衣精品 | 91九色视频在线 | 激情五月婷婷丁香 | 狠狠干狠狠操 | 久久99国产精品 | 亚洲电影免费 | 美女福利视频 | 99视频免费看 | 国产精品国产精品国产专区不卡 | 成人精品视频99在线观看免费 | 日韩欧美网 | 一级特黄网站 | 在线免费观看黄色av | 亚洲成人久久久 | 亚洲国产中文字幕 | 久久亚洲一区 | 国产午夜精品理论片a大结局 | 亚洲一区视频在线 | 激情五月激情综合网 | 日本在线精品视频 | 亚洲一区中文字幕 | 美女久久视频 | www.日韩av.com | 国产日韩欧美一区二区 | av在线二区 |