成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

讓具身智能更快更強!華東師大&上大提出TinyVLA:高效視覺-語言-動作模型,遙遙領先

發布于 2024-9-27 10:13
瀏覽
0收藏

讓具身智能更快更強!華東師大&上大提出TinyVLA:高效視覺-語言-動作模型,遙遙領先-AI.x社區

論文鏈接:https://arxiv.org/pdf/2409.12514
項目鏈接:https://tiny-vla.github.io/

具身智能近期發展迅速,擁有了大模型"大腦"的機械臂在動作上更加高效和精確,但現有的一個難點是:模型受到算力和數據的制約。如何使用更少的訓練數據,以更快的推理速度,實現媲美OpenVLA的性能?今天給大家分享的TinyVLA,就是來解決這個難題的,還有多種規模的模型可供選擇!

總結速覽

解決的問題:現有的視覺-語言-動作(VLA)模型在推理速度慢和需要大量機器人數據進行預訓練方面面臨挑戰,限制了實際應用。

提出的方案:引入一種新型緊湊型視覺-語言-動作模型TinyVLA,提供更快的推理速度和更高的數據效率,消除預訓練階段的需求。

應用的技術:TinyVLA框架包括兩個關鍵組件:1) 使用高效的多模態模型初始化策略骨干;2) 在微調過程中集成擴散策略解碼器,以實現精確的機器人動作。

達到的效果:TinyVLA在仿真和實際機器人上進行了廣泛評估,顯著優于現有的VLA模型OpenVLA,在速度和數據效率上表現更佳,同時在語言指令、未知物體、位置變化等方面展現出強大的泛化能力。

方法

1. 訓練輕量級VLM模型。 現有的VLM大多在30億參數以上,推理速度較慢,訓練周期長,因此我們訓練了一系列更加緊湊的VLM模型,我們使用pythia作為我們的LLM部分,參照LLaVA的框架我們訓練了3個不同大小的VLM,參數量從4億到14億。以此作為我們VLA的主干網絡。

讓具身智能更快更強!華東師大&上大提出TinyVLA:高效視覺-語言-動作模型,遙遙領先-AI.x社區

2. 機器人數據微調VLA模型。 我們用訓練好的VLM權重來初始化我們的VLA模型,但是VLM只能生成語言,無法直接生成動作;OpenVLA和RT-2采用將動作離散化的方式,將動作預測任務轉變成next token prediction任務,但這種方式會使得模型的訓練難度大大增加;因此我們采取用policy head 網絡替換原有的llm head,從而在不破壞動作連續性的同時,使得模型訓練更加簡單。我們采取Diffusion policy網絡來預測動作。為了增加動作的一致性以及提升動作預測效率,TinyVLA一次性會預測未來16步的動作。為了進一步減少資源消耗,我們使用LoRA微調VLM部分,使得需要訓練的參數只占總參數的5%。

讓具身智能更快更強!華東師大&上大提出TinyVLA:高效視覺-語言-動作模型,遙遙領先-AI.x社區

實驗

仿真實驗結果

如圖所示,TinyVLA-H在metaworld的50個任務上都超越baseline,特別是較難的任務中,更是大幅領先。

讓具身智能更快更強!華東師大&上大提出TinyVLA:高效視覺-語言-動作模型,遙遙領先-AI.x社區

多任務真機實驗結果

1. 單臂多任務實驗。 如圖所示,在5個真實環境下的任務分別測試20次,使用不同的權重測試3輪并且統計成功率均值和方差。TinyVLA-H實現了最好的效果,在翻馬克杯任務、疊方塊任務以及關抽屜任務上都達到了96%以上的成功率,平均成功率達到94%,比OpenVLA提升了25.7%。并且,從TinyVLA-S到TinyVLA-H,隨著模型增加,成功率也在增加,證明TinyVLA符合Scaling Law。

讓具身智能更快更強!華東師大&上大提出TinyVLA:高效視覺-語言-動作模型,遙遙領先-AI.x社區

2. 雙臂任務實驗。 雙臂環境和單臂完全不同,因為對應的動作維度不同,而OpenVLA是自回歸形式生成動作,切換到雙臂環境導致動作長度不一致,使得OpenVLA沒法正常生成動作,并且Open-x Embodiedment數據集也只包含單臂任務,這進一步導致OpenVLA無法正常生成雙臂動作。而TinyVLA無需修改模型結構,只需要更改動作維度,即可直接遷移到雙臂環境。如圖所示,在3個真實環境下的任務分別測試10次,使用不同的權重測試3輪并且統計成功率均值和方差。TinyVLA-H 仍然大幅領先Baseline。

讓具身智能更快更強!華東師大&上大提出TinyVLA:高效視覺-語言-動作模型,遙遙領先-AI.x社區

泛化實驗結果

1. 指令泛化。 由于TinyVLA的主干網絡是一個在大規模圖片文本數據集上預訓練的VLM模型,盡管沒在相應的機器人指令數據集上預訓練,但TinyVLA-H體現出了一些類似于RT-2的指令理解能力。為了更好的區分難度,劃分了3個難度等級(越大越難),第1級,理解未在機器人數據中出現的顏色;第2級,區分不同物體;第3級,辨別新的物體并且實現已知物體的新用途。對于第1級,TinyVLA能準確區分不同顏色的同一物體,且該顏色并沒有在機器人數據集中出現。第2級,TinyVLA能區分不同物體,這些物體雖然都出現在機器人數據中但并沒有同時出現過,也沒有在相應的區分任務中訓練過。第3級,指令是全新的,要求TinyVLA抓起一個沒有在機器人任務中見過的小車并放到盒子里,注意盒子只在開蓋子的任務中出現過。

讓具身智能更快更強!華東師大&上大提出TinyVLA:高效視覺-語言-動作模型,遙遙領先-AI.x社區

2. 視角泛化。 視角泛化是機器人領域的一大難題,輕微晃動視角都可能會導致任務完成失敗。TinyVLA在一定范圍內展現出了視角泛化能力。如圖所示,我們測試了4個視角度數,范圍從-30度到+30度,左右視角分別測試。對于關抽屜任務,TinyVLA展現出較好的能力,但是精度要求更高的疊方塊任務則較難完成任務。

讓具身智能更快更強!華東師大&上大提出TinyVLA:高效視覺-語言-動作模型,遙遙領先-AI.x社區

3. 位置泛化。 位置泛化要求模型不僅要能在圖片中識別出目標物體的位置,還要求模型能泛化到不同的動作空間。而TinyVLA在這項測試中大部分位置能夠完成任務,少部分極端位置則遜色于OpenVLA。這可能是由于OpenVLA在大規模的機器人數據集上預訓練,且該數據集主要是pick place的任務類型。

讓具身智能更快更強!華東師大&上大提出TinyVLA:高效視覺-語言-動作模型,遙遙領先-AI.x社區

4. 物體以及外觀泛化。 更換不同的物體或者相同的物體變換顏色,TinyVLA能實現媲美OpenVLA的性能,而只需要OpenVLA約1/5的參數量,且推理速度更快。

讓具身智能更快更強!華東師大&上大提出TinyVLA:高效視覺-語言-動作模型,遙遙領先-AI.x社區

5. 背景泛化。 背景變化同樣會導致任務失敗,因為背景通常會導致大面積的干擾,從而影響任務的完成。我們測試了6種背景下模型是否還能正常完成任務,且我們選擇的疊方塊和抓網球都是位置敏感性任務,更容易收到干擾。測試結果如圖,TinyVLA與OpenVLA展現出了相近的能力。

讓具身智能更快更強!華東師大&上大提出TinyVLA:高效視覺-語言-動作模型,遙遙領先-AI.x社區

6. 光照泛化。

讓具身智能更快更強!華東師大&上大提出TinyVLA:高效視覺-語言-動作模型,遙遙領先-AI.x社區

結論

在機器人領域,VLA模型展現出了強大的泛化能力,包括但不限于物體、干擾物、指令泛化等。但VLA模型同時也面臨著兩個嚴峻的問題,一方面現有的VLA如RT-2、OpenVLA有著70億參數甚至550億參數,龐大的參數量到導致模型的推理速度十分緩慢,OpenVLA在H100上推理也只能達到約6Hz的運行頻率。另一方面,現有VLA都是在龐大的機器人數據上預訓練過的,比如OpenVLA在Open-x Embodiedment dataset上預訓練大約970K軌跡,而真實環境很難收集到如此大規模的數據,因此如何高效地利用少量數據也是機器人領域難點之一。為了緩解這兩個問題,本文推出了TinyVLA,以實現更快的推理速度以及不使用大量的預訓練數據,并且實現媲美OpenVLA的性能。


TinyVLA將現有的VLM模型和Diffusion policy網絡相結合,將VLM的泛化能力遷移到機器人領域的同時,還能利用Diffusion policy網絡從而緩解自回歸生成導致的推理速度緩慢。我們根據LLaVA的框架首先預訓練了一系列不同大小的VLM,然后將VLM的權重直接遷移到我們的VLA模型,再用下游機器人數據進行LoRA微調。根據VLM的參數量變化,我們的TinyVLA也有三種規模,總參數量從4億到13億參數。


在下游任務上,我們最大的TinyVLA-H推理延遲比OpenVLA快20倍且單臂環境平均任務成功率高出25.7%,如下圖所示。同時我們的TinyVLA還能夠直接遷移到雙臂環境,無需修改網絡結構等,只需要修改預測的動作維度即可;但受限于OpenVLA的自回歸結構以及預訓練數據均為單臂,導致其很難在雙臂環境下正常運行。此外我們的TinyVLA在多個泛化指標上能達到與OpenVLA相媲美的性能,比如物體泛化、位置泛化、干擾物、背景泛化;而在視角變化泛化上,TinyVLA更是遙遙領先,在-30度到30度的超大范圍測試中,部分情況仍能準確完成任務。


本文轉自AI生成未來 ,作者:Junjie Wen等


原文鏈接:??https://mp.weixin.qq.com/s/8OsqXRvfU9ksVzyuV-vavA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 无吗视频 | 中文字幕在线视频免费观看 | 久久国产亚洲 | 国产精品亚洲综合 | 日韩成人免费视频 | 国产成人精品一区二区三区网站观看 | 国产资源在线观看 | 天天影视综合 | 狠狠干天天干 | 中文在线一区二区 | 亚洲精品乱码久久久久久蜜桃91 | av黄色在线观看 | 日韩av.com | 国产91亚洲精品 | 91国语清晰打电话对白 | 久久午夜精品 | 性高湖久久久久久久久3小时 | 精品国产欧美一区二区三区成人 | 精品国产一区二区三区性色av | 日日爽 | 一区二区不卡高清 | 成人黄色在线视频 | 成人国产一区二区三区精品麻豆 | 欧美一区永久视频免费观看 | 日韩精品一区二区三区在线播放 | 国产成人在线一区二区 | 中文字幕一区在线 | 操久久 | 欧美乱做爰xxxⅹ久久久 | 男女羞羞视频在线观看 | 婷婷不卡| 午夜伦理影院 | 欧美日韩在线看 | av免费观看网站 | 99久久日韩精品免费热麻豆美女 | av黄色在线观看 | 99精品视频免费在线观看 | 激情五月婷婷综合 | 国产成人精品免费视频大全最热 | 欧美a区| 亚洲一区二区网站 |