成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

智駕中的VLA方案總結(jié) 原創(chuàng)

發(fā)布于 2025-5-13 06:41
瀏覽
0收藏

智駕中的VLA方案總結(jié)。

相對于VLM,最近智駕中開始流行VLA,VLM關(guān)注的重點在于環(huán)境建模,VLA除了考慮環(huán)境建模,還需要關(guān)注規(guī)劃和控制問題。

總得來說,這些VLA方案中都包含兩個核心組件:

  • Pretrained VLM,側(cè)重思考和慢推理
  • Action Model,側(cè)重動作預(yù)測

那么本篇整合具身智能中主要的四種VLA方案,并聯(lián)合智駕領(lǐng)域進行總結(jié)。下面是一個快捷目錄。

1. Pretrained VLM/LLM + action prediction

2. Vision/ state encoder-decoder transformer (from scratch) + action query-based transformer decoder

3. Diffusion model / LLM + Diffusion

4. Video generation + Inverse Kinematics (有點類似于world model的思路)

一、Pretrained VLM/LLM + action prediction

顧名思義,這種方案直接基于預(yù)訓(xùn)練的VLM或LLM,action直接以token的形式預(yù)測出來;這種方案下微調(diào)的時候pretrained model也需要跟著進行微調(diào)。

這種方案比較典型的例子是openVLA。

智駕中的VLA方案總結(jié)-AI.x社區(qū)

智駕中的VLA方案總結(jié)-AI.x社區(qū)

可以明顯得看到,openVLA輸出的不是文本,而是Action Token,類似于MotionLM的柵格法,把連續(xù)的動作分到一些柵格中,每個箱子是一個token。然后拿機器人未來的行為微調(diào)VLM。

另外論文也證實了,微調(diào)時如果不調(diào)vision backbone,效果會很差。

這種方案的好處是借鑒成熟的語言模型,預(yù)訓(xùn)練和scale的經(jīng)驗成本更小。

在智駕中,這種方案容易遇到的問題是:出問題追溯的時候,很難區(qū)分是Pretrained VLM部分的問題還是Action部分的問題;所以單獨地訓(xùn)練Action Token Prediction,或者去考慮兩部分的融合設(shè)計很有必要。

二、Vision/ state encoder-decoder transformer (from scratch) + action query-based transformer decoder

這種方案也算是經(jīng)典方案了,從頭開始訓(xùn)練一個encoder-decoder型Transformer,把狀態(tài)和視覺觀測當(dāng)成latent condition,然后用action query-based Transformer decoder解碼出action。

這種方案比較典型的例子是Act。

智駕中的VLA方案總結(jié)-AI.x社區(qū)

網(wǎng)絡(luò)主要是一個Conditional VAE。

智駕中的VLA方案總結(jié)-AI.x社區(qū)

一般自回歸的方案會有一個問題,每次推理都可能有誤差,而且這個誤差會隨著自回歸過程累積,越來越大(第一種方案中也存在這樣的問題);即使是連續(xù)空間的自回歸,也存在一些因果混淆等因素會導(dǎo)致偶現(xiàn)一些幀出現(xiàn)一些錯誤,這時自回歸的方案會放大這種誤差。

因此這篇論文的核心是提出了Action Chunking方法,來防止誤差隨著自回歸過程越來越大(componding error),特別是中間哪步比較大的錯誤會導(dǎo)致后續(xù)嚴(yán)重問題,并可以一定程度解決因果混淆問題。

智駕中的VLA方案總結(jié)-AI.x社區(qū)

方案如上圖所示,每次推理輸出k個step作為一個action chunk,然后最終每步forward時,越舊的結(jié)果權(quán)重越大,加權(quán)后作為最終的結(jié)果。

目前大多論文都采用了這種Action Chunking來輸出動作序列;在智駕中,也有一些相關(guān)的研究與探索。

三、Diffusion model / LLM + Diffusion

這種方案主要基于Diffusion model,通過多步降噪對于更精細(xì)粒度的任務(wù)更有優(yōu)勢。

另外,也可以引入LLM,LLM用來壓縮多模態(tài)表征,Diffusion作為action expert精細(xì)化輸出action trajectories,diffusion本身也是可以作為LLM的一個輕量head或者類MoE的expert,所以使用Diffusion并不影響結(jié)合pre-trained LLM。

這種方案比較典型的例子是Diffusion Policy。

智駕中的VLA方案總結(jié)-AI.x社區(qū)

這種方法在開始嘗試解決action multi-modal的問題。

智駕中的VLA方案總結(jié)-AI.x社區(qū)

現(xiàn)實世界中解決某一特定任務(wù)的方式是多樣的,而不是唯一的。但神經(jīng)網(wǎng)絡(luò)預(yù)測只能給出單一的方式,無法應(yīng)對可能有多種方式的任務(wù)情況。

下面具體說一下action multi-modal的問題,這里引用遲宬的解釋:


假設(shè)我現(xiàn)在在開車,前面有一棵樹。比如說,我雇傭了100個司機來解決這個問題。在這種情況下,有可能有50個司機選擇往左拐,繞過樹的左邊,還有50個司機選擇從樹的右邊繞過去。在這種情況下,往左繞和往右繞都是完全合理的。然而,當(dāng)我們將所有這些解決方案合并為一個時,問題就變成了一個多模態(tài)分布,即我看到的相同場景有兩種不同的選擇。這對傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的預(yù)測來說并不友好,因為它通常使用均方誤差(MSE)損失進行訓(xùn)練,而這無法有效處理Multi-Modal情況。


??https://zhuanlan.zhihu.com/p/670555655??

想解決上述問題有兩大難點:

1)對未來動作的預(yù)測不應(yīng)該只局限于眼前的一步兩步動作,而應(yīng)該更有前瞻性,可以往前預(yù)測數(shù)十步動作;但是預(yù)測高維空間的成本非常高,因為它們只能預(yù)測一步,接下來的步驟是什么。如果再加上更多的步驟,維度就會變得越來越高

2)訓(xùn)練過程極易不穩(wěn)定

那么Diffusion Policy就是去解決這兩大難題。

Diffusion Policy是一種新型機器人行為生成方法(Robot Action Generation),將機器人的視覺動作策略(Visuomotor Policy)表示為條件去噪擴散過程(Conditional Denoising Diffusion Process)。

Diffusion Policy訓(xùn)練過程非常穩(wěn)定。基本上,可以隨便調(diào)整參數(shù),生成器就能夠輸出結(jié)果,可能效果不是最優(yōu)的,但基本上都能work。

目前這種方案最大的問題不是Policy本身,而是數(shù)據(jù)。

這塊由于智駕領(lǐng)域?qū)τ趧討B(tài)障礙物的響應(yīng)需求是遠(yuǎn)高于機器人,所以目前來說這種方案很難遷移過去。

四、Video generation + Inverse Kinematics 

這種方案先根據(jù)首幀和指令生成運動視頻,然后逆運動學(xué)得到對應(yīng)的動作;可解釋性很強,但是非常受到視頻生成質(zhì)量和instruction-following的能力的影響。

這種方案比較典型的例子是GR2。

智駕中的VLA方案總結(jié)-AI.x社區(qū)

論文基本上就是WorldModel的思路,直接拿大規(guī)模的帶文本描述的視頻來學(xué)習(xí)視頻生成任務(wù),然后拿機器人的數(shù)據(jù)接入機器人的額外傳感器輸入來完成Fine Tuning出Action。

智駕中的VLA方案總結(jié)-AI.x社區(qū)

這種方案的通用思路是基于一個通用的視頻生成模型來做圖像和視頻場景理解,然后接專用網(wǎng)絡(luò)、專用數(shù)據(jù)出action;上限是最高的,但訓(xùn)的時候需要資源量也大。

寫在最后,self-reasoning / inference time scale 這塊在未來應(yīng)該也是能帶來收益的研究,下次再著重分享下這塊內(nèi)容。

參考文獻

[1] 具身智能Vision-Language-Action的思考?? - 知乎(https://zhuanlan.zhihu.com/p/9880769870?utm_campaign=shareopn&utm_medium=social&utm_psn=1895892562612557674)

[2] 近幾年VLA方案調(diào)研(截止25.03.14) - 知乎(https://zhuanlan.zhihu.com/p/30182000493?utm_campaign=shareopn&utm_medium=social&utm_psn=1895893794794218922)

[3]OpenVLA: AnOpen-Source Vision-Language-Action Model [2406.09246](https://arxiv.org/pdf/2406.09246)

[4] Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware [2304.13705](https://arxiv.org/pdf/2304.13705)

[5] Diffusion Policy: Visuomotor Policy Learning via Action Diffusion https://arxiv.org/pdf/2303.04137

[6]  GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation [2410.06158](https://arxiv.org/pdf/2410.06158)


本文轉(zhuǎn)載自??瓦力算法學(xué)研所??,作者:喜歡瓦力的卷卷


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2025-5-13 06:41:08修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 久久久久久久久综合 | 国产一区二区三区免费视频 | 91久久国产精品 | 91大神在线资源观看无广告 | 在线免费观看a级片 | 国产视频久久久久 | 一级黄色日本片 | 亚洲视频在线看 | 中文字幕国产第一页 | 日韩精品视频在线播放 | 久久久久国 | 久久丝袜视频 | 国产目拍亚洲精品99久久精品 | 激情视频中文字幕 | av在线免费观看网站 | 日日骚视频 | 日本精品一区二区三区在线观看视频 | 91精品国产91久久久久福利 | 中文字幕高清在线 | 成人欧美一区二区三区黑人孕妇 | 免费看91| 99pao成人国产永久免费视频 | 91麻豆精品国产91久久久更新资源速度超快 | 久久美女网 | 欧美在线色 | 久久久青草婷婷精品综合日韩 | 99在线免费视频 | 欧美一级大片 | 日韩av最新网址 | 一区二区久久 | 亚洲精品一二区 | 精品成人在线观看 | 美国一级片在线观看 | 亚洲一在线 | 欧美在线a | 欧美色综合天天久久综合精品 | 91新视频 | 国产一二三区精品视频 | 超碰人人人人 | 国产免费一区二区三区 | 久久久蜜臀国产一区二区 |