MotionLM:作為語言建模的多智能體運(yùn)動(dòng)預(yù)測(cè)
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
原標(biāo)題:MotionLM: Multi-Agent Motion Forecasting as Language Modeling
論文鏈接:https://arxiv.org/pdf/2309.16534.pdf
作者單位:Waymo
會(huì)議:ICCV 2023
論文思路:
對(duì)道路代理未來行為的可靠預(yù)測(cè)是自動(dòng)駕駛車輛安全規(guī)劃的關(guān)鍵組成部分。在這里,本文將連續(xù)軌跡表示為離散運(yùn)動(dòng)tokens序列,并將多智能體運(yùn)動(dòng)預(yù)測(cè)作為該領(lǐng)域的語言建模任務(wù)。本文的模型 MotionLM 提供了幾個(gè)優(yōu)點(diǎn):首先,它不需要anchors或顯式潛變量(explicit latent variable)優(yōu)化來學(xué)習(xí)多模態(tài)分布。相反,本文利用單一標(biāo)準(zhǔn)語言建模目標(biāo),最大化序列tokens的平均對(duì)數(shù)概率。其次,本文的方法繞過了 post-hoc 交互啟發(fā)法,其中個(gè)體代理軌跡生成是在交互評(píng)分之前進(jìn)行的。相反,MotionLM 在單個(gè)自回歸解碼過程中生成交互式代理未來的聯(lián)合分布。此外,模型的順序分解可以實(shí)現(xiàn)時(shí)間上的因果條件的推出。所提出的方法在 Waymo Open Motion Dataset 上為多智能體運(yùn)動(dòng)預(yù)測(cè)建立了新的最先進(jìn)性能,在交互式挑戰(zhàn)排行榜上排名第一。
主要貢獻(xiàn):
本文將多智能體運(yùn)動(dòng)預(yù)測(cè)作為一種語言建模任務(wù),在經(jīng)過因果語言建模損失訓(xùn)練的離散運(yùn)動(dòng)tokens上引入時(shí)間因果解碼器。
本文將模型中的采樣與簡(jiǎn)單的 rollout 聚合方案配對(duì),該方案有助于聯(lián)合軌跡的加權(quán)模式識(shí)別,在 Waymo Open Motion Dataset 交互預(yù)測(cè)挑戰(zhàn)中建立新的最先進(jìn)性能(在排名聯(lián)合 mAP 指標(biāo)上提高6% )。
本文對(duì)本文的方法進(jìn)行了廣泛的消融實(shí)驗(yàn),并對(duì)它的時(shí)間因果條件預(yù)測(cè)進(jìn)行了分析,這在很大程度上是目前的聯(lián)合預(yù)測(cè)模型所不支持的。
網(wǎng)絡(luò)設(shè)計(jì):
本文的目標(biāo)是以一種通用的方式對(duì)多智能體交互上的分布建模,這種分布可以應(yīng)用于不同的下游任務(wù),包括最低限度的、聯(lián)合的和條件預(yù)測(cè)。這需要一個(gè)有表現(xiàn)力的生成框架,能夠捕捉到駕駛場(chǎng)景中的多種形態(tài)。此外,本文在這里考慮保存時(shí)間依賴性; 即,在本文的模型中,推理遵循一個(gè)有向無環(huán)圖,每個(gè)節(jié)點(diǎn)的父節(jié)點(diǎn)在時(shí)間上較早,子節(jié)點(diǎn)在時(shí)間上較晚,這使得條件預(yù)測(cè)更接近于因果干預(yù)[34],因?yàn)樗四承┨摷俚南嚓P(guān)性,否則就會(huì)導(dǎo)致不服從時(shí)間因果關(guān)系。本文觀察到,不保留時(shí)間依賴關(guān)系的聯(lián)合模型可能在預(yù)測(cè)實(shí)際agent反應(yīng)方面的能力有限——這是規(guī)劃中的一個(gè)關(guān)鍵用途。為此,本文利用了未來解碼器的自回歸分解,其中代理的運(yùn)動(dòng)tokens有條件地依賴于所有先前采樣的tokens,并且軌跡按順序推出(rolled out)(圖2)。
圖1。本文的模型自回歸地為一組代理生成離散運(yùn)動(dòng)tokens序列,以產(chǎn)生一致的交互式軌跡預(yù)測(cè)。
圖2。MotionLM架構(gòu)。
本文首先將與每個(gè)建模代理相關(guān)的異構(gòu)場(chǎng)景特征(左)編碼為形狀R、N、·、H的場(chǎng)景嵌入。其中,R為首次推出(rollouts)的數(shù)量,N為聯(lián)合建模的代理數(shù)量,H為每次嵌入的維數(shù)。在推理過程中,為了并行采樣,本文在批量維度上重復(fù)嵌入R次。接下來,一個(gè)軌跡解碼器以一種時(shí)間因果的方式(中心)為多個(gè)代理推出(rolls out) T 個(gè)離散運(yùn)動(dòng)tokens。最后,通過使用非最大抑制初始化的k-means聚類的簡(jiǎn)單聚合,可以恢復(fù) rollouts 典型模式(右圖)。
圖3。展示了三個(gè)WOMD場(chǎng)景的前兩種預(yù)測(cè)聯(lián)合推出(joint rollout)模式。
顏色梯度表示從t = 0s到t = 8s的時(shí)間推移,聯(lián)合模式由綠色過渡到藍(lán)色,次聯(lián)合模式由橙色過渡到紫色的概率最大。觀察到三種類型的交互:相鄰車道中的智能體根據(jù)變道時(shí)間向變道智能體讓行(左),行人根據(jù)車輛的進(jìn)度走在過往車輛后面(中),轉(zhuǎn)彎車輛要么給過路的騎車人讓路(最可能的模式),要么在騎車人接近之前轉(zhuǎn)彎(次要模式)(右)。
圖4。對(duì)于聯(lián)合推出(joint rollout)(左)、干預(yù)后因果貝葉斯網(wǎng)絡(luò)(中)和因果條件反射(右)的因果貝葉斯網(wǎng)絡(luò)表示。
實(shí)線表示時(shí)間上的因果相關(guān)性,而虛線表示因果信息流。沒有時(shí)間依賴約束的模型將支持因果條件作用,但不支持時(shí)間因果條件作用,這在試圖預(yù)測(cè)agent反應(yīng)時(shí)可能是有問題的。
實(shí)驗(yàn)結(jié)果:
引用:
Seff, A., Cera, B., Chen, D., Ng, M., Zhou, A., Nayakanti, N., Refaat, K. S., & Sapp, B. (2023). MotionLM: Multi-Agent Motion Forecasting as Language Modeling. ArXiv. /abs/2309.16534
原文鏈接:https://mp.weixin.qq.com/s/MTai0rA8PeNFuj7UjCfd6A