SIMPL:用于自動(dòng)駕駛的簡單高效的多智能體運(yùn)動(dòng)預(yù)測基準(zhǔn)
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
原標(biāo)題:SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving
論文鏈接:https://arxiv.org/pdf/2402.02519.pdf
代碼鏈接:https://github.com/HKUST-Aerial-Robotics/SIMPL
作者單位:香港科技大學(xué) 大疆
論文思路:
本文提出了一種用于自動(dòng)駕駛車輛的簡單高效的運(yùn)動(dòng)預(yù)測基線(SIMPL)。與傳統(tǒng)的以代理為中心(agent-centric) 的方法(精度高但需要重復(fù)計(jì)算)和以場景為中心(scene-centric) 的方法(精度和通用性受到影響)不同,SIMPL 可以為所有相關(guān)交通參與者提供實(shí)時(shí)、準(zhǔn)確的運(yùn)動(dòng)預(yù)測。為了提高準(zhǔn)確性和推理速度,本文提出了一種緊湊而高效的全局特征融合模塊,該模塊以對(duì)稱方式執(zhí)行定向消息傳遞,使網(wǎng)絡(luò)能夠在單次前饋傳遞中預(yù)測所有道路使用者的未來運(yùn)動(dòng),并減輕視點(diǎn)移動(dòng)導(dǎo)致的精度損失。此外,本文研究了在軌跡解碼中使用 Bernstein basis polynomials 進(jìn)行連續(xù)軌跡參數(shù)化,允許在任何所需時(shí)間點(diǎn)評(píng)估狀態(tài)及其高階導(dǎo)數(shù),這對(duì)于下游規(guī)劃任務(wù)很有價(jià)值。作為強(qiáng)大的基線,與其他最先進(jìn)的方法相比,SIMPL 在 Argoverse 1 和 2 運(yùn)動(dòng)預(yù)測基準(zhǔn)上表現(xiàn)出極具競爭力的性能。此外,其輕量級(jí)設(shè)計(jì)和低推理延遲使 SIMPL 具有高度可擴(kuò)展性,并有望用于現(xiàn)實(shí)世界的機(jī)載部署。
網(wǎng)絡(luò)設(shè)計(jì):
周圍交通參與者的運(yùn)動(dòng)預(yù)測對(duì)于自動(dòng)駕駛汽車至關(guān)重要,尤其是下游決策和規(guī)劃模塊,因?yàn)闇?zhǔn)確及時(shí)的意圖和軌跡預(yù)測將顯著提高安全性和乘坐舒適性。
對(duì)于基于學(xué)習(xí)的運(yùn)動(dòng)預(yù)測,最重要的主題之一是上下文表示。早期的方法通常將周圍場景表示為多通道鳥瞰圖像 [1]–[4]。相比之下,最近的研究越來越多地采用矢量化場景表示[5]-[13],其中使用帶有地理坐標(biāo)的點(diǎn)集或多段線(polylines) 來標(biāo)注位置和幾何形狀,從而提高保真度并擴(kuò)大感受野。然而,對(duì)于光柵化和矢量化表示,都存在一個(gè)關(guān)鍵問題:我們應(yīng)該如何為所有這些元素選擇合適的參考系?一種直接的方法是描述共享坐標(biāo)系(以場景為中心)內(nèi)的所有實(shí)例,例如以自動(dòng)駕駛車輛為中心的坐標(biāo)系,并直接使用坐標(biāo)作為輸入特征。這使我們能夠在一次前饋傳遞中對(duì)多個(gè)目標(biāo)代理進(jìn)行預(yù)測 [8, 14]。然而,使用全局坐標(biāo)作為輸入,通常會(huì)在單個(gè)前饋傳遞中對(duì)多個(gè)目標(biāo)代理進(jìn)行預(yù)測 [8, 14]。然而,使用全局坐標(biāo)作為輸入(通常會(huì)在很大范圍內(nèi)變化)將大大加劇任務(wù)的固有復(fù)雜性,導(dǎo)致網(wǎng)絡(luò)性能下降和對(duì)新場景的適應(yīng)性有限。為了提高準(zhǔn)確性和魯棒性,一種常見的解決方案是根據(jù)目標(biāo)代理的當(dāng)前狀態(tài)對(duì)場景上下文進(jìn)行歸一化處理 [5, 7, 10]-[13](以代理為中心)。這意味著必須對(duì)每個(gè)目標(biāo)代理重復(fù)執(zhí)行歸一化過程和特征編碼,從而獲得更好的性能,但代價(jià)是冗余計(jì)算。因此,有必要探索一種能夠有效地編碼多個(gè)目標(biāo)的特征,同時(shí)保持對(duì)視角(perspective) 變化的魯棒性的方法。
對(duì)于運(yùn)動(dòng)預(yù)測的下游模塊,例如決策和運(yùn)動(dòng)規(guī)劃,不僅需要考慮未來位置,還需要考慮航向、速度和其他高階導(dǎo)數(shù)。例如,周圍車輛的預(yù)測航向在塑造未來時(shí)空占用方面發(fā)揮著關(guān)鍵作用,這是確保安全和穩(wěn)健的運(yùn)動(dòng)規(guī)劃的關(guān)鍵因素[15, 16]。此外,在不遵守物理約束的情況下獨(dú)立預(yù)測高階量可能會(huì)導(dǎo)致預(yù)測結(jié)果不一致[17, 18]。例如,盡管速度為零,但它可能會(huì)產(chǎn)生位置位移,從而導(dǎo)致規(guī)劃模塊混亂。
本文提出了用于自動(dòng)駕駛系統(tǒng)的 SIMPL(簡單高效的運(yùn)動(dòng)預(yù)測基線),解決了現(xiàn)實(shí)車載應(yīng)用中多智能體軌跡預(yù)測的關(guān)鍵問題。首先,本文引入以實(shí)例為中心的場景表示,然后引入 symmetric fusion Transformer(SFT),從而能夠在單次前饋傳遞中對(duì)所有代理進(jìn)行有效的軌跡預(yù)測,同時(shí)保留視點(diǎn)不變屬性帶來的準(zhǔn)確性和魯棒性。與最近基于對(duì)稱上下文融合的其他工作[19]-[21]相比,所提出的SFT明顯更簡單、更輕量級(jí)且更易于實(shí)現(xiàn),使其適合機(jī)載部署。
其次,本文引入了一種基于 Bernstein basis polynomial(也稱為 Bezier curve)的預(yù)測軌跡的新穎參數(shù)化方法。這種連續(xù)表示確保了平滑性,并能夠在任何給定時(shí)間點(diǎn)輕松評(píng)估精確狀態(tài)及其高階導(dǎo)數(shù)。本文的實(shí)證研究表明,與估計(jì) monomial basis polynomials 的系數(shù)相比,學(xué)習(xí)預(yù)測 Bezier curves 的控制點(diǎn)更加有效且數(shù)值穩(wěn)定。
最后,所提出的組件被很好地集成到一個(gè)簡單而高效的模型中。本文在兩個(gè)大型運(yùn)動(dòng)預(yù)測數(shù)據(jù)集上評(píng)估了所提出的方法[22, 23],實(shí)驗(yàn)結(jié)果表明,盡管 SIMPL 具有簡化的設(shè)計(jì),但與其他最先進(jìn)的方法相比仍具有很強(qiáng)的競爭力。更重要的是,SIMPL通過較少的可學(xué)習(xí)參數(shù)和較低的推理延遲實(shí)現(xiàn)了高效的多智能體軌跡預(yù)測,而沒有犧牲量化性能,這對(duì)于真實(shí)世界的機(jī)載部署來說是充滿希望的。本文還強(qiáng)調(diào),作為一個(gè)強(qiáng)大的基線,SIMPL 具有出色的可擴(kuò)展性。簡潔的架構(gòu)便于與最新的運(yùn)動(dòng)預(yù)測進(jìn)展直接整合,為進(jìn)一步提高整體性能提供了機(jī)會(huì)。
圖 1:復(fù)雜駕駛場景中多智能體運(yùn)動(dòng)預(yù)測的圖示。本文的方法能夠?qū)崟r(shí)地同時(shí)為所有相關(guān)代理生成合理的假設(shè)。自車和其他車輛分別以紅色和藍(lán)色顯示。根據(jù)時(shí)間戳使用漸變顏色來可視化預(yù)測軌跡。請(qǐng)參考附帶的視頻了解更多示例。
圖 2:SIMPL 示意圖。本文利用盡可能簡單的網(wǎng)絡(luò)架構(gòu)來證明其有效性。語義實(shí)例的局部特征由簡單的編碼器處理,而實(shí)例間特征則保留在相對(duì)位置嵌入中。多模態(tài)軌跡預(yù)測結(jié)果由運(yùn)動(dòng)解碼器在提出的 symmetric feature Transformer 之后生成。
圖 3:相對(duì)位姿計(jì)算示意圖。
圖 4:所提出的 L 層 symmetric fusion Transformer (SFT) 的圖示。實(shí)例 tokens 和相對(duì)位置嵌入(RPE)在每個(gè)SFT層中都會(huì)循環(huán)更新。
圖 5:2D septic Bezier curve(左)。
實(shí)驗(yàn)結(jié)果:
總結(jié):
本文提出了一種簡單高效的自動(dòng)駕駛多智能體運(yùn)動(dòng)預(yù)測基線。利用所提出的 symmetric fusion Transformer,所提出的方法實(shí)現(xiàn)了高效的全局特征融合,并保持了針對(duì)視點(diǎn)移動(dòng)的魯棒性。基于 Bernstein basis polynomials 的連續(xù)軌跡參數(shù)化提供了與下游模塊更高的兼容性。在大規(guī)模公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,SIMPL 在模型大小和推理速度方面更具優(yōu)勢(shì),同時(shí)獲得與其他最先進(jìn)方法相同水平的精度。
引用:
Zhang L, Li P, Liu S, et al. SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving[J]. arXiv preprint arXiv:2402.02519, 2024.