成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

快慢雙系統!清華&博世最新Chameleon:無需訓練即可解決復雜道路拓撲(ICRA'25)

人工智能 新聞
今天為大家分享清華大學趙昊老師和趙行老師團隊與博世中央研究院RIX在ICRA 2025中稿的最新的工作—Chameleon!快慢系統Chameleon無需訓練解析復雜道路拓撲。

在自動駕駛技術中,車道拓撲提取是實現無地圖導航的核心任務之一。它要求系統不僅能檢測出車道和交通元素(如交通燈、標志),還要理解它們之間的復雜關系。例如,判斷車輛是否可以左轉進入某條車道,就需要綜合考慮交通規則、車道布局和信號燈狀態等多種因素。然而,現有的解決方案存在明顯局限性。一方面,密集視覺提示方法雖然準確,但計算成本高昂,且在實時處理中效率低下,難以應用于實際場景。另一方面,神經符號推理方法雖然效率較高,但在處理復雜場景(如交叉路口)時,常常因為缺乏視覺信息而無法做出準確判斷。

為了解決這一難題,清華大學與博世中央研究院RIX聯合提出了一個創新的解決方案——Chameleon。它通過一種快慢系統交替的神經符號方法,成功平衡了效率與性能,為自動駕駛領域帶來了新的突破。

論文鏈接:https://arxiv.org/pdf/2503.07485

開源地址:https://github.com/XR-Lee/neural-symbolic

引言

在線地圖感知是現代自動駕駛中的一個重要課題,它避免了對高成本高精地圖的依賴。當前的三維場景理解方法雖然能夠有效檢測車道和交通元素(如圖1所示),但這些實例之間的關系復雜,需要大量標注數據進行監督訓練。為此,我們提出了一種基于視覺語言基礎模型(VLM)的少樣本(few-shot)方法,用于提取車道拓撲。

圖片

圖1:VLM無法直接解決復雜的三維場景理解任務,例如車道拓撲提取。(a) 一種可能的方法是使用密集視覺提示(如RedCircle),雖然準確但效率低下。(b) 另一種方法是神經符號推理(如NS3D),但這種方法在程序合成時未能有效利用視覺輸入,導致在處理復雜邊緣情況時效果不佳。(c) 我們提出的Chameleon方法采用快慢交替的設計,其中一個VLM用于合成程序,另一個用于處理邊緣情況。

具體而言,我們專注于OpenLane-V2定義的車道拓撲提取任務,即檢測車道和交通元素(如交通信號燈和標志),并提取它們之間的關系。這一任務極具挑戰性,需要高水平的推理能力,例如判斷車輛在交叉路口是否可以駛入某條車道。然而,現有的VLM仍無法直接解決這種復雜的三維場景理解任務。

為解決這一問題,我們結合了兩類基于VLM的方法:密集視覺提示神經符號推理。密集視覺提示(如RedCircle)通過在圖像上放置紅色圓圈,將復雜推理任務轉化為問答(QA)任務。但這種方法會導致大量的QA查詢,計算成本高昂且不適合實時應用(如圖1-a)。神經符號推理(如NS3D)雖然效率更高,但在程序合成時未能整合視覺信息,無法有效處理復雜邊緣情況(如圖1-b)。

因此,我們提出了一種名為“Chameleon”的快慢系統交替的神經符號車道拓撲提取器(如圖1-c)。它通過VLM合成程序,根據視覺輸入定制推理過程,并動態切換快慢系統以平衡效率和性能。此外,我們還提出了一個鏈式推理(COT)方法,用于識別和處理需要額外推理的邊緣情況。

圖片

圖二:Chameleon架構概覽。輸入多視圖圖像后,視覺模型分別生成交通元素和車道線段的檢測結果。提出的快速系統利用一個大型視覺語言模型(VLM),以預定義的視覺-文本少樣本和文本提示為輸入,生成可執行代碼以處理視覺模型的預測結果。提出的慢速系統包括一個視覺問答(VQA)API集和一個具有鏈式推理能力的視覺語言模型(VLM),其中VQA API集中的視覺提示和文本提示是VLM的輸入。隨后,拓撲推理結果是代碼執行結果和VLM輸出的組合。

方法

A. 概述

在車道拓撲提取任務中,我們預測一個密集的鄰接矩陣,用于表示車道線段和交通元素之間的關系。具體來說,車道線段之間的關系由矩陣 A∈Rm×m 表示,車道線段與交通元素之間的關系由矩陣 A∈Rm×n 表示,其中 m 和 n 分別是車道線段和交通元素的數量。盡管密集視覺提示可以實現高性能,但其高昂的成本、環境影響和低效的推理速度使其不適用于實時應用。因此,我們采用鏈式推理(Chain-of-Thought, COT)方法,僅對稀疏的邊緣情況進行密集視覺提示,從而提高推理效率。

為了高效處理任務,我們設計了快慢系統架構??焖傧到y使用符號表示處理基本推理任務,適用于簡單場景(如直線車道);而慢速系統則針對復雜邊緣情況(如交叉路口的密集交通和多種交通元素)進行深度推理。這種架構通過動態切換快慢系統,平衡了效率和性能。

圖片

B. 提示

為了執行符號推理,我們使用多種提示來生成符號代碼。這些提示包括帶有few-shot參考的視覺提示(正例或負例)、API描述和專家規則。

  • API提示:API提示定義了生成代碼的輸入和輸出,以及API的輸入輸出描述,例如用于車道自定位和并行車道搜索的函數等。在我們的實現中,我們還將選定的VQA任務定義為程序合成期間的API。
  • 專家規則提示:為了穩定代碼生成過程并整合領域專家的先驗知識,我們將專家規則添加為程序合成的提示。例如,在TOP lsls任務中,強制執行角度和距離約束。例如,父車道的終點不應與子車道的起點相距過遠,以滿足駕駛幾何約束。在TOP lste任務中,規則規定不允許在交叉路口內存在車道拓撲。
  • few-shot提示:在few-shot場景中,我們選擇正例和負例,并將它們渲染為相機的透視圖。我們還將這些示例的坐標轉換為文本,分別作為視覺提示和文本提示。
  • VQA提示:對于VQA任務,文本提示由關于語義和空間上下文的簡單問題組成。我們還使用鏈式推理(COT)提示。視覺提示基于預測結果從透視圖和鳥瞰圖中渲染圖像。

圖片

圖三:Chameleon架構示意圖。輸入多視圖圖像和文本提示后,Chameleon實現車道拓撲提取。每個API或密集視覺提示VQA任務表示為一個節點。具有鏈式推理(Chain-of-Thought, COT)能力的視覺語言模型(VLM)根據輸入動態選擇需要執行的節點,以推斷拓撲結果。

C. 代碼執行

對于生成的程序,TOP lsls和TOP lste任務的代碼執行過程有所不同。對于TOP lsls任務,使用簡單的成對預定義代碼框架,VLM根據API描述和給定的提示生成Python代碼。此代碼以字符串形式生成,然后使用Python的exec函數執行。相比之下,TOP lste任務涉及更多的API調用(如圖3所示),因此我們使用OpenAI的函數調用API來管理所需的函數執行。首先,我們提示VLM生成一個鏈式推理,以解決拓撲提取問題,該問題包含六個步驟(如圖3執行模塊所示)。這進一步用作文本提示,供VLM合成程序根據視覺輸入自適應地跳過某些步驟。某些步驟涉及需要通過密集視覺提示VLM模型處理的邊緣情況,因此被送入慢系統。通過總結API結果,系統可以推斷出潛在的拓撲對。

D. 密集視覺提示VQA任務

密集視覺提示VQA任務是慢系統的核心API,特別是在開放場景拓撲推理的互操作過程中。為了測試VLM模型的能力,我們創建了幾個基本的VQA任務。如表II所示,我們關注四個不同的任務。在“左或右”任務中,以鳥瞰圖(BEV)的形式呈現兩條車道線段。模型需要執行三類分類,選擇左側、右側或無關系。對于“是否在交叉路口”任務,以馬賽克形式顯示單條車道,左側為鳥瞰圖(BEV),右側為前方透視圖(PV)。模型需要判斷該車道線段是否在交叉路口內。在“鄰接性”任務中,給出兩條車道線段,模型需要判斷它們是否相鄰。最后,在“向量”任務中,模型需要評估兩條渲染的向量箭頭的方向是否匹配。

實驗

A. 實驗設置

我們在OpenLane-V2官方驗證數據集上評估了Chameleon方法,該數據集提供了車道線段和交通元素之間的拓撲注釋。此外,我們手動標注了500個樣本,涵蓋四個密集視覺提示VQA子任務,用于評估性能指標。這些數據集不僅支持車道拓撲提取任務,還適用于其他自動駕駛場景。

在評估指標方面,我們報告車道線段檢測和交通元素檢測的平均精度均值(mAP)。對于拓撲任務,采用OpenLane-V2官方指標TOPlsls(車道線段間拓撲mAP)和TOPlste(車道線段與交通元素間拓撲mAP)。對于VQA分類問題,由于正負樣本在標注時保持平衡,我們使用準確率(Accuracy)作為評估指標。

圖片圖片

B. 實現細節

我們將Chameleon方法應用于自定義基線,并進行了實驗。基線方法結合了SMERF的SD編碼和融合模塊,使用LanesegNet框架檢測車道線段,并通過DETR實現2D交通元素檢測,同時并行訓練TopoMLP以預測拓撲關系。為了進一步提升性能,我們還設計了一個增強基線(“Powerful Baseline”),引入了StreamMapNet的時間信息,使用更大的Vovnet作為骨干網絡,并采用YOLOv8進行交通元素檢測。在少樣本學習場景中,我們采用3-shot配置,包含三個幀及其注釋作為參考。

對于視覺語言模型(VLM),我們使用了GPT-4的官方API(包括GPT-4-vision-preview和GPT-4o)以及LLaVA-v1.5-13b-full ft-1e權重。此外,我們還進行了VQA基準測試,使用基于ResNet18的MLP分類模型,數據集按3:1比例分為訓練集和測試集,采用Adam優化器和交叉熵損失函數進行20個周期的訓練。

C. 定量和定性結果

與最新方法的比較:在本節中,我們將提出的少樣本方法與OpenLane-V2驗證集上的最新監督方法進行了比較。表I顯示了與LaneSegNet、TopoLogic和MapVision等方法的比較結果。

我們的方法使用了兩個不同的基線,每個基線使用不同的骨干網絡?;€基于LanesegNet和TopoMLP實現,并結合了SMERF中的SD編碼和融合過程。如表所示,我們的方法在few-shot設置中實現了與監督基線相當的性能,甚至在TOPlste任務中略微超過了全監督模型??傮w而言,我們的方法在僅使用少樣本的情況下表現出顯著的競爭力。

圖片

圖四:TopoMLP和我們的方法(Chameleon)在OpenLane-V2驗證數據集上的定性結果對比。(a) 車輛剛剛通過交叉路口。(b) 前方有一個左轉交通燈。(c) 地面車道標有直行標志。(d) 車輛行駛在單向右轉車道上。所選場景均為邊緣情況,需要通過密集視覺提示進行進一步推理。每個子圖均包含鳥瞰圖(BEV)和前視圖(PV)。藍色線條表示車道線段檢測結果,綠色線條表示車道與交通元素之間的真正例(ls-te),粉色線條表示車道與交通元素之間的假正例(ls-te)。當車輛剛剛通過交叉路口時(圖4-a),車輛正上方的綠燈與交叉路口前方的車道沒有拓撲關系。我們的方法(Chameleon)理解了綠燈與車道之間的空間關系,從而做出了正確的判斷,而TopoMLP則相反。在圖4-b中,左轉交通燈僅與最左側車道存在拓撲連接。與TopoMLP不同,我們的方法正確地忽略了與右側車道的關系。地面車道標有直行標志(圖4-c),因此該標志僅與其自身車道和連接車道相關,而不是其他平行車道。我們的方法做到了這一點,而TopoMLP沒有做到。車輛行駛在單向右轉車道上(圖4-d),控制直行交通的兩側綠燈不影響車輛。我們的解決方案正確地判斷了綠燈與車道之間不存在拓撲關系。

不同VLM方法的VQA比較:由于其通用性,VQA與各種VLM兼容。表II比較了不同VLM在四個任務上的性能。在這些任務中,我們發現GPT-4的性能與監督分類器模型相當,而LLaVA在語義和空間理解任務中表現較差。

圖片

數據和推理效率比較:為了比較不同方法之間的推理成本,我們在RTX 4080 GPU上測試了LLaVA的平均VQA任務延遲。平均VQA延遲約為1447毫秒。在我們的實驗中,每幀平均執行6次VQA,導致慢速系統的延遲為8.7秒/幀。TopoMLP的延遲根據不同的骨干網絡和圖像分辨率而變化,范圍從140毫秒到700毫秒。密集視覺提示的延遲是基于20×20矩陣的逐個VQA計算得出的,結果為每幀超過200秒。詳細信息總結在表IV中。

圖片

定性結果:為了更直觀地展示我們算法的性能,我們還提供了OpenLane-V2驗證數據集上預測的ls-ls關系和ls-te關系的定性可視化結果。所有比較的場景均為邊緣情況,每個子圖均包含鳥瞰圖和前視圖。藍色線條表示車道線段檢測結果,綠色線條表示ls-te真正例,粉色線條表示ls-te假正例。

當車輛剛剛通過交叉路口時(圖4-a),車輛正上方的綠燈與交叉路口前方的車道沒有拓撲關系。我們的方法(Chameleon)理解了綠燈與車道之間的空間關系,從而做出了正確的判斷,而TopoMLP則相反。在圖4-b中,左轉交通燈僅與最左側車道存在拓撲連接。與TopoMLP不同,我們的方法正確地忽略了與右側車道的關系。地面車道標有直行標志(圖4-c),因此該標志僅與其自身車道和連接車道相關,而不是其他平行車道。我們的方法做到了這一點,而TopoMLP沒有做到。車輛行駛在單向右轉車道上(圖4-d),控制直行交通的兩側綠燈不影響車輛。我們的解決方案正確地判斷了綠燈與車道之間不存在拓撲關系。

圖片

D. 消融研究

我們在OpenLane-V2驗證集上對TOPlsls任務進行了消融研究,以評估我們框架中每個組件的有效性。結果如表V所示?!疤崾镜椒枴敝傅氖莾H提供API提示的基本神經符號推理。由于生成代碼的不穩定性,我們報告了三次符號推理結果的平均值作為最終性能。“專家規則”指的是將專家觀察結果納入提示。對于少樣本示例,我們引入了三個正例和三個負例以改進生成的程序。

結論

本文介紹了一種名為“Chameleon”的新方法,該方法結合了密集視覺提示和神經符號推理,利用視覺語言基礎模型(VLM)以few-shot的方式提取車道拓撲。Chameleon通過整合視覺信息來合成程序,針對特定場景定制處理過程,并通過密集視覺提示高效地處理邊緣情況。通過平衡計算效率和高性能,Chameleon適用于實時機器人應用,并展示了將視覺輸入整合到復雜三維場景任務程序合成中的潛力。未來的工作可以探索將這種方法擴展到其他自動駕駛領域。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2025-03-27 09:47:23

訓練模型AI

2021-05-04 23:34:02

Windows 10Windows微軟

2024-04-16 09:42:38

自動駕駛模型

2025-02-10 08:40:00

訓練數據模型

2021-11-15 10:00:22

模型人工智能NLP

2021-10-25 08:00:00

工具DataTrucker后端

2024-02-28 09:59:25

模型自動駕駛

2021-04-19 17:10:47

Windows 10Windows微軟

2023-05-22 07:31:32

Nums快慢指針

2021-09-18 10:45:58

Windows 11Windows微軟

2020-03-25 18:05:52

淘寶主頁跳窗APP更新

2012-11-08 16:25:48

Win 8

2009-10-15 10:04:57

無線直連

2014-10-31 14:25:39

2024-07-26 09:19:41

2023-10-20 12:45:00

AI數據

2025-03-12 09:05:02

2014-12-10 09:31:56

邊界網關協議BGP安全路由器安全

2024-03-11 13:20:00

模型AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久新视频 | 亚洲精品黄色 | 在线国产视频 | 亚洲天堂精品一区 | 插插宗合网 | 日韩不卡一区二区 | 蜜桃视频一区二区三区 | 国产伊人久久久 | 亚洲精品电影在线观看 | 久草青青 | 伊人久久成人 | 黑色丝袜三级在线播放 | 午夜av一区二区 | 国产午夜精品一区二区三区四区 | 激情在线视频网站 | 欧美成视频| 91精品国产综合久久久动漫日韩 | 龙珠z在线观看 | 精品毛片 | 欧美日韩三级在线观看 | 日韩精品久久久 | 日韩蜜桃视频 | 91免费看片 | 久久久久久久久久久91 | 国产精品视频一 | 一区二区三区视频在线 | 成人不卡视频 | 色一级片| 狠狠爱综合网 | 一区二区三区国产 | 伊人中文字幕 | 99热99 | 天天综合永久 | 成人不卡一区二区 | 成年网站在线观看 | 粉嫩国产精品一区二区在线观看 | 中文字幕三区 | 日韩二区 | 一区免费看 | 天天影视综合 | 日韩久久久久 |