成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

駛向『閉環(huán)』| LMDrive:首篇基于LLM的閉環(huán)端到端自動(dòng)駕駛

人工智能 智能汽車
本文介紹了LMDrive,這是一個(gè)語言引導(dǎo)的端到端閉環(huán)自動(dòng)駕駛框架。LMDrive結(jié)合了自然語言指令和多模式傳感器數(shù)據(jù),實(shí)現(xiàn)了復(fù)雜駕駛場景中的人機(jī)交互和導(dǎo)航。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫在前面&筆者的個(gè)人理解

汽車人這兩天在arxiv上看到了港中文MMLab&商湯的一篇關(guān)于閉環(huán)自動(dòng)駕駛的工作,結(jié)合了大語言模型。不幸湯老師于12月15日與世長辭,R.I.P.

盡管自動(dòng)駕駛領(lǐng)域最近取得了重大進(jìn)展,但當(dāng)遇到長尾不可預(yù)見事件和具有挑戰(zhàn)性的城市場景時(shí),現(xiàn)代方法仍然很困難,可能會(huì)發(fā)生嚴(yán)重事故。一方面,大型語言模型(LLM)已經(jīng)顯示出接近“通用人工智能”的表達(dá)推理能力。另一方面,先前的自動(dòng)駕駛方法往往依賴于有限的格式輸入(例如傳感器數(shù)據(jù)和導(dǎo)航路線點(diǎn)),限制了車輛理解語言信息和與人類互動(dòng)的能力。為此,港中文 & MMLab重磅推出LMDrive,這是一種全新的語言引導(dǎo)、端到端閉環(huán)自動(dòng)駕駛框架。LM-Drive獨(dú)特地處理并集成了多模態(tài)傳感器數(shù)據(jù)與自然語言指令,使其能夠在現(xiàn)實(shí)的教學(xué)環(huán)境中與人類和導(dǎo)航軟件進(jìn)行交互。為了促進(jìn)對(duì)基于語言的閉環(huán)自動(dòng)駕駛的進(jìn)一步研究,我們還公開發(fā)布了相應(yīng)的數(shù)據(jù)集,其中包括大約64K的指令跟隨數(shù)據(jù)clip,以及測試系統(tǒng)處理復(fù)雜指令和具有挑戰(zhàn)性的駕駛場景的能力的LangAuto基準(zhǔn)。進(jìn)行了大量的閉環(huán)實(shí)驗(yàn)來證明LMDrive的有效性。據(jù)我們所知,本文是第一個(gè)利用LLM實(shí)現(xiàn)閉環(huán)端到端自動(dòng)駕駛的工作。

開源鏈接:https://github.com/opendilab/LMDrive

總結(jié)來說,LMDrive的主要貢獻(xiàn)如下:

  • 提出了一種新的端到端、閉環(huán)、基于語言的自動(dòng)駕駛框架LMDrive,該框架通過多模態(tài)多視圖傳感器數(shù)據(jù)和自然語言指令與動(dòng)態(tài)環(huán)境交互;
  • 提供了一個(gè)包含約64K個(gè)數(shù)據(jù)clip的數(shù)據(jù)集,其中每個(gè)片段包括一個(gè)導(dǎo)航指令、幾個(gè)通知指令、一系列多模態(tài)多視圖傳感器數(shù)據(jù)和控制信號(hào)。clip的持續(xù)時(shí)間從2秒到20秒不等。
  • 提出了全新的基準(zhǔn)—LangAuto,用于評(píng)估將語言指令作為導(dǎo)航輸入的自主代理,其中包括誤導(dǎo)性/長指令和具有挑戰(zhàn)性的對(duì)抗性駕駛場景。
  • 本文進(jìn)行了廣泛的閉環(huán)實(shí)驗(yàn),以證明所提出的框架的有效性,并分析了LMDrive的不同組件,以闡明沿著這一方向的持續(xù)研究。

相關(guān)工作回顧

端到端自動(dòng)駕駛

最近,端到端自動(dòng)駕駛領(lǐng)域取得了很大進(jìn)展。UniAD設(shè)計(jì)了一個(gè)包含全棧驅(qū)動(dòng)任務(wù)的框架,并利用查詢統(tǒng)一接口在不同任務(wù)之間進(jìn)行通信。ThinkTwice設(shè)計(jì)了一個(gè)Look模塊來檢索關(guān)鍵區(qū)域的信息,并利用這些特征來細(xì)化粗略預(yù)測。ReasonNet利用駕駛場景的時(shí)間和全局信息來提高感知性能并有利于遮擋檢測。InterFuser提出了一種基于transformer的框架,以完全融合和處理來自多模態(tài)多視圖傳感器的信息,從而實(shí)現(xiàn)全面的場景理解。TCP提出了一種新的多步預(yù)測方法,將軌跡規(guī)劃和直接控制這兩個(gè)分支集成在一起。LAV引入了一些監(jiān)督任務(wù)來學(xué)習(xí)視點(diǎn)不變表示,該表示可以在訓(xùn)練時(shí)提供更豐富的監(jiān)督信號(hào),并在推理過程中為復(fù)雜推理提供更多信息。除了之前討論的模仿訓(xùn)練方法之外,還有幾種方法試圖結(jié)合強(qiáng)化學(xué)習(xí)策略。以監(jiān)督的方式訓(xùn)練潛在DRL,以獲得環(huán)境觀測的潛在表示,并使用該表示作為輸入進(jìn)行強(qiáng)化學(xué)習(xí)。Roach使用了一個(gè)具有特權(quán)訪問環(huán)境信息的強(qiáng)化學(xué)習(xí)代理,并提取一個(gè)模型作為最終代理。ASAPRL和TaEcRL利用抽象技能,通過促進(jìn)有效的探索和獎(jiǎng)勵(lì)信號(hào),有效提高強(qiáng)化學(xué)習(xí)效率和最終表現(xiàn)。然而,這些端到端的方法缺乏與人類(乘客)進(jìn)行口頭或文本交互的能力,并且在決策過程中通常具有較低的可解釋性。

駕駛?cè)蝿?wù)中的大語言模型

在過去的幾個(gè)月里,大型語言模型(LLM)取得了新的進(jìn)展。此外,視覺大語言模型(VLLM)進(jìn)一步引入了視覺編碼器,并為LLM不僅解釋文本數(shù)據(jù),還解釋其他模態(tài)的圖像和數(shù)據(jù)打開了大門。在自動(dòng)駕駛領(lǐng)域,最近的研究將LLM集成到自動(dòng)駕駛系統(tǒng)中,以更好地解釋和與人類的自然互動(dòng)。一些研究采用了視覺語言模型方法,該方法可以處理多模態(tài)輸入數(shù)據(jù),并為駕駛場景提供文本描述和控制信號(hào)。例如,DRIVEGPT4提出了一種多模態(tài)LLM框架,該框架將一系列幀作為輸入,然后生成對(duì)人類詢問的響應(yīng),并預(yù)測下一步的控制信號(hào)。然而,由于該框架缺乏輸入命令,預(yù)測的控制無法遵循特定的導(dǎo)航命令,這表明該框架很難在真實(shí)場景中部署。與此同時(shí),更多的研究人員專注于將駕駛情況轉(zhuǎn)換為文本描述,作為LLM的輸入,以直接解釋和推理綜合駕駛情況。在這一系列工作中,GPT-Driver通過將異構(gòu)場景輸入轉(zhuǎn)換為語言標(biāo)記,將運(yùn)動(dòng)規(guī)劃重新表述為自然語言建模的任務(wù)。LanguageMPC利用LLM來推理復(fù)雜場景并輸出高級(jí)駕駛決策。然后,該方法調(diào)諧參數(shù)矩陣以將決策轉(zhuǎn)換為低電平控制信號(hào)。LLM-Driver利用數(shù)字矢量作為輸入模態(tài),并融合矢量化對(duì)象級(jí)2D場景表示,使LLM能夠基于當(dāng)前環(huán)境回答問題。

然而,這項(xiàng)工作只考慮了開環(huán)設(shè)置中的駕駛問題,而忽略了累積誤差、時(shí)間動(dòng)作一致性和端到端可訓(xùn)練性等問題,這些問題對(duì)于將模型帶入實(shí)際的閉環(huán)駕駛?cè)蝿?wù)至關(guān)重要。據(jù)我們所知,我們是第一個(gè)在閉環(huán)環(huán)境中基于語言的端到端自動(dòng)駕駛方法。相關(guān)數(shù)據(jù)集、基準(zhǔn)和訓(xùn)練模型也是開源的,以促進(jìn)社區(qū)的進(jìn)一步研究。

數(shù)據(jù)生成

數(shù)據(jù)集制作的目標(biāo)是開發(fā)一種智能駕駛代理,該代理可以基于三種輸入源生成駕駛動(dòng)作:1)傳感器數(shù)據(jù)(環(huán)視相機(jī)和激光雷達(dá)),使該代理能夠生成感知并符合當(dāng)前場景的動(dòng)作;2) 導(dǎo)航指令(例如變道、轉(zhuǎn)彎),使代理可以駕駛以滿足自然語言的要求(來自人類或?qū)Ш杰浖闹噶睿?;以?)人類注意指令,使代理能夠與人類互動(dòng)并適應(yīng)人類的建議和偏好(例如,關(guān)注對(duì)抗性事件、處理長尾事件等)。本節(jié)描述了如何生成訓(xùn)練代理所需的多模態(tài)數(shù)據(jù)集,以及導(dǎo)航指令和人工通知指令的提示設(shè)計(jì)。具體來說,我們選擇CARLA作為仿真器,因?yàn)樗梢阅M真實(shí)的動(dòng)態(tài)閉環(huán)世界,并且在端到端自動(dòng)駕駛領(lǐng)域被廣泛采用。數(shù)據(jù)采集包括兩個(gè)階段:1)利用專家代理收集傳感器數(shù)據(jù)和控制信號(hào);以及2)用指令解析和標(biāo)記所收集的數(shù)據(jù)。

傳感器和控制數(shù)據(jù)收集。我們利用基于規(guī)則的專家代理來創(chuàng)建一個(gè)包括大約3M個(gè)驅(qū)動(dòng)幀的數(shù)據(jù)集。由于專家代理可以訪問CARLA中的特權(quán)信息,因此該數(shù)據(jù)集將包括相機(jī)數(shù)據(jù)、激光雷達(dá)數(shù)據(jù)和每幀的控制動(dòng)作。為了增強(qiáng)所收集數(shù)據(jù)集的多樣性,該代理在2.5k條路線、8個(gè)城鎮(zhèn)和21種環(huán)境條件(如天氣、一天中的時(shí)間)上運(yùn)行。我們使用四個(gè)RGB相機(jī)(左、前、右、后)和一個(gè)激光雷達(dá)。側(cè)面攝像頭的角度為60°。此外,我們對(duì)前面的圖像進(jìn)行中心裁剪,作為額外的聚焦視圖圖像,以捕捉遠(yuǎn)處紅綠燈的狀態(tài)。激光雷達(dá)有64個(gè)通道,每秒產(chǎn)生600K個(gè)點(diǎn)。

解析和語言注釋。在第二階段,我們將收集的數(shù)據(jù)解析為clip,并用適當(dāng)?shù)膶?dǎo)航指令和可選的通知指令標(biāo)記每個(gè)片段。解析過程將一系列幀作為輸入,并將這些幀分段為clip,其中每個(gè)clip對(duì)應(yīng)一個(gè)導(dǎo)航指令。例如,如果代理在第T0幀開始左轉(zhuǎn)并在第Tn幀結(jié)束,我們將把(T0,Tn)標(biāo)記為新剪輯,并指示“在下一個(gè)十字路口左轉(zhuǎn)”。此外,如果在時(shí)間Ta發(fā)生對(duì)抗性事件1,我們將在該片段中添加一條通知指令,模擬真實(shí)場景,當(dāng)緊急情況發(fā)生時(shí),乘客或側(cè)面輔助系統(tǒng)將與駕駛員進(jìn)行通信。如圖2所示,每個(gè)片段包括傳感器數(shù)據(jù)、控制信號(hào)、相應(yīng)的導(dǎo)航指令和可選的通知指令。解析后的剪輯在剪輯長度和相應(yīng)指令方面的分布如圖3所示。在我們的數(shù)據(jù)集中,我們收集了64K個(gè)解析片段和464K條通知指令。

指令設(shè)計(jì)。我們考慮三種類型的導(dǎo)航指令(跟隨、轉(zhuǎn)向和其他)以及一種類型的通知指令,共由56種不同的指令組成。表1顯示了一些示例,完整列表可在補(bǔ)充材料中找到。為了使代理能夠在現(xiàn)實(shí)的教學(xué)環(huán)境中駕駛,其中指令來自導(dǎo)航軟件或人類:

  • 使指令多樣化:考慮到自然語言的內(nèi)在豐富性,對(duì)于每種類型的指令,使用ChatGPT API生成了八種不同的變體,每個(gè)變體具有相同的語義,但措辭不同。這使得語言解釋更加全面和靈活,能夠適應(yīng)相同指令的不同傳達(dá)方式。
  • 包含誤導(dǎo)性說明:在現(xiàn)實(shí)世界中,導(dǎo)航軟件或乘客可能會(huì)向AV發(fā)出違反交通規(guī)則或引發(fā)安全問題的誤導(dǎo)性說明。例如,在單行道上,遵循“變左車道”的指示是危險(xiǎn)的。為了提高我們的模型對(duì)誤導(dǎo)性指令的穩(wěn)健性,我們模擬了這些場景,并將它們添加到我們的數(shù)據(jù)集中。
  • 連接多個(gè)指令:在許多情況下,指令可能由兩到三個(gè)連續(xù)的指令組成,例如“在這個(gè)十字路口右轉(zhuǎn),然后直行到下一個(gè)十字路口再右轉(zhuǎn)?!蔽覀冞€構(gòu)建了一些連續(xù)的復(fù)雜指令數(shù)據(jù),以模擬真實(shí)的基于導(dǎo)航的駕駛場景。

LMDrive解析

在這項(xiàng)工作中,我們提出了LMDrive,這是一個(gè)可以通過自然語言理解和遵循高級(jí)駕駛指令的框架。如圖4所示,LM-Drive由兩個(gè)主要組件組成:1)視覺編碼器,處理多視圖多模態(tài)傳感器數(shù)據(jù)(相機(jī)和激光雷達(dá)),用于場景理解和生成視覺標(biāo)記;2) 一個(gè)大型語言模型及其相關(guān)組件(標(biāo)記器、Q-Former和適配器),該組件接收視覺標(biāo)記和語言指令,以預(yù)測控制信號(hào)以及給定指令是否完成。

視覺編碼器

在視覺語言社區(qū)中,對(duì)齊視覺和語言的最常見方法可以是使用預(yù)先訓(xùn)練的CLIP模型來編碼圖像特征。然而,CLIP模型的大觸發(fā)器和參數(shù)大小增加了其在AV系統(tǒng)中的部署難度。此外,AV感知系統(tǒng)通常是3D的,以包括激光雷達(dá)輸入。因此,受InterFuser和TF++的啟發(fā),我們?cè)O(shè)計(jì)了一種多視圖多模態(tài)視覺編碼器來編碼/融合傳感器數(shù)據(jù)。如圖5所示,視覺編碼器由傳感器編碼部分和BEV解碼器組成,傳感器編碼部分分別對(duì)圖像和激光雷達(dá)輸入進(jìn)行編碼,BEV解碼器融合圖像和點(diǎn)云特征以生成視覺標(biāo)記,然后將其傳遞到語言模型。值得注意的是,通過添加額外的預(yù)測頭,對(duì)視覺編碼器進(jìn)行感知任務(wù)的預(yù)訓(xùn)練,然后凍結(jié)編碼器以供大型語言模型稍后使用。

傳感器編碼。對(duì)于每個(gè)圖像輸入,使用2D主干ResNet來提取圖像特征圖。然后將特征圖展平為一維token。為了從多個(gè)角度全面理解全局上下文,來自不同視圖的令牌將通過標(biāo)準(zhǔn)K層transformer編碼器進(jìn)行融合,每一層都包含多頭自注意力、MLP塊和layer normalization。對(duì)于激光雷達(dá)輸入,采用3D骨干PointPillars將原始點(diǎn)云數(shù)據(jù)處理為以自車為中心的激光雷達(dá)特征,其中每個(gè)pillar包含0.25m×0.25m區(qū)域內(nèi)的點(diǎn)。然后使用PointNet來聚合特征,并將特征圖下采樣到C×H×W,隨后用作BEV查詢。

BEV解碼器。然后將上面編碼的傳感器特征傳遞到BEV解碼器中以生成視覺標(biāo)記。具體而言,BEV解碼器被設(shè)計(jì)為具有K層的標(biāo)準(zhǔn)transformer。BEV點(diǎn)云特征作為H×W查詢被饋送到BEV解碼器,以關(guān)注多視圖圖像特征并生成BEV令牌。我們還將N個(gè)可學(xué)習(xí)查詢和1個(gè)可學(xué)習(xí)詢問饋送到BEV解碼器,以分別生成N個(gè)路點(diǎn)token和1個(gè)紅綠燈token。因此,三種類型的視覺標(biāo)記(BEV、航路點(diǎn)和紅綠燈)將包含豐富的場景信息,然后將饋送給大型語言模型。

使用預(yù)測頭進(jìn)行預(yù)訓(xùn)練。我們考慮了三個(gè)視覺編碼器預(yù)訓(xùn)練任務(wù):目標(biāo)檢測、未來航路點(diǎn)預(yù)測和紅綠燈狀態(tài)分類。對(duì)于目標(biāo)檢測,BEVtoken將通過一個(gè)階段的中心點(diǎn)來預(yù)測Hm×Wm區(qū)域中目標(biāo)的邊界框和速度。對(duì)于航路點(diǎn)預(yù)測,我們將N個(gè)航路點(diǎn)標(biāo)記和導(dǎo)航航路點(diǎn)依次傳遞到GRU網(wǎng)絡(luò)中,以預(yù)測N個(gè)未來航路點(diǎn)。對(duì)于紅綠燈狀態(tài)分類,將2層MLP應(yīng)用于紅綠燈令牌??紤]了三個(gè)相應(yīng)的損耗項(xiàng):1)InterFuser中的檢測損耗;2) l1路失分;以及3)交叉熵交通信號(hào)燈狀態(tài)損失。請(qǐng)注意,這些預(yù)測頭僅用于視覺編碼器的預(yù)訓(xùn)練,并且將在LLM的訓(xùn)練和整個(gè)模型的推理中被丟棄。

LLM for instruction-following auto driving

如圖4所示,在我們的框架中,LLM在整個(gè)駕駛過程中充當(dāng)“大腦”,處理凍結(jié)視覺編碼器為每一幀生成的傳感器token,理解自然語言指令,生成必要的控制信號(hào),并預(yù)測給定指令是否完成。具體而言,我們選擇LLaMA作為語言主干,它已被廣泛用于許多語言和視覺教學(xué)調(diào)整模型。我們還有三個(gè)相關(guān)的組件來橋接LLM與指令、視覺信息輸入和動(dòng)作預(yù)測:1)標(biāo)記器,2)Q-Former,3)兩個(gè)適配器。

指令和可視化tokenization。給定導(dǎo)航指令和可選通知指令,使用LLaMA標(biāo)記器將指令轉(zhuǎn)換為文本標(biāo)記。請(qǐng)注意,執(zhí)行一條指令的持續(xù)時(shí)間將從幾秒鐘到幾分鐘不等,并且我們的模型是在閉環(huán)設(shè)置中部署的。因此,在每一幀,我們利用所有歷史傳感器信息(具有最大極限Tmax)來降低累積誤差并提高模型的時(shí)間一致性。具體而言,對(duì)于每幀的多視圖多模態(tài)傳感器輸入,我們利用上一節(jié)中預(yù)先訓(xùn)練的視覺編碼器來生成視覺標(biāo)記(H×W BEV標(biāo)記、N個(gè)航路點(diǎn)標(biāo)記和一個(gè)紅綠燈標(biāo)記)。然而,視覺標(biāo)記的數(shù)量(例如,每幀406個(gè)標(biāo)記)對(duì)于LLM來說迅速增長得太大,因?yàn)橥ǔP枰獢?shù)百個(gè)幀來完成一條指令。為了克服這一點(diǎn),本文遵循BLIP-2 使用Q-Former來減少視覺標(biāo)記的數(shù)量。具體來說,對(duì)于每一幀,我們使用M個(gè)可學(xué)習(xí)查詢來通過交叉注意力層處理視覺令牌,這可以將每一幀的視覺令牌數(shù)量減少到M。隨后,我們使用2層MLP適配器將Q-Former提取的令牌轉(zhuǎn)換為與語言令牌共享相同的維度,然后將其饋送到LLM中。

行為預(yù)測。在接收到一系列指令和視覺標(biāo)記后,LLM預(yù)測動(dòng)作標(biāo)記。然后應(yīng)用另一個(gè)2層MLP適配器來預(yù)測未來的路點(diǎn),以及指示給定指令是否已完成的標(biāo)志。注意,為了增強(qiáng)監(jiān)督信號(hào),我們還將在訓(xùn)練期間對(duì)每個(gè)歷史幀進(jìn)行預(yù)測,并且在推理時(shí)只執(zhí)行最新幀的預(yù)測。為了獲得最終的控制信號(hào),包括制動(dòng)、節(jié)流和轉(zhuǎn)向,遵循LBC,使用兩個(gè)PID控制器進(jìn)行橫向和縱向控制,分別跟蹤預(yù)測航路點(diǎn)的航向和速度。

訓(xùn)練目標(biāo)。當(dāng)微調(diào)LLM及其相關(guān)組件時(shí),我們考慮兩個(gè)損失項(xiàng):1)l1航路點(diǎn)損失;2) 分類損失(交叉熵),用于確定當(dāng)前幀是否完成給定的指令。

LangAuto基準(zhǔn)

我們提出了LangAuto(語言引導(dǎo)的自動(dòng)駕駛)CARLA基準(zhǔn),這是第一個(gè)評(píng)估語言指令下閉環(huán)駕駛性能的基準(zhǔn)。與之前的CARLA基準(zhǔn)測試Town05和Longest6相比,我們的基準(zhǔn)測試僅為AV提供自然語言的導(dǎo)航指令和可選通知指令。

具體而言,LangAuto基準(zhǔn)涵蓋了CARLA的所有8個(gè)公共城鎮(zhèn),包括各種場景(如高速公路、十字路口、環(huán)形交叉口)。我們還考慮了16種環(huán)境條件,包括7種天氣條件(晴朗、多云、潮濕、中雨、多云、大雨、軟雨)和3種日光條件(夜間、中午、日落)的組合。此外,LangAuto由三個(gè)軌道組成,以全面測試agent的指令跟隨能力:

  • LangAuto跟蹤:對(duì)于每條路線,都會(huì)根據(jù)代理的當(dāng)前位置向代理提供并更新導(dǎo)航指令。我們還將這條賽道分為三個(gè)不同路線長度的經(jīng)典賽道,以更好地區(qū)分性能。路線長度超過500米的LangAuto,路線長度在150米到500米之間的LangAuto Short,以及路線長度短于150米的LangAuto Tiny。
  • LangAuto-Notice跟蹤:在LangAuto跟蹤的基礎(chǔ)上,我們向代理添加了額外的通知說明。該設(shè)置模擬了乘客或其他輔助系統(tǒng)可以在長距離復(fù)雜或?qū)剐詧鼍爸邪l(fā)出實(shí)時(shí)通知的真實(shí)情況,這通常是AV系統(tǒng)難以自行處理的。理想情況下,能夠理解和利用指令的代理可以實(shí)現(xiàn)更好的性能。
  • LangAuto-Sequential跟蹤:基于LangAuto跟蹤,我們將10%的連續(xù)2到3條指令合并為一條長指令。此設(shè)置模擬了來自乘客或?qū)Ш杰浖亩嗾Z句指令的現(xiàn)實(shí)場景。

請(qǐng)注意,誤導(dǎo)性指示將隨機(jī)(~5%)間歇性地提供給駕駛代理,并持續(xù)一定的時(shí)間(1-2秒)。駕駛代理應(yīng)拒絕這些誤導(dǎo)性指令,并執(zhí)行符合當(dāng)前場景的安全操作,直到產(chǎn)生下一個(gè)正確指令。

實(shí)驗(yàn)結(jié)果

定量結(jié)果

消融實(shí)驗(yàn)

LangAuto-Notice Benchmark

LangAuto-Sequential Benchmark

可視化結(jié)果

結(jié)論

本文介紹了LMDrive,這是一個(gè)語言引導(dǎo)的端到端閉環(huán)自動(dòng)駕駛框架。LMDrive結(jié)合了自然語言指令和多模式傳感器數(shù)據(jù),實(shí)現(xiàn)了復(fù)雜駕駛場景中的人機(jī)交互和導(dǎo)航。我們還提出了語言引導(dǎo)駕駛數(shù)據(jù)集,包括大約64K個(gè)多模態(tài)數(shù)據(jù)片段以及相應(yīng)的導(dǎo)航指令。此外還建立了LangAuto基準(zhǔn),用于評(píng)估考慮自然語言指令的自動(dòng)駕駛系統(tǒng)。通過廣泛的閉環(huán)實(shí)驗(yàn)證明了LMDrive的有效性,強(qiáng)調(diào)了改善自動(dòng)駕駛汽車與人類和環(huán)境相互作用的潛力。我們的工作是在基于語言的閉環(huán)端到端自動(dòng)駕駛領(lǐng)域進(jìn)一步探索和發(fā)展的一個(gè)鼓勵(lì)起點(diǎn)。

原文鏈接:https://mp.weixin.qq.com/s/2TSWGZTiBYkwF8xteKcu8w

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-06-05 09:22:43

2024-01-04 09:27:00

模型自動(dòng)駕駛

2023-04-28 09:24:50

自動(dòng)駕駛數(shù)據(jù)

2025-04-11 09:48:26

2023-10-30 09:47:00

自動(dòng)駕駛技術(shù)

2024-04-29 09:36:14

仿真器傳感器

2024-08-29 10:20:00

3D自動(dòng)駕駛

2020-09-28 14:00:06

自動(dòng)駕駛AI網(wǎng)絡(luò)

2023-08-05 13:08:54

2024-04-15 11:40:37

自動(dòng)駕駛端到端

2023-08-24 09:52:44

自動(dòng)駕駛設(shè)計(jì)

2024-08-14 10:40:00

模型自動(dòng)駕駛

2024-02-21 09:14:32

端到端自動(dòng)駕駛

2023-12-08 09:50:44

自動(dòng)駕駛機(jī)器學(xué)習(xí)數(shù)據(jù)

2023-10-13 09:43:36

自動(dòng)駕駛數(shù)據(jù)

2022-08-29 09:15:54

自動(dòng)駕駛數(shù)據(jù)

2024-01-04 09:35:41

自動(dòng)駕駛端到端

2025-02-10 10:35:00

自動(dòng)駕駛端到端模型

2022-08-09 14:42:44

自動(dòng)駕駛算力

2021-12-24 13:28:15

自動(dòng)駕駛數(shù)據(jù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 天堂中文在线观看 | 久久久久国产精品 | 久草视频网站 | 久久久国产精品 | 一区二区三区四区在线视频 | 欧美福利网站 | 欧美一级片在线观看 | 激情网站在线观看 | 99tv| 一级欧美一级日韩片 | 成人小视频在线观看 | 中文字幕日本一区二区 | 国产丝袜一区二区三区免费视频 | 黄色成人亚洲 | 曰韩三级 | 91精品国产综合久久婷婷香蕉 | 午夜日韩| 蜜桃在线一区二区三区 | 99久久精品国产一区二区三区 | 欧美激情在线观看一区二区三区 | 在线中文字幕亚洲 | 久草视频在线播放 | 久久久xxx | 91久久| 精品国产乱码久久久久久闺蜜 | 午夜视频在线观看一区二区 | 手机三级电影 | 中文字幕第十一页 | 欧美久久久久久久久中文字幕 | 狠狠亚洲 | 午夜在线 | 国产成人一区二 | 国产亚洲二区 | 日本久久久一区二区三区 | 亚洲三区在线观看 | 在线免费观看黄色 | 91精品国产综合久久久久久 | 亚洲综合一区二区三区 | 亚洲欧美日韩精品久久亚洲区 | 欧美一级欧美三级在线观看 | 午夜视频在线播放 |