深度解析以Decoder為核心的無BEV的大一統(tǒng)端到端架構(gòu) | 對話CCF-CV學(xué)術(shù)新銳獎賈蕭松博士

作者：自動駕駛之心 2025-03-18 10:29:48

端到端自動駕駛，像剛才說的一個最原始的設(shè)定，就是希望神經(jīng)網(wǎng)絡(luò)自動通過K通過軌跡的好壞的關(guān)聯(lián)，自動找到像素空間上哪些pixel對我這個決策是有作用。

論文的一些巧思

1. 人開車其實(shí)并沒有最優(yōu)解，請問如何確定學(xué)習(xí)時的參考數(shù)據(jù)呢?

開車其實(shí)也是多種多樣的，然后你模仿學(xué)習(xí)本質(zhì)上就是告訴他你只能這樣做，你做了別的那個mass loss還會懲罰他。其實(shí)就是我們說的，我們其實(shí)就不能通過模仿來做。我們應(yīng)該通過告訴他，你這個事情做的到底對不對，你要對了，我就不管你怎么做的，你都是對的對吧？所以說這個就是這樣一個理念。

2. Drivetransformer為什么還要直接出感知？我覺得是這樣的，就是說端到端自動駕駛，像剛才說的一個最原始的設(shè)定，就是希望神經(jīng)網(wǎng)絡(luò)自動通過K通過軌跡的好壞的關(guān)聯(lián)，自動找到像素空間上哪些pixel對我這個決策是有作用。這就是本質(zhì)上最原始的想法。就像ResNet它通過訓(xùn)練能自動找到。比如說我classify鳥的時候，我就看看那些翅膀之類的。但是自動駕駛作為一個高維的還是一個環(huán)視，就很難在環(huán)視相當(dāng)于是超高維的場景。因?yàn)榄h(huán)視首先是6到11個相機(jī)，其次我的圖并不是ImageNet那種224幼稚的圖。我們是一分辨率是幾百幾千的圖片，然后6張到11張，然后我們還是多幀的，可以看到我們這個空間是非常瘋狂的，超高維的。這就是大家機(jī)器學(xué)習(xí)第一課。Curse of dimension問題會非常嚴(yán)重，就導(dǎo)致其實(shí)我覺得在現(xiàn)階段，就大家還沒有瘋狂到能不借助任何輔助的一些東西來讓它收斂。

3. 加detection的好處是什么？

我們可以通過看detection transformer初步學(xué)一些邏輯。就是說車這個東西我都告訴你很重要了，這樣我們我們也能有效利用這個標(biāo)注。

所以說我覺得在現(xiàn)階段我們標(biāo)注還是有一定作用的，尤其是可以從閉環(huán)、數(shù)據(jù)效率、scale up角度看這個問題。

4. 然后有人問我的方法是decoder only嗎？

其實(shí)并不是的，就是也是有image backbone，只不過之前的方法scale up的都是encoder部分，我這個方法其實(shí)想更多的研究一下scale up decoder的收益因?yàn)镚PT是在scale up decoder，包括其實(shí)VLM scale up的過程中 Scale up VIT的收益，其實(shí)不如scale up LLM來得快。就比如說可能LLM都從7B到70B能力有個飛躍。但VIT從400M變到6B或者說多大好像你要說能有多大的飛躍其實(shí)對就是還有待觀察。

生成模型與世界模型

5. 生成模型出來的圖像符合物理世界規(guī)律嗎

我們在這篇工作中，就Bench2drive的后續(xù)工作中，我們的物理規(guī)律是通過框的推演進(jìn)行的。

所以說我從一開始就跟組里同學(xué)討論，我們不做video diffusion model。因?yàn)槲覀冋J(rèn)為pixel to pixel的映射學(xué)到物理規(guī)律很難，這都是英偉達(dá)或者DeepMind的那個級別，可能能真的幾十萬卡10萬卡能訓(xùn)出來，真的通過視頻pixel到pixel學(xué)出物理規(guī)律，不然的話其實(shí)很容易就從pixel到pixel學(xué)出反物理規(guī)律的東西。

所以說我們做的是基于框的condition的生成模型。然后這一點(diǎn)其實(shí)跟做重建的同學(xué)也異曲同工。就是重建的是更相信自己手中的規(guī)則，我們還是希望做的更scalable一點(diǎn)。對，大概是從像素到框，其實(shí)這個有非常多的經(jīng)典工作可以搜索，也有非常多的surry可以搜一搜。其實(shí)包括也可以看看我們的論文，我們也是基于很多前沿的工作，這點(diǎn)其實(shí)有非常多的經(jīng)典模型。

6. 世界模型的定義

世界模型的定義我覺得世界模型其實(shí)是有兩種定義第一個是用于決策的那種world model的世界模型然后那個就是model based rl 可以學(xué)習(xí)一下。

就是model based rl 尤其dreamer系列我覺得是非常非常聰明就值得每一個人都看的一個經(jīng)典，畢竟DeepMind的經(jīng)典工作；然后另一種呢就是當(dāng)然就是video diffusion 就是這種呢是用于仿真的，就是各有各的浩。我只能說world model和端道端一樣，現(xiàn)在都是框，就是什么都可以往里裝，然后其實(shí)大家也不必糾結(jié)于詞匯。，就是只要理清楚要做什么這個模型就可以。

強(qiáng)化學(xué)習(xí)相關(guān)

7. 強(qiáng)化學(xué)習(xí)訓(xùn)練端到端難點(diǎn)是沒有仿真？

可以用Carla。我覺得從研究模型角度來看，研究Carla完全沒有問題。我還是那個觀點(diǎn)，就是凡是dissCarla的，你先給我搞定卡拉再說。反正目前我們或者說世界范圍沒有搞定的特別好的。你覺得你瞧不起太簡單，那為什么這么厲害呢？我覺得其實(shí)Carla可以做。

8. 模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合有沒有好的paper推薦

我覺得這個可以直接谷歌搜索。其實(shí)這些探索也非常多的。

9. 強(qiáng)化學(xué)習(xí)的reward設(shè)計(jì)？

是的，我覺得強(qiáng)化學(xué)習(xí)也是我們團(tuán)隊(duì)非常欣慰的。我們團(tuán)隊(duì)中的成員其實(shí)有很多都是強(qiáng)化學(xué)習(xí)出身，都是沉浸了七八年。有的從本科開始，本碩博一路做上來，所以說也很欣慰。昨天比如說拿了個圖靈，當(dāng)然也不是蹭熱度了，就只能說很欣慰。不管是春節(jié)期間deep sick的爆火，還是最近的圖靈獎，都說明世界開始認(rèn)可了強(qiáng)化學(xué)習(xí)原來是真的是走向智能的最后后一步。所以說我理解。所以說我覺得我還是覺得大家強(qiáng)化學(xué)習(xí)方面可以更多研究，是更值得他研究的新時代方向。

10. RL學(xué)到的結(jié)果是否不像人開的，體驗(yàn)不好?

RL學(xué)到的結(jié)果是否不像人體驗(yàn)不好好問題。然后有人說強(qiáng)化學(xué)習(xí)的reward設(shè)計(jì)。是的，我覺得強(qiáng)化學(xué)習(xí)也是我們團(tuán)隊(duì)非常欣慰的。我們團(tuán)隊(duì)中的成員其實(shí)有很多都是強(qiáng)化學(xué)習(xí)出身，都是沉浸了七八年。有的從本科開始，本碩博一路做上來，所以說也很欣慰。昨天比如說拿了個圖靈，當(dāng)然也不是蹭熱度了，就只能說很欣慰。不管是春節(jié)期間deep sick的爆火，還是最近的圖靈獎，都說明世界開始認(rèn)可了強(qiáng)化學(xué)習(xí)原來是真的是走向智能的最后后一步。所以說我理解。所以說我覺得我還是覺得大家強(qiáng)化學(xué)習(xí)方面可以更多研究，是更值得他研究的新時代方向。

所以說我們在我的ICCV23的oral的工作中研究了我們其實(shí)RL之后，就是相當(dāng)于是很有趣，就是pre-training然后。RL學(xué)到的結(jié)果是否不像人體驗(yàn)不好好問題所以說我們在我的ICCV23的oral的工作中研究了我們其實(shí) RL之后就是相當(dāng)于是很有趣就是pre-training.所以也歡迎關(guān)注我ICCV23的DriverAdapter。

11. 強(qiáng)化學(xué)習(xí)中如何提高學(xué)習(xí)稀疏報(bào)酬對效率影響

對我覺得這個也是一直強(qiáng)化學(xué)習(xí)中的難題。就肯定是一方面希望 RLM可能可以做一些類似工作另一方面可能。目前當(dāng)然是靠大家設(shè)置然后。

12. 如何看顯式建模障礙物行為和隱式生成去建模

理解顯示中障礙物行為的建模，需要分析障礙物在視覺環(huán)境中的表現(xiàn)方式及其互動。這包括研究它們的移動、碰撞檢測以及對用戶輸入的響應(yīng)。視覺效果的生成則側(cè)重于創(chuàng)造沉浸式和逼真的體驗(yàn)。這一過程通常結(jié)合了光照、陰影和粒子效果等技術(shù)，以提升整體的視覺吸引力。通過將這兩個方面結(jié)合起來，設(shè)計(jì)師可以打造出動態(tài)且引人入勝的顯示效果，既能有效模擬現(xiàn)實(shí)世界的互動，又能保持美學(xué)品質(zhì)。

13. 然后說RL加AD的挑戰(zhàn)？

我覺得這就是我們?yōu)槭裁捶浅Ｏ矚g做這個RL加AD，覺得很exciting的原因。因?yàn)樗鋵?shí)是一個比甚至我覺得比在LLM做RL更exciting的。因?yàn)槲覀兪窃谧鑫锢砜臻g的，它的不管是這個動態(tài)性還是這個觀測的復(fù)雜度都要復(fù)雜的多。因?yàn)長LM本質(zhì)上是完美觀測，就你問啥問題，數(shù)學(xué)題告訴你，你要解解出來，我們這個觀測都要靠自己來解決，所以說有很多exciting的topic值得做。其實(shí)AD我覺得到了今天反而是RL的值得最興盛的時期。

端到端的一些思考以及未來研究方向

14. 端到端絕不是像素到Control

我深深尊重任何像素到像素模型，因?yàn)樗鼈凅w現(xiàn)了通用人工智能（AGI）的理想。然而，我在生成建模中的目標(biāo)是創(chuàng)造智能。因此，我更喜歡一條更快的路徑，專注于在空間環(huán)境中明確地建模障礙物。

我深深尊重任何像素到像素模型，因?yàn)樗鼈凅w現(xiàn)了通用人工智能（AGI）的理想。然而，我在生成建模中的目標(biāo)是創(chuàng)造智能。因此，我更喜歡一條更快的路徑，專注于在空間環(huán)境中明確地建模障礙物。仍然需要一些中間協(xié)助。當(dāng)時，根據(jù)當(dāng)前情況，或許可以通過溝通來處理。包括那些詢問如何基于Vector做出決策的人。

15. 請問你認(rèn)為現(xiàn)在做vector輸入的決策覺得還有研究前景嗎?

我認(rèn)為現(xiàn)在是做出決策的最佳時代。前幾年，大家普遍認(rèn)為這是感知的時代，感知領(lǐng)域取得了許多卓越的成果，每天都有令人目不暇接的進(jìn)展。然而，我認(rèn)為低垂的果實(shí)已經(jīng)被摘取，因?yàn)楦兄举|(zhì)上相對容易實(shí)現(xiàn)。其實(shí)，大家?guī)缀醵家呀?jīng)明白了。我覺得應(yīng)對這個艱巨的挑戰(zhàn)相當(dāng)有趣。

16. 為什么需要像人一樣駕駛呀?如果能避開車輛，加減速平滑，駕駛車輛并不一定要像人一樣啊

其實(shí)有人曾問我，你每天都在研究端到端模型，但缺乏可解釋性。我的觀點(diǎn)是，我觀看了Martin Casado的一場演講。有人問他關(guān)于可解釋性的問題，他反問道：“從那個角度來看，你的目標(biāo)檢測器是可解釋的嗎？你知道它為什么檢測到它所檢測的東西嗎？你會因此失眠嗎？例如，你的檢測器會解釋它先看到馬的頭，然后是馬的身體，最后才檢測到馬嗎？你對此感到擔(dān)憂嗎？”我認(rèn)為可解釋性值得尊重，但這取決于它如何被使用。我認(rèn)為我們應(yīng)該更加務(wù)實(shí)。關(guān)于RL（強(qiáng)化學(xué)習(xí)）與AD（自動駕駛）結(jié)合的挑戰(zhàn)，這正是我們覺得研究RL與AD如此令人興奮的原因。

17. Bench2Drive是目前最好用的嗎

開個玩笑，我認(rèn)為Bench2Drive提供了一個非常易于上手的解決方案。跑過Carla v2的人都知道，Carla v2的難度非常高，跑半天可能只能得到個位數(shù)的分?jǐn)?shù)，而我們這里可能得到幾十分。大家發(fā)論文和改進(jìn)都很方便。我們還提供了一個訓(xùn)練集，數(shù)據(jù)方面也不用擔(dān)心。此外，我們在Carla上實(shí)現(xiàn)了UNIAD、VAD，模型也可以使用我們寫好的code base。我們召集了許多編程能力很強(qiáng)的同學(xué)，花了很長時間才開發(fā)出來，因此可以為大家節(jié)省大量時間。

18. 端到端的范式需要中間過程比如感知的監(jiān)督，那是不是同樣存在傳感器布局的問題？

我覺得是存在的。對我我覺得是存在的。然后因?yàn)楫?dāng)然其實(shí)我覺得也是一個魯棒性問題。我也看過一些魯棒性工作，試圖訓(xùn)一個unify的detector來針對傳感器。這個我就不是專業(yè)領(lǐng)域了，大家可以再查查相關(guān)工作，我覺得也是很很好的課題。

29. 然后如何看待顯示的建模障礙物行為和隱式的生成?

隱式的pixel，我還是剛才那個觀點(diǎn)，pixel到pixel的任何模型我都很尊重，因?yàn)樗麄冇蠥GI理想。但是我做生成本質(zhì)是要是想把智能做出來，所以說我會更走一個更快的路徑，還是顯示的建模空間中的障礙物質(zhì)。對，然后還有一個人說端到端絕不是像素到control這一點(diǎn)我也非常認(rèn)同。我覺得還是需要就從目前來看，還是需要一些中間的輔助的。誰知道？過了50年，數(shù)據(jù)量沒準(zhǔn)成了1萬倍，到時候可能硬性也能搞定了。目前來看也許還是需要一些中間過程。

20. 做決策基于vector的決策還有研究前景嗎？

我作為一個決策出身的干，我覺得現(xiàn)在是做決策最好的時代。前幾年是相信大家都覺得是感知的時代，就感知大一統(tǒng)，涌現(xiàn)了非常多優(yōu)秀的工作，每天都目不暇接。但我覺得low-high-in-foot已經(jīng)都達(dá)到了。因?yàn)楦兄举|(zhì)上是非常好做的。感知其實(shí)大家搞定的差不多了，我覺得啃這個硬骨頭還是非常有意思的對。

21. 有人也提出為什么一定要像人一樣駕駛？

要不說這個其實(shí)是一個非常唯心的觀點(diǎn)。其實(shí)包括有人問我說，你端你每天搞端到端沒有可解釋性怎么辦？然后我其實(shí)的觀點(diǎn)就是我也看過凱明大神和愷明大神的一個talk，就有人問他可解釋性，他的當(dāng)時的反問是：我想請問一下你的目標(biāo)檢測的detector，如果只從那個角度看是可解釋的嗎？你知道你為什么會detect出來這個嗎？你會每天擔(dān)心的睡不著覺嗎？就是說你的detector，你怎么沒告訴我，我是先看到頭了，然后看到馬燈的身體，然后我才檢測出來這個馬，你會很擔(dān)心這個事情。就可解釋性我覺得是值得尊重，但是看怎么用。對我覺得還是要實(shí)用主義一點(diǎn)。

責(zé)任編輯：張燕妮來源：自動駕駛之心