成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深度解析以Decoder為核心的無BEV的大一統(tǒng)端到端架構(gòu) | 對話CCF-CV學(xué)術(shù)新銳獎賈蕭松博士

人工智能 新聞
端到端自動駕駛,像剛才說的一個最原始的設(shè)定,就是希望神經(jīng)網(wǎng)絡(luò)自動通過K通過軌跡的好壞的關(guān)聯(lián),自動找到像素空間上哪些pixel對我這個決策是有作用。

論文的一些巧思

1. 人開車其實(shí)并沒有最優(yōu)解,請問如何確定學(xué)習(xí)時的參考數(shù)據(jù)呢?

開車其實(shí)也是多種多樣的,然后你模仿學(xué)習(xí)本質(zhì)上就是告訴他你只能這樣做,你做了別的那個mass loss還會懲罰他。其實(shí)就是我們說的,我們其實(shí)就不能通過模仿來做。我們應(yīng)該通過告訴他,你這個事情做的到底對不對,你要對了,我就不管你怎么做的,你都是對的對吧?所以說這個就是這樣一個理念。

2. Drivetransformer為什么還要直接出感知?我覺得是這樣的,就是說端到端自動駕駛,像剛才說的一個最原始的設(shè)定,就是希望神經(jīng)網(wǎng)絡(luò)自動通過K通過軌跡的好壞的關(guān)聯(lián),自動找到像素空間上哪些pixel對我這個決策是有作用。這就是本質(zhì)上最原始的想法。就像ResNet它通過訓(xùn)練能自動找到。比如說我classify鳥的時候,我就看看那些翅膀之類的。 但是自動駕駛作為一個高維的還是一個環(huán)視,就很難在環(huán)視相當(dāng)于是超高維的場景。因?yàn)榄h(huán)視首先是6到11個相機(jī),其次我的圖并不是ImageNet那種224幼稚的圖。我們是一分辨率是幾百幾千的圖片,然后6張到11張,然后我們還是多幀的,可以看到我們這個空間是非常瘋狂的,超高維的。這就是大家機(jī)器學(xué)習(xí)第一課。Curse of dimension問題會非常嚴(yán)重,就導(dǎo)致其實(shí)我覺得在現(xiàn)階段,就大家還沒有瘋狂到能不借助任何輔助的一些東西來讓它收斂。

3. 加detection的好處是什么?

我們可以通過看detection transformer初步學(xué)一些邏輯。就是說車這個東西我都告訴你很重要了,這樣我們我們也能有效利用這個標(biāo)注。

所以說我覺得在現(xiàn)階段我們標(biāo)注還是有一定作用的,尤其是可以從閉環(huán)、數(shù)據(jù)效率、scale up角度看這個問題。

4. 然后有人問我的方法是decoder only嗎?

其實(shí)并不是的,就是也是有image backbone,只不過之前的方法scale up的都是encoder部分,我這個方法其實(shí)想更多的研究一下scale up decoder的收益 因?yàn)镚PT是在scale up decoder,包括其實(shí)VLM scale up的過程中 Scale up VIT的收益,其實(shí)不如scale up LLM來得快。就比如說可能LLM都從7B到70B能力有個飛躍。但VIT從400M變到6B或者說多大 好像你要說能有多大的飛躍 其實(shí)對 就是還有待觀察。

生成模型與世界模型

5. 生成模型出來的圖像符合物理世界規(guī)律嗎

我們在這篇工作中,就Bench2drive的后續(xù)工作中,我們的物理規(guī)律是通過框的推演進(jìn)行的。

所以說我從一開始就跟組里同學(xué)討論,我們不做video diffusion model。因?yàn)槲覀冋J(rèn)為pixel to pixel的映射學(xué)到物理規(guī)律很難,這都是英偉達(dá)或者DeepMind的那個級別,可能能真的幾十萬卡10萬卡能訓(xùn)出來,真的通過視頻pixel到pixel學(xué)出物理規(guī)律,不然的話其實(shí)很容易就從pixel到pixel學(xué)出反物理規(guī)律的東西。

所以說我們做的是基于框的condition的生成模型。然后這一點(diǎn)其實(shí)跟做重建的同學(xué)也異曲同工。就是重建的是更相信自己手中的規(guī)則,我們還是希望做的更scalable一點(diǎn)。對,大概是從像素到框,其實(shí)這個有非常多的經(jīng)典工作可以搜索,也有非常多的surry可以搜一搜。其實(shí)包括也可以看看我們的論文,我們也是基于很多前沿的工作,這點(diǎn)其實(shí)有非常多的經(jīng)典模型。

6. 世界模型的定義

世界模型的定義 我覺得世界模型其實(shí)是有兩種定義 第一個是用于決策的那種world model的世界模型 然后那個就是model based rl 可以學(xué)習(xí)一下。

就是model based rl 尤其dreamer系列我覺得是非常非常聰明 就值得每一個人都看的一個經(jīng)典,畢竟DeepMind的經(jīng)典工作;然后另一種呢就是當(dāng)然就是video diffusion 就是這種呢是用于仿真的,就是各有各的浩。我只能說world model和端道端一樣,現(xiàn)在都是框,就是什么都可以往里裝,然后其實(shí)大家也不必糾結(jié)于詞匯。,就是只要理清楚要做什么這個模型就可以。

強(qiáng)化學(xué)習(xí)相關(guān)

7. 強(qiáng)化學(xué)習(xí)訓(xùn)練端到端難點(diǎn)是沒有仿真?

可以用Carla。我覺得從研究模型角度來看,研究Carla完全沒有問題。我還是那個觀點(diǎn),就是凡是dissCarla的,你先給我搞定卡拉再說。反正目前我們或者說世界范圍沒有搞定的特別好的。你覺得你瞧不起太簡單,那為什么這么厲害呢?我覺得其實(shí)Carla可以做。

8. 模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合有沒有好的paper推薦

我覺得這個可以直接谷歌搜索。其實(shí)這些探索也非常多的。

9. 強(qiáng)化學(xué)習(xí)的reward設(shè)計(jì)?

是的,我覺得強(qiáng)化學(xué)習(xí)也是我們團(tuán)隊(duì)非常欣慰的。我們團(tuán)隊(duì)中的成員其實(shí)有很多都是強(qiáng)化學(xué)習(xí)出身,都是沉浸了七八年。有的從本科開始,本碩博一路做上來,所以說也很欣慰。昨天比如說拿了個圖靈,當(dāng)然也不是蹭熱度了,就只能說很欣慰。不管是春節(jié)期間deep sick的爆火,還是最近的圖靈獎,都說明世界開始認(rèn)可了強(qiáng)化學(xué)習(xí)原來是真的是走向智能的最后后一步。所以說我理解。所以說我覺得我還是覺得大家強(qiáng)化學(xué)習(xí)方面可以更多研究,是更值得他研究的新時代方向。

10. RL學(xué)到的結(jié)果是否不像人開的,體驗(yàn)不好?

RL學(xué)到的結(jié)果是否不像人 體驗(yàn)不好 好問題。然后有人說強(qiáng)化學(xué)習(xí)的reward設(shè)計(jì)。是的,我覺得強(qiáng)化學(xué)習(xí)也是我們團(tuán)隊(duì)非常欣慰的。我們團(tuán)隊(duì)中的成員其實(shí)有很多都是強(qiáng)化學(xué)習(xí)出身,都是沉浸了七八年。有的從本科開始,本碩博一路做上來,所以說也很欣慰。昨天比如說拿了個圖靈,當(dāng)然也不是蹭熱度了,就只能說很欣慰。不管是春節(jié)期間deep sick的爆火,還是最近的圖靈獎,都說明世界開始認(rèn)可了強(qiáng)化學(xué)習(xí)原來是真的是走向智能的最后后一步。所以說我理解。所以說我覺得我還是覺得大家強(qiáng)化學(xué)習(xí)方面可以更多研究,是更值得他研究的新時代方向。

所以說我們在我的ICCV23的oral的工作中研究了我們其實(shí)RL之后,就是相當(dāng)于是很有趣,就是pre-training然后。RL學(xué)到的結(jié)果是否不像人 體驗(yàn)不好 好問題 所以說我們在我的ICCV23的oral的工作中 研究了我們其實(shí) RL之后 就是相當(dāng)于是很有趣 就是pre-training.所以也歡迎關(guān)注我ICCV23的DriverAdapter。

11. 強(qiáng)化學(xué)習(xí)中如何提高學(xué)習(xí)稀疏報(bào)酬對效率影響

對 我覺得這個也是一直強(qiáng)化學(xué)習(xí)中的難題。就肯定是 一方面希望 RLM可能可以做一些類似工作另一方面可能。目前當(dāng)然是靠大家設(shè)置然后。

12. 如何看顯式建模障礙物行為和隱式生成去建模

理解顯示中障礙物行為的建模,需要分析障礙物在視覺環(huán)境中的表現(xiàn)方式及其互動。這包括研究它們的移動、碰撞檢測以及對用戶輸入的響應(yīng)。視覺效果的生成則側(cè)重于創(chuàng)造沉浸式和逼真的體驗(yàn)。這一過程通常結(jié)合了光照、陰影和粒子效果等技術(shù),以提升整體的視覺吸引力。通過將這兩個方面結(jié)合起來,設(shè)計(jì)師可以打造出動態(tài)且引人入勝的顯示效果,既能有效模擬現(xiàn)實(shí)世界的互動,又能保持美學(xué)品質(zhì)。

13. 然后說RL加AD的挑戰(zhàn)?

我覺得這就是我們?yōu)槭裁捶浅O矚g做這個RL加AD,覺得很exciting的原因。因?yàn)樗鋵?shí)是一個比甚至我覺得比在LLM做RL更exciting的。因?yàn)槲覀兪窃谧鑫锢砜臻g的,它的不管是這個動態(tài)性還是這個觀測的復(fù)雜度都要復(fù)雜的多。因?yàn)長LM本質(zhì)上是完美觀測,就你問啥問題,數(shù)學(xué)題告訴你,你要解解出來,我們這個觀測都要靠自己來解決,所以說有很多exciting的topic值得做。其實(shí)AD我覺得到了今天反而是RL的值得最興盛的時期。

端到端的一些思考以及未來研究方向

14. 端到端絕不是像素到Control

我深深尊重任何像素到像素模型,因?yàn)樗鼈凅w現(xiàn)了通用人工智能(AGI)的理想。然而,我在生成建模中的目標(biāo)是創(chuàng)造智能。因此,我更喜歡一條更快的路徑,專注于在空間環(huán)境中明確地建模障礙物。

我深深尊重任何像素到像素模型,因?yàn)樗鼈凅w現(xiàn)了通用人工智能(AGI)的理想。然而,我在生成建模中的目標(biāo)是創(chuàng)造智能。因此,我更喜歡一條更快的路徑,專注于在空間環(huán)境中明確地建模障礙物。仍然需要一些中間協(xié)助。當(dāng)時,根據(jù)當(dāng)前情況,或許可以通過溝通來處理。包括那些詢問如何基于Vector做出決策的人。

15. 請問你認(rèn)為現(xiàn)在做vector輸入的決策覺得還有研究前景嗎?

我認(rèn)為現(xiàn)在是做出決策的最佳時代。前幾年,大家普遍認(rèn)為這是感知的時代,感知領(lǐng)域取得了許多卓越的成果,每天都有令人目不暇接的進(jìn)展。然而,我認(rèn)為低垂的果實(shí)已經(jīng)被摘取,因?yàn)楦兄举|(zhì)上相對容易實(shí)現(xiàn)。 其實(shí),大家?guī)缀醵家呀?jīng)明白了。我覺得應(yīng)對這個艱巨的挑戰(zhàn)相當(dāng)有趣。

16. 為什么需要像人一樣駕駛呀?如果能避開車輛,加減速平滑,駕駛車輛并不一定要像人一樣啊

其實(shí)有人曾問我,你每天都在研究端到端模型,但缺乏可解釋性。我的觀點(diǎn)是,我觀看了Martin Casado的一場演講。有人問他關(guān)于可解釋性的問題,他反問道:“從那個角度來看,你的目標(biāo)檢測器是可解釋的嗎?你知道它為什么檢測到它所檢測的東西嗎?你會因此失眠嗎?例如,你的檢測器會解釋它先看到馬的頭,然后是馬的身體,最后才檢測到馬嗎?你對此感到擔(dān)憂嗎?”我認(rèn)為可解釋性值得尊重,但這取決于它如何被使用。我認(rèn)為我們應(yīng)該更加務(wù)實(shí)。關(guān)于RL(強(qiáng)化學(xué)習(xí))與AD(自動駕駛)結(jié)合的挑戰(zhàn),這正是我們覺得研究RL與AD如此令人興奮的原因。

17. Bench2Drive是目前最好用的嗎

開個玩笑,我認(rèn)為Bench2Drive提供了一個非常易于上手的解決方案。跑過Carla v2的人都知道,Carla v2的難度非常高,跑半天可能只能得到個位數(shù)的分?jǐn)?shù),而我們這里可能得到幾十分。大家發(fā)論文和改進(jìn)都很方便。我們還提供了一個訓(xùn)練集,數(shù)據(jù)方面也不用擔(dān)心。此外,我們在Carla上實(shí)現(xiàn)了UNIAD、VAD,模型也可以使用我們寫好的code base。我們召集了許多編程能力很強(qiáng)的同學(xué),花了很長時間才開發(fā)出來,因此可以為大家節(jié)省大量時間。

18. 端到端的范式需要中間過程比如感知的監(jiān)督,那是不是同樣存在傳感器布局的問題?

我覺得是存在的。對我我覺得是存在的。然后因?yàn)楫?dāng)然其實(shí)我覺得也是一個魯棒性問題。我也看過一些魯棒性工作,試圖訓(xùn)一個unify的detector來針對傳感器。這個我就不是專業(yè)領(lǐng)域了,大家可以再查查相關(guān)工作,我覺得也是很很好的課題。

29. 然后如何看待顯示的建模障礙物行為和隱式的生成?

隱式的pixel,我還是剛才那個觀點(diǎn),pixel到pixel的任何模型我都很尊重,因?yàn)樗麄冇蠥GI理想。但是我做生成本質(zhì)是要是想把智能做出來,所以說我會更走一個更快的路徑,還是顯示的建模空間中的障礙物質(zhì)。對,然后還有一個人說端到端絕不是像素到control這一點(diǎn)我也非常認(rèn)同。我覺得還是需要就從目前來看,還是需要一些中間的輔助的。誰知道?過了50年,數(shù)據(jù)量沒準(zhǔn)成了1萬倍,到時候可能硬性也能搞定了。目前來看也許還是需要一些中間過程。

20. 做決策基于vector的決策還有研究前景嗎?

我作為一個決策出身的干,我覺得現(xiàn)在是做決策最好的時代。前幾年是相信大家都覺得是感知的時代,就感知大一統(tǒng),涌現(xiàn)了非常多優(yōu)秀的工作,每天都目不暇接。但我覺得low-high-in-foot已經(jīng)都達(dá)到了。因?yàn)楦兄举|(zhì)上是非常好做的。感知其實(shí)大家搞定的差不多了,我覺得啃這個硬骨頭還是非常有意思的對。

21. 有人也提出為什么一定要像人一樣駕駛?

要不說這個其實(shí)是一個非常唯心的觀點(diǎn)。其實(shí)包括有人問我說,你端你每天搞端到端沒有可解釋性怎么辦?然后我其實(shí)的觀點(diǎn)就是我也看過凱明大神和愷明大神的一個talk,就有人問他可解釋性,他的當(dāng)時的反問是:我想請問一下你的目標(biāo)檢測的detector,如果只從那個角度看是可解釋的嗎?你知道你為什么會detect出來這個嗎?你會每天擔(dān)心的睡不著覺嗎?就是說你的detector,你怎么沒告訴我,我是先看到頭了,然后看到馬燈的身體,然后我才檢測出來這個馬,你會很擔(dān)心這個事情。就可解釋性我覺得是值得尊重,但是看怎么用。對我覺得還是要實(shí)用主義一點(diǎn)。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2024-03-20 09:29:41

2025-06-09 09:50:00

VeactReact

2023-07-17 08:03:03

Shell腳本SQL

2017-12-15 17:14:10

云端

2014-07-29 13:25:43

WWDC 2014 S

2015-05-06 13:52:52

微軟外媒

2012-02-28 09:54:01

Windows 8微軟賬戶

2015-07-30 12:27:30

重郵華為

2020-12-13 13:40:22

健康碼移動應(yīng)用

2023-09-14 09:44:29

2024-04-23 13:38:00

AI數(shù)據(jù)

2022-11-29 15:15:47

AI模型

2025-03-13 10:18:42

2023-03-13 13:40:20

機(jī)器學(xué)習(xí)AI

2024-01-24 09:24:19

自動駕駛算法

2017-06-27 10:49:48

Intel 300Wi-Fi芯片

2025-03-18 09:29:54

2023-05-10 14:58:06

開源模型

2024-08-26 07:40:00

AI訓(xùn)練

2021-04-18 22:18:39

SQL數(shù)據(jù)分析工具
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美日韩精品国产 | 久久久久久久久毛片 | 在线视频一区二区 | 欧美综合久久 | 日韩精品在线免费 | 在线成人一区 | 亚洲一区二区久久 | 岛国视频 | 国产精品免费一区二区三区四区 | 午夜免费福利片 | 久久久入口 | 中文字幕av亚洲精品一部二部 | 不卡视频一区二区三区 | 91精品久久久 | 日韩电影中文字幕 | 中午字幕在线观看 | 欧美精产国品一二三区 | 色综合色综合色综合 | 亚洲精品在线视频 | 日韩一区二区三区在线视频 | 国产成人网 | 欧美在线播放一区 | 在线视频第一页 | a级黄色片视频 | 成人一区在线观看 | 中文久久 | 色噜噜狠狠色综合中国 | 免费观看一级毛片 | 日本一区二区三区四区 | 欧美色欧美亚洲另类七区 | 欧美精品在线免费 | 一区二区三区四区免费视频 | 99精品国产一区二区青青牛奶 | 日韩伦理电影免费在线观看 | 欧美成人免费在线视频 | 午夜久久久 | 欧美在线一区二区三区 | 毛片一级片| 91看片在线观看 | 国产亚洲一区二区三区 | 中文字幕一区二区三区四区五区 |