成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

學(xué)習(xí)駕駛策略:從抽象表征泛化到新場(chǎng)景

智能汽車(chē)
目標(biāo)是尋求可推廣到新和未知環(huán)境的決策方案和駕駛策略。這項(xiàng)工作用了一個(gè)思想,即人類(lèi)駕駛員學(xué)習(xí)周?chē)h(huán)境的抽象表征,因?yàn)槠湓诟鞣N駕駛場(chǎng)景和環(huán)境中非常相似。

[[434740]]

 2021年11月5日arXiv上載論文“Towards Learning Generalizable Driving Policies from Restricted Latent Representations“,作者來(lái)自Florida的UCF和加州UCSB。

目標(biāo)是尋求可推廣到新和未知環(huán)境的決策方案和駕駛策略。這項(xiàng)工作用了一個(gè)思想,即人類(lèi)駕駛員學(xué)習(xí)周?chē)h(huán)境的抽象表征,因?yàn)槠湓诟鞣N駕駛場(chǎng)景和環(huán)境中非常相似。通過(guò)這些表征,人類(lèi)駕駛員能夠快速適應(yīng)新環(huán)境并在未見(jiàn)過(guò)的場(chǎng)景條件下駕駛。通過(guò)施加信息瓶頸,其提取一個(gè)潛表示,通過(guò)最小化駕駛場(chǎng)景之間的距離,一種衡量不同駕駛配置之間相似性的量化。然后,該潛空間用作 Q-learning 模塊的輸入,學(xué)習(xí)可推廣的駕駛策略。

將駕駛場(chǎng)景轉(zhuǎn)換為與場(chǎng)景無(wú)關(guān)的潛空間表征可以實(shí)現(xiàn)自動(dòng)駕駛智體的多任務(wù)學(xué)習(xí),因?yàn)橹唤邮諏?duì)駕駛?cè)蝿?wù)必不可少的信息,不知道其特定的駕駛場(chǎng)景。

這項(xiàng)工作探索把學(xué)習(xí)的潛空間作為訓(xùn)練強(qiáng)化學(xué)習(xí) (RL) 智體狀態(tài)表征的可能性,所提出的解決方案顯示所得策略泛化性的改進(jìn)。

隨機(jī)環(huán)境中智體的決策過(guò)程可以正式描述為 馬爾可夫決策過(guò)程(MDP) 。如果 MDP 完全已知,則價(jià)值和策略迭代等動(dòng)態(tài)規(guī)劃算法可遞歸求解最優(yōu)狀態(tài)-動(dòng)作價(jià)值函數(shù) Q*。

然而,在現(xiàn)實(shí)世界的問(wèn)題,環(huán)境的動(dòng)態(tài)和獎(jiǎng)勵(lì)函數(shù)通常未知,智體只能訪問(wèn)與底層狀態(tài)相關(guān)的局部觀測(cè),即 部分可觀測(cè)馬爾可夫決策過(guò)程 (POMDP) 。

強(qiáng)化學(xué)習(xí) (RL) 提供了一種可能性,通過(guò)與環(huán)境的持續(xù)交互來(lái)解決具有未知獎(jiǎng)勵(lì)和狀態(tài)轉(zhuǎn)換函數(shù)的 POMDP。在數(shù)學(xué)上,諸如 時(shí)域差 (TD) 學(xué)習(xí)之類(lèi)的 RL 算法使智體從環(huán)境之間交互中更新價(jià)值函數(shù),無(wú)需明確已知的完整MDP。

對(duì)狀態(tài)-動(dòng)作價(jià)值函數(shù)近似,比如深度神經(jīng)網(wǎng)絡(luò)( 深度Q-網(wǎng)絡(luò),DQN ),這樣有可能做到:學(xué)習(xí)更加泛化的策略,規(guī)?;粋€(gè)較大型狀態(tài)-空間。

DQN 建立在兩個(gè)思想之上,即:經(jīng)驗(yàn)回放緩存生成訓(xùn)練樣本,在訓(xùn)練期間用兩個(gè)獨(dú)立的網(wǎng)絡(luò)。關(guān)鍵思想是每次訓(xùn)練的迭代更新貪婪網(wǎng)絡(luò),計(jì)算最佳 Q 值,并用另一個(gè)更新頻率較低的目標(biāo)網(wǎng)絡(luò)來(lái)穩(wěn)定訓(xùn)練過(guò)程。

本文串行地訓(xùn)練兩個(gè)Autoencoder,訓(xùn)練第二個(gè)Autoencoder來(lái)學(xué)習(xí)第一個(gè)Autoencoder的隱表征,而第二個(gè)Autoencoder本質(zhì)上是學(xué)習(xí)第一個(gè)Autoencoder權(quán)重的概率分布。

作者引入一個(gè)相似性度量來(lái)衡量不同場(chǎng)景之間的距離,并尋找一個(gè)潛空間最大化不同駕駛場(chǎng)景之間的相似性。然后用這個(gè)潛空間來(lái)表示自車(chē)對(duì)環(huán)境的觀察。

作者旨在用這種潛表征為強(qiáng)化學(xué)習(xí)模塊提供輸入鞏固規(guī)劃和預(yù)測(cè),最終學(xué)習(xí)駕駛策略。特別是選擇了一組 5 種不同的道路拓?fù)洌喘h(huán)島、交叉路口、高速公路合并、高速公路出口和高速公路巡航。根據(jù)車(chē)輛速度和位置,進(jìn)一步隨機(jī)化每個(gè)場(chǎng)景,以衡量方法的泛化能力。

如圖為例,遵循MDP定義,所有車(chē)輛在時(shí)間 t 采取行動(dòng),使環(huán)境狀態(tài)從初始狀態(tài)演變?yōu)槟繕?biāo)狀態(tài)。 盡管這種轉(zhuǎn)變具有隨機(jī)性,但潛概率分布定義了其動(dòng)態(tài)性,包括人類(lèi)和智體的行為。 這個(gè)概率分布 Pr取決于所有車(chē)輛的動(dòng)作以及世界本身的動(dòng)態(tài)。

首先,最有效和最有用的狀態(tài)表征不是靠手工設(shè)計(jì),而是從數(shù)據(jù)中學(xué)習(xí)。 其次,假設(shè)在自動(dòng)駕駛汽車(chē)中,整合用于決策的規(guī)劃-預(yù)測(cè)模塊可以提高處理新和未見(jiàn)過(guò)的拓?fù)浣Y(jié)構(gòu)和配置的泛化能力。

如圖所示:整個(gè)架構(gòu)包括,一個(gè)瓶頸編碼器-解碼器結(jié)構(gòu),以及一個(gè) 3 維卷積神經(jīng)網(wǎng)絡(luò) (CNN),該網(wǎng)絡(luò)作函數(shù)逼近器來(lái)估計(jì)Q函數(shù);該系統(tǒng)輸入是一個(gè)含噪的時(shí)空狀態(tài)表示,輸出是給定狀態(tài)下動(dòng)作的概率分布。

注: HV-人類(lèi)駕駛車(chē) , AV-自動(dòng)駕駛車(chē) , MV-任務(wù)車(chē)/自車(chē) , RL-道路布局 。

定義了一個(gè)離散動(dòng)作空間 A,其中第 i 個(gè)智體動(dòng)作可以是 ai ∈ Ai = [Left, Idle, Right, Accelerate, Decelerate] 。 這些離散動(dòng)作呈現(xiàn)為平滑且合理的軌跡,并利用 PID 控制器生成低級(jí)轉(zhuǎn)向和油門(mén)信號(hào),使汽車(chē)能夠遵循所需的軌跡。

其中 瓶頸網(wǎng)絡(luò) (BNN) 確保最關(guān)鍵的信息通過(guò)數(shù)據(jù)管道,最大化不同駕駛場(chǎng)景之間的相似性。 學(xué)習(xí)的潛表征通過(guò) Q-learning 學(xué)習(xí)駕駛策略。引入一種直觀而豐富的狀態(tài)表示,帶有關(guān)場(chǎng)景的時(shí)空信息,并且受到傳感器噪聲的污染。如圖所示:

上面圖中Stacked Multi-channel VelocityMap 顯示了自動(dòng)駕駛車(chē)輛(AV)和人類(lèi)駕駛車(chē)輛(HV)的位置,相對(duì) Frenet 的縱向速度嵌入在像素值中。 為了更好地控制 VelocityMaps 中像素值的動(dòng)態(tài)范圍,我們采用了裁剪對(duì)數(shù)函數(shù),與線性映射相比,該函數(shù)實(shí)現(xiàn)增強(qiáng)的性能。

VelocityMaps 中的其他通道嵌入了 道路布局(RL) 以及 自車(chē)(MV ) 的位置和絕對(duì)速度。

從自動(dòng)編碼器瓶頸結(jié)構(gòu)開(kāi)始,通過(guò)混合的惡批處理觀測(cè)值訓(xùn)練一個(gè)3D 卷積架構(gòu)。在典型的深度強(qiáng)化學(xué)習(xí)架構(gòu)中添加一個(gè)中間模塊,消除對(duì)駕駛場(chǎng)景的依賴,通過(guò)專用的泛化潛表征進(jìn)行泛化。 為此,依賴于從特征提取到價(jià)值函數(shù)近似的流水線的信息瓶頸,提出一種方法,即 3D Convolutional Value Function Approximator Net- work (VFAN) ,如圖所示:

在數(shù)據(jù)流施加這樣的瓶頸,訓(xùn)練編碼器-解碼器,激勵(lì)網(wǎng)絡(luò)只傳遞最重要信息到價(jià)值函數(shù)網(wǎng)絡(luò),其解釋駕駛場(chǎng)景、對(duì)車(chē)輛定位、協(xié)調(diào)智體之間的交互。

如圖顯示的是,自動(dòng)編碼器在環(huán)島路口、交叉路口、高速公路出口和高速公路合并等駕駛實(shí)例的混合數(shù)據(jù)集訓(xùn)練了 100 個(gè)epoch。 在 epoch 50 之后,損失的變化在視覺(jué)上并不明顯。

如圖所示是潛表征的例子:兩個(gè)對(duì)比鮮明的環(huán)島路口和交叉路口的拓?fù)浣Y(jié)構(gòu)。

為模擬和生成用于訓(xùn)練自動(dòng)編碼器以及 Q -學(xué)習(xí)過(guò)程的訓(xùn)練數(shù)據(jù)集,采用基于OpenAI Gym 環(huán)境的抽象 2D 駕駛模擬器。 模擬器對(duì)給定的道路拓?fù)浜蛙?chē)輛設(shè)置生成不同的駕駛場(chǎng)景。 由于目標(biāo)是學(xué)習(xí)可泛化的策略,而不是通過(guò) VFAN 記住一系列動(dòng)作,因此每個(gè)模擬事件的初始狀態(tài)都是隨機(jī)的。 車(chē)輛的初始 Frenet 緯度(latitude)來(lái)自均勻隨機(jī)化的均勻分布,模擬車(chē)輛的初始 Frenet 經(jīng)度(longitude)和 Frenet 縱向速度來(lái)自裁剪高斯分布。

采用閉環(huán) PID 控制器,每輛車(chē)的元?jiǎng)幼麂秩緸榈图?jí)轉(zhuǎn)向和加速信號(hào)。 然后,運(yùn)動(dòng)學(xué)自行車(chē)模型根據(jù)轉(zhuǎn)向角和其他參數(shù)確定車(chē)輛的偏航率。

模擬包括自動(dòng)駕駛車(chē)和人工駕駛車(chē),創(chuàng)建逼真的混合自動(dòng)駕駛場(chǎng)景。 采用兩種廣泛使用的人類(lèi)駕駛員模型,HV的橫向動(dòng)作及其換道的決定,遵循 最小化換道引起的整體制動(dòng) (Minimizing Overall Braking Induced by Lane changes,MOBIL) 策略。 MOBIL 模型僅在后面跟車(chē)產(chǎn)生的加速度滿足安全標(biāo)準(zhǔn)時(shí)才允許換道。 HV 的縱向加速度遵循 智能駕駛員模型 (Intelligent Driver Model,IDM) 。

實(shí)驗(yàn)結(jié)果如下為例:

瓶頸網(wǎng)絡(luò)的性能提升作用

加速遷移學(xué)習(xí)

不同潛空間大小的瓶頸網(wǎng)絡(luò),不同的重建特性

不同遷移學(xué)習(xí)方法比較

域適應(yīng)

這項(xiàng)工作采用駕駛模擬器從各種道路拓?fù)洌ɡ绛h(huán)島路口、十字路口和高速公路)生成一個(gè)大型混合駕駛事件數(shù)據(jù)集。 但是,可以對(duì)較長(zhǎng)時(shí)間的駕駛進(jìn)行更復(fù)雜的研究。 此外,必須做更多的工作來(lái)解釋學(xué)習(xí)的潛表征。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛的挑戰(zhàn)和發(fā)展
相關(guān)推薦

2011-05-25 14:59:35

if elseswitch case

2024-12-26 09:17:27

2023-08-05 13:08:54

2024-10-22 16:59:07

2024-10-08 16:22:24

2024-12-18 09:34:13

2024-08-13 12:39:23

2025-03-28 06:01:00

TypeScript泛型開(kāi)發(fā)

2017-05-09 08:48:44

機(jī)器學(xué)習(xí)

2018-04-12 17:06:46

SaaS

2021-10-09 09:44:50

自動(dòng)駕駛數(shù)據(jù)人工智能

2023-04-04 09:50:26

自動(dòng)駕駛

2024-07-09 10:19:02

2021-05-17 10:05:08

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2024-01-10 11:01:13

自動(dòng)駕駛和軟件

2017-03-06 13:00:41

VRAR計(jì)算平臺(tái)

2023-02-22 15:01:23

神經(jīng)網(wǎng)絡(luò)框架

2023-06-29 11:21:31

證書(shū)管理vivo

2020-02-17 10:49:01

數(shù)據(jù)中心網(wǎng)絡(luò)云計(jì)算病毒
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲一区二区三区乱码aⅴ 四虎在线视频 | 亚洲精品日韩在线 | 国产精品美女久久久久aⅴ国产馆 | 人人玩人人添人人澡欧美 | 国产亚洲第一页 | 亚洲人成人一区二区在线观看 | 九九九精品视频 | 国产精品高清在线 | 特级毛片爽www免费版 | 成人av网页 | 欧美一级黄色免费看 | 日韩精品在线看 | 欧美精品一区三区 | 久久精品视频一区二区三区 | 午夜精品久久久久久久久久久久久 | 欧美精品一 | 久久国产精品视频 | 国产精品久久久久一区二区三区 | 殴美成人在线视频 | 亚洲国产成人精 | 国产精品美女久久久久久免费 | 激情网站在线观看 | 国产精品入口麻豆www | 天天精品在线 | 国产一区二区自拍 | 色视频网站 | 国产一二三区精品视频 | 极品粉嫩国产48尤物在线播放 | 亚洲不卡视频 | 精品一区二区三区在线视频 | 久久久婷婷 | 成人亚洲精品 | 久久久夜 | 国产精品视频网 | 99欧美精品 | 9999国产精品欧美久久久久久 | 日韩高清三区 | 亚洲高清免费观看 | 成人免费视频一区 | 亚洲视频在线免费观看 | 国产午夜精品一区二区三区四区 |