學(xué)習(xí)駕駛策略:從抽象表征泛化到新場(chǎng)景
2021年11月5日arXiv上載論文“Towards Learning Generalizable Driving Policies from Restricted Latent Representations“,作者來(lái)自Florida的UCF和加州UCSB。
目標(biāo)是尋求可推廣到新和未知環(huán)境的決策方案和駕駛策略。這項(xiàng)工作用了一個(gè)思想,即人類(lèi)駕駛員學(xué)習(xí)周?chē)h(huán)境的抽象表征,因?yàn)槠湓诟鞣N駕駛場(chǎng)景和環(huán)境中非常相似。通過(guò)這些表征,人類(lèi)駕駛員能夠快速適應(yīng)新環(huán)境并在未見(jiàn)過(guò)的場(chǎng)景條件下駕駛。通過(guò)施加信息瓶頸,其提取一個(gè)潛表示,通過(guò)最小化駕駛場(chǎng)景之間的距離,一種衡量不同駕駛配置之間相似性的量化。然后,該潛空間用作 Q-learning 模塊的輸入,學(xué)習(xí)可推廣的駕駛策略。
將駕駛場(chǎng)景轉(zhuǎn)換為與場(chǎng)景無(wú)關(guān)的潛空間表征可以實(shí)現(xiàn)自動(dòng)駕駛智體的多任務(wù)學(xué)習(xí),因?yàn)橹唤邮諏?duì)駕駛?cè)蝿?wù)必不可少的信息,不知道其特定的駕駛場(chǎng)景。
這項(xiàng)工作探索把學(xué)習(xí)的潛空間作為訓(xùn)練強(qiáng)化學(xué)習(xí) (RL) 智體狀態(tài)表征的可能性,所提出的解決方案顯示所得策略泛化性的改進(jìn)。
隨機(jī)環(huán)境中智體的決策過(guò)程可以正式描述為 馬爾可夫決策過(guò)程(MDP) 。如果 MDP 完全已知,則價(jià)值和策略迭代等動(dòng)態(tài)規(guī)劃算法可遞歸求解最優(yōu)狀態(tài)-動(dòng)作價(jià)值函數(shù) Q*。
然而,在現(xiàn)實(shí)世界的問(wèn)題,環(huán)境的動(dòng)態(tài)和獎(jiǎng)勵(lì)函數(shù)通常未知,智體只能訪問(wèn)與底層狀態(tài)相關(guān)的局部觀測(cè),即 部分可觀測(cè)馬爾可夫決策過(guò)程 (POMDP) 。
強(qiáng)化學(xué)習(xí) (RL) 提供了一種可能性,通過(guò)與環(huán)境的持續(xù)交互來(lái)解決具有未知獎(jiǎng)勵(lì)和狀態(tài)轉(zhuǎn)換函數(shù)的 POMDP。在數(shù)學(xué)上,諸如 時(shí)域差 (TD) 學(xué)習(xí)之類(lèi)的 RL 算法使智體從環(huán)境之間交互中更新價(jià)值函數(shù),無(wú)需明確已知的完整MDP。
對(duì)狀態(tài)-動(dòng)作價(jià)值函數(shù)近似,比如深度神經(jīng)網(wǎng)絡(luò)( 深度Q-網(wǎng)絡(luò),DQN ),這樣有可能做到:學(xué)習(xí)更加泛化的策略,規(guī)?;粋€(gè)較大型狀態(tài)-空間。
DQN 建立在兩個(gè)思想之上,即:經(jīng)驗(yàn)回放緩存生成訓(xùn)練樣本,在訓(xùn)練期間用兩個(gè)獨(dú)立的網(wǎng)絡(luò)。關(guān)鍵思想是每次訓(xùn)練的迭代更新貪婪網(wǎng)絡(luò),計(jì)算最佳 Q 值,并用另一個(gè)更新頻率較低的目標(biāo)網(wǎng)絡(luò)來(lái)穩(wěn)定訓(xùn)練過(guò)程。
本文串行地訓(xùn)練兩個(gè)Autoencoder,訓(xùn)練第二個(gè)Autoencoder來(lái)學(xué)習(xí)第一個(gè)Autoencoder的隱表征,而第二個(gè)Autoencoder本質(zhì)上是學(xué)習(xí)第一個(gè)Autoencoder權(quán)重的概率分布。
作者引入一個(gè)相似性度量來(lái)衡量不同場(chǎng)景之間的距離,并尋找一個(gè)潛空間最大化不同駕駛場(chǎng)景之間的相似性。然后用這個(gè)潛空間來(lái)表示自車(chē)對(duì)環(huán)境的觀察。
作者旨在用這種潛表征為強(qiáng)化學(xué)習(xí)模塊提供輸入鞏固規(guī)劃和預(yù)測(cè),最終學(xué)習(xí)駕駛策略。特別是選擇了一組 5 種不同的道路拓?fù)洌喘h(huán)島、交叉路口、高速公路合并、高速公路出口和高速公路巡航。根據(jù)車(chē)輛速度和位置,進(jìn)一步隨機(jī)化每個(gè)場(chǎng)景,以衡量方法的泛化能力。
如圖為例,遵循MDP定義,所有車(chē)輛在時(shí)間 t 采取行動(dòng),使環(huán)境狀態(tài)從初始狀態(tài)演變?yōu)槟繕?biāo)狀態(tài)。 盡管這種轉(zhuǎn)變具有隨機(jī)性,但潛概率分布定義了其動(dòng)態(tài)性,包括人類(lèi)和智體的行為。 這個(gè)概率分布 Pr取決于所有車(chē)輛的動(dòng)作以及世界本身的動(dòng)態(tài)。
首先,最有效和最有用的狀態(tài)表征不是靠手工設(shè)計(jì),而是從數(shù)據(jù)中學(xué)習(xí)。 其次,假設(shè)在自動(dòng)駕駛汽車(chē)中,整合用于決策的規(guī)劃-預(yù)測(cè)模塊可以提高處理新和未見(jiàn)過(guò)的拓?fù)浣Y(jié)構(gòu)和配置的泛化能力。
如圖所示:整個(gè)架構(gòu)包括,一個(gè)瓶頸編碼器-解碼器結(jié)構(gòu),以及一個(gè) 3 維卷積神經(jīng)網(wǎng)絡(luò) (CNN),該網(wǎng)絡(luò)作函數(shù)逼近器來(lái)估計(jì)Q函數(shù);該系統(tǒng)輸入是一個(gè)含噪的時(shí)空狀態(tài)表示,輸出是給定狀態(tài)下動(dòng)作的概率分布。
注: HV-人類(lèi)駕駛車(chē) , AV-自動(dòng)駕駛車(chē) , MV-任務(wù)車(chē)/自車(chē) , RL-道路布局 。
定義了一個(gè)離散動(dòng)作空間 A,其中第 i 個(gè)智體動(dòng)作可以是 ai ∈ Ai = [Left, Idle, Right, Accelerate, Decelerate] 。 這些離散動(dòng)作呈現(xiàn)為平滑且合理的軌跡,并利用 PID 控制器生成低級(jí)轉(zhuǎn)向和油門(mén)信號(hào),使汽車(chē)能夠遵循所需的軌跡。
其中 瓶頸網(wǎng)絡(luò) (BNN) 確保最關(guān)鍵的信息通過(guò)數(shù)據(jù)管道,最大化不同駕駛場(chǎng)景之間的相似性。 學(xué)習(xí)的潛表征通過(guò) Q-learning 學(xué)習(xí)駕駛策略。引入一種直觀而豐富的狀態(tài)表示,帶有關(guān)場(chǎng)景的時(shí)空信息,并且受到傳感器噪聲的污染。如圖所示:
上面圖中Stacked Multi-channel VelocityMap 顯示了自動(dòng)駕駛車(chē)輛(AV)和人類(lèi)駕駛車(chē)輛(HV)的位置,相對(duì) Frenet 的縱向速度嵌入在像素值中。 為了更好地控制 VelocityMaps 中像素值的動(dòng)態(tài)范圍,我們采用了裁剪對(duì)數(shù)函數(shù),與線性映射相比,該函數(shù)實(shí)現(xiàn)增強(qiáng)的性能。
VelocityMaps 中的其他通道嵌入了 道路布局(RL) 以及 自車(chē)(MV ) 的位置和絕對(duì)速度。
從自動(dòng)編碼器瓶頸結(jié)構(gòu)開(kāi)始,通過(guò)混合的惡批處理觀測(cè)值訓(xùn)練一個(gè)3D 卷積架構(gòu)。在典型的深度強(qiáng)化學(xué)習(xí)架構(gòu)中添加一個(gè)中間模塊,消除對(duì)駕駛場(chǎng)景的依賴,通過(guò)專用的泛化潛表征進(jìn)行泛化。 為此,依賴于從特征提取到價(jià)值函數(shù)近似的流水線的信息瓶頸,提出一種方法,即 3D Convolutional Value Function Approximator Net- work (VFAN) ,如圖所示:
在數(shù)據(jù)流施加這樣的瓶頸,訓(xùn)練編碼器-解碼器,激勵(lì)網(wǎng)絡(luò)只傳遞最重要信息到價(jià)值函數(shù)網(wǎng)絡(luò),其解釋駕駛場(chǎng)景、對(duì)車(chē)輛定位、協(xié)調(diào)智體之間的交互。
如圖顯示的是,自動(dòng)編碼器在環(huán)島路口、交叉路口、高速公路出口和高速公路合并等駕駛實(shí)例的混合數(shù)據(jù)集訓(xùn)練了 100 個(gè)epoch。 在 epoch 50 之后,損失的變化在視覺(jué)上并不明顯。
如圖所示是潛表征的例子:兩個(gè)對(duì)比鮮明的環(huán)島路口和交叉路口的拓?fù)浣Y(jié)構(gòu)。
為模擬和生成用于訓(xùn)練自動(dòng)編碼器以及 Q -學(xué)習(xí)過(guò)程的訓(xùn)練數(shù)據(jù)集,采用基于OpenAI Gym 環(huán)境的抽象 2D 駕駛模擬器。 模擬器對(duì)給定的道路拓?fù)浜蛙?chē)輛設(shè)置生成不同的駕駛場(chǎng)景。 由于目標(biāo)是學(xué)習(xí)可泛化的策略,而不是通過(guò) VFAN 記住一系列動(dòng)作,因此每個(gè)模擬事件的初始狀態(tài)都是隨機(jī)的。 車(chē)輛的初始 Frenet 緯度(latitude)來(lái)自均勻隨機(jī)化的均勻分布,模擬車(chē)輛的初始 Frenet 經(jīng)度(longitude)和 Frenet 縱向速度來(lái)自裁剪高斯分布。
采用閉環(huán) PID 控制器,每輛車(chē)的元?jiǎng)幼麂秩緸榈图?jí)轉(zhuǎn)向和加速信號(hào)。 然后,運(yùn)動(dòng)學(xué)自行車(chē)模型根據(jù)轉(zhuǎn)向角和其他參數(shù)確定車(chē)輛的偏航率。
模擬包括自動(dòng)駕駛車(chē)和人工駕駛車(chē),創(chuàng)建逼真的混合自動(dòng)駕駛場(chǎng)景。 采用兩種廣泛使用的人類(lèi)駕駛員模型,HV的橫向動(dòng)作及其換道的決定,遵循 最小化換道引起的整體制動(dòng) (Minimizing Overall Braking Induced by Lane changes,MOBIL) 策略。 MOBIL 模型僅在后面跟車(chē)產(chǎn)生的加速度滿足安全標(biāo)準(zhǔn)時(shí)才允許換道。 HV 的縱向加速度遵循 智能駕駛員模型 (Intelligent Driver Model,IDM) 。
實(shí)驗(yàn)結(jié)果如下為例:
瓶頸網(wǎng)絡(luò)的性能提升作用
加速遷移學(xué)習(xí)
不同潛空間大小的瓶頸網(wǎng)絡(luò),不同的重建特性
不同遷移學(xué)習(xí)方法比較
域適應(yīng)
這項(xiàng)工作采用駕駛模擬器從各種道路拓?fù)洌ɡ绛h(huán)島路口、十字路口和高速公路)生成一個(gè)大型混合駕駛事件數(shù)據(jù)集。 但是,可以對(duì)較長(zhǎng)時(shí)間的駕駛進(jìn)行更復(fù)雜的研究。 此外,必須做更多的工作來(lái)解釋學(xué)習(xí)的潛表征。