成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

學(xué)習(xí)駕駛策略：從抽象表征泛化到新場(chǎng)景

作者：佚名 2021-11-12 14:36:00

智能汽車(chē)

目標(biāo)是尋求可推廣到新和未知環(huán)境的決策方案和駕駛策略。這項(xiàng)工作用了一個(gè)思想，即人類(lèi)駕駛員學(xué)習(xí)周?chē)h(huán)境的抽象表征，因?yàn)槠湓诟鞣N駕駛場(chǎng)景和環(huán)境中非常相似。

2021年11月5日arXiv上載論文“Towards Learning Generalizable Driving Policies from Restricted Latent Representations“，作者來(lái)自Florida的UCF和加州UCSB。

目標(biāo)是尋求可推廣到新和未知環(huán)境的決策方案和駕駛策略。這項(xiàng)工作用了一個(gè)思想，即人類(lèi)駕駛員學(xué)習(xí)周?chē)h(huán)境的抽象表征，因?yàn)槠湓诟鞣N駕駛場(chǎng)景和環(huán)境中非常相似。通過(guò)這些表征，人類(lèi)駕駛員能夠快速適應(yīng)新環(huán)境并在未見(jiàn)過(guò)的場(chǎng)景條件下駕駛。通過(guò)施加信息瓶頸，其提取一個(gè)潛表示，通過(guò)最小化駕駛場(chǎng)景之間的距離，一種衡量不同駕駛配置之間相似性的量化。然后，該潛空間用作 Q-learning 模塊的輸入，學(xué)習(xí)可推廣的駕駛策略。

將駕駛場(chǎng)景轉(zhuǎn)換為與場(chǎng)景無(wú)關(guān)的潛空間表征可以實(shí)現(xiàn)自動(dòng)駕駛智體的多任務(wù)學(xué)習(xí)，因?yàn)橹唤邮諏?duì)駕駛?cè)蝿?wù)必不可少的信息，不知道其特定的駕駛場(chǎng)景。

這項(xiàng)工作探索把學(xué)習(xí)的潛空間作為訓(xùn)練強(qiáng)化學(xué)習(xí) (RL) 智體狀態(tài)表征的可能性，所提出的解決方案顯示所得策略泛化性的改進(jìn)。

隨機(jī)環(huán)境中智體的決策過(guò)程可以正式描述為 馬爾可夫決策過(guò)程（MDP） 。如果 MDP 完全已知，則價(jià)值和策略迭代等動(dòng)態(tài)規(guī)劃算法可遞歸求解最優(yōu)狀態(tài)-動(dòng)作價(jià)值函數(shù) Q*。

然而，在現(xiàn)實(shí)世界的問(wèn)題，環(huán)境的動(dòng)態(tài)和獎(jiǎng)勵(lì)函數(shù)通常未知，智體只能訪問(wèn)與底層狀態(tài)相關(guān)的局部觀測(cè)，即 部分可觀測(cè)馬爾可夫決策過(guò)程 (POMDP) 。

強(qiáng)化學(xué)習(xí) (RL) 提供了一種可能性，通過(guò)與環(huán)境的持續(xù)交互來(lái)解決具有未知獎(jiǎng)勵(lì)和狀態(tài)轉(zhuǎn)換函數(shù)的 POMDP。在數(shù)學(xué)上，諸如 時(shí)域差 (TD) 學(xué)習(xí)之類(lèi)的 RL 算法使智體從環(huán)境之間交互中更新價(jià)值函數(shù)，無(wú)需明確已知的完整MDP。

對(duì)狀態(tài)-動(dòng)作價(jià)值函數(shù)近似，比如深度神經(jīng)網(wǎng)絡(luò)（ 深度Q-網(wǎng)絡(luò)，DQN ），這樣有可能做到：學(xué)習(xí)更加泛化的策略，規(guī)?；粋€(gè)較大型狀態(tài)-空間。

DQN 建立在兩個(gè)思想之上，即：經(jīng)驗(yàn)回放緩存生成訓(xùn)練樣本，在訓(xùn)練期間用兩個(gè)獨(dú)立的網(wǎng)絡(luò)。關(guān)鍵思想是每次訓(xùn)練的迭代更新貪婪網(wǎng)絡(luò)，計(jì)算最佳 Q 值，并用另一個(gè)更新頻率較低的目標(biāo)網(wǎng)絡(luò)來(lái)穩(wěn)定訓(xùn)練過(guò)程。

本文串行地訓(xùn)練兩個(gè)Autoencoder，訓(xùn)練第二個(gè)Autoencoder來(lái)學(xué)習(xí)第一個(gè)Autoencoder的隱表征，而第二個(gè)Autoencoder本質(zhì)上是學(xué)習(xí)第一個(gè)Autoencoder權(quán)重的概率分布。

作者引入一個(gè)相似性度量來(lái)衡量不同場(chǎng)景之間的距離，并尋找一個(gè)潛空間最大化不同駕駛場(chǎng)景之間的相似性。然后用這個(gè)潛空間來(lái)表示自車(chē)對(duì)環(huán)境的觀察。

作者旨在用這種潛表征為強(qiáng)化學(xué)習(xí)模塊提供輸入鞏固規(guī)劃和預(yù)測(cè)，最終學(xué)習(xí)駕駛策略。特別是選擇了一組 5 種不同的道路拓?fù)洌喘h(huán)島、交叉路口、高速公路合并、高速公路出口和高速公路巡航。根據(jù)車(chē)輛速度和位置，進(jìn)一步隨機(jī)化每個(gè)場(chǎng)景，以衡量方法的泛化能力。

如圖為例，遵循MDP定義，所有車(chē)輛在時(shí)間 t 采取行動(dòng)，使環(huán)境狀態(tài)從初始狀態(tài)演變?yōu)槟繕?biāo)狀態(tài)。盡管這種轉(zhuǎn)變具有隨機(jī)性，但潛概率分布定義了其動(dòng)態(tài)性，包括人類(lèi)和智體的行為。這個(gè)概率分布 Pr取決于所有車(chē)輛的動(dòng)作以及世界本身的動(dòng)態(tài)。

首先，最有效和最有用的狀態(tài)表征不是靠手工設(shè)計(jì)，而是從數(shù)據(jù)中學(xué)習(xí)。其次，假設(shè)在自動(dòng)駕駛汽車(chē)中，整合用于決策的規(guī)劃-預(yù)測(cè)模塊可以提高處理新和未見(jiàn)過(guò)的拓?fù)浣Y(jié)構(gòu)和配置的泛化能力。

如圖所示：整個(gè)架構(gòu)包括，一個(gè)瓶頸編碼器-解碼器結(jié)構(gòu)，以及一個(gè) 3 維卷積神經(jīng)網(wǎng)絡(luò) (CNN)，該網(wǎng)絡(luò)作函數(shù)逼近器來(lái)估計(jì)Q函數(shù)；該系統(tǒng)輸入是一個(gè)含噪的時(shí)空狀態(tài)表示，輸出是給定狀態(tài)下動(dòng)作的概率分布。

注： HV-人類(lèi)駕駛車(chē) ， AV-自動(dòng)駕駛車(chē) ， MV-任務(wù)車(chē)/自車(chē) ， RL-道路布局 。

定義了一個(gè)離散動(dòng)作空間 A，其中第 i 個(gè)智體動(dòng)作可以是 ai ∈ Ai = [Left, Idle, Right, Accelerate, Decelerate] 。這些離散動(dòng)作呈現(xiàn)為平滑且合理的軌跡，并利用 PID 控制器生成低級(jí)轉(zhuǎn)向和油門(mén)信號(hào)，使汽車(chē)能夠遵循所需的軌跡。

其中 瓶頸網(wǎng)絡(luò) (BNN) 確保最關(guān)鍵的信息通過(guò)數(shù)據(jù)管道，最大化不同駕駛場(chǎng)景之間的相似性。學(xué)習(xí)的潛表征通過(guò) Q-learning 學(xué)習(xí)駕駛策略。引入一種直觀而豐富的狀態(tài)表示，帶有關(guān)場(chǎng)景的時(shí)空信息，并且受到傳感器噪聲的污染。如圖所示：

上面圖中Stacked Multi-channel VelocityMap 顯示了自動(dòng)駕駛車(chē)輛（AV）和人類(lèi)駕駛車(chē)輛（HV）的位置，相對(duì) Frenet 的縱向速度嵌入在像素值中。為了更好地控制 VelocityMaps 中像素值的動(dòng)態(tài)范圍，我們采用了裁剪對(duì)數(shù)函數(shù)，與線性映射相比，該函數(shù)實(shí)現(xiàn)增強(qiáng)的性能。

VelocityMaps 中的其他通道嵌入了 道路布局（RL） 以及 自車(chē)（MV ） 的位置和絕對(duì)速度。

從自動(dòng)編碼器瓶頸結(jié)構(gòu)開(kāi)始，通過(guò)混合的惡批處理觀測(cè)值訓(xùn)練一個(gè)3D 卷積架構(gòu)。在典型的深度強(qiáng)化學(xué)習(xí)架構(gòu)中添加一個(gè)中間模塊，消除對(duì)駕駛場(chǎng)景的依賴，通過(guò)專用的泛化潛表征進(jìn)行泛化。為此，依賴于從特征提取到價(jià)值函數(shù)近似的流水線的信息瓶頸，提出一種方法，即 3D Convolutional Value Function Approximator Net- work (VFAN) ，如圖所示：

在數(shù)據(jù)流施加這樣的瓶頸，訓(xùn)練編碼器-解碼器，激勵(lì)網(wǎng)絡(luò)只傳遞最重要信息到價(jià)值函數(shù)網(wǎng)絡(luò)，其解釋駕駛場(chǎng)景、對(duì)車(chē)輛定位、協(xié)調(diào)智體之間的交互。

如圖顯示的是，自動(dòng)編碼器在環(huán)島路口、交叉路口、高速公路出口和高速公路合并等駕駛實(shí)例的混合數(shù)據(jù)集訓(xùn)練了 100 個(gè)epoch。在 epoch 50 之后，損失的變化在視覺(jué)上并不明顯。

如圖所示是潛表征的例子：兩個(gè)對(duì)比鮮明的環(huán)島路口和交叉路口的拓?fù)浣Y(jié)構(gòu)。

為模擬和生成用于訓(xùn)練自動(dòng)編碼器以及 Q -學(xué)習(xí)過(guò)程的訓(xùn)練數(shù)據(jù)集，采用基于OpenAI Gym 環(huán)境的抽象 2D 駕駛模擬器。模擬器對(duì)給定的道路拓?fù)浜蛙?chē)輛設(shè)置生成不同的駕駛場(chǎng)景。由于目標(biāo)是學(xué)習(xí)可泛化的策略，而不是通過(guò) VFAN 記住一系列動(dòng)作，因此每個(gè)模擬事件的初始狀態(tài)都是隨機(jī)的。車(chē)輛的初始 Frenet 緯度（latitude）來(lái)自均勻隨機(jī)化的均勻分布，模擬車(chē)輛的初始 Frenet 經(jīng)度（longitude）和 Frenet 縱向速度來(lái)自裁剪高斯分布。

采用閉環(huán) PID 控制器，每輛車(chē)的元?jiǎng)幼麂秩緸榈图?jí)轉(zhuǎn)向和加速信號(hào)。然后，運(yùn)動(dòng)學(xué)自行車(chē)模型根據(jù)轉(zhuǎn)向角和其他參數(shù)確定車(chē)輛的偏航率。

模擬包括自動(dòng)駕駛車(chē)和人工駕駛車(chē)，創(chuàng)建逼真的混合自動(dòng)駕駛場(chǎng)景。采用兩種廣泛使用的人類(lèi)駕駛員模型，HV的橫向動(dòng)作及其換道的決定，遵循 最小化換道引起的整體制動(dòng) (Minimizing Overall Braking Induced by Lane changes，MOBIL) 策略。 MOBIL 模型僅在后面跟車(chē)產(chǎn)生的加速度滿足安全標(biāo)準(zhǔn)時(shí)才允許換道。 HV 的縱向加速度遵循 智能駕駛員模型 (Intelligent Driver Model，IDM) 。

實(shí)驗(yàn)結(jié)果如下為例：

瓶頸網(wǎng)絡(luò)的性能提升作用

加速遷移學(xué)習(xí)

不同潛空間大小的瓶頸網(wǎng)絡(luò)，不同的重建特性

不同遷移學(xué)習(xí)方法比較

域適應(yīng)

這項(xiàng)工作采用駕駛模擬器從各種道路拓?fù)洌ɡ绛h(huán)島路口、十字路口和高速公路）生成一個(gè)大型混合駕駛事件數(shù)據(jù)集。但是，可以對(duì)較長(zhǎng)時(shí)間的駕駛進(jìn)行更復(fù)雜的研究。此外，必須做更多的工作來(lái)解釋學(xué)習(xí)的潛表征。

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛的挑戰(zhàn)和發(fā)展

智能駕駛汽車(chē)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：亚洲一区二区三区乱码aⅴ 四虎在线视频 | 亚洲精品日韩在线 | 国产精品美女久久久久aⅴ国产馆 | 人人玩人人添人人澡欧美 | 国产亚洲第一页 | 亚洲人成人一区二区在线观看 | 九九九精品视频 | 国产精品高清在线 | 特级毛片爽www免费版 | 成人av网页 | 欧美一级黄色免费看 | 日韩精品在线看 | 欧美精品一区三区 | 久久精品视频一区二区三区 | 午夜精品久久久久久久久久久久久 | 欧美精品一 | 久久国产精品视频 | 国产精品久久久久一区二区三区 | 殴美成人在线视频 | 亚洲国产成人精 | 国产精品美女久久久久久免费 | 激情网站在线观看 | 国产精品入口麻豆www | 天天精品在线 | 国产一区二区自拍 | 色视频网站 | 国产一二三区精品视频 | 极品粉嫩国产48尤物在线播放 | 亚洲不卡视频 | 精品一区二区三区在线视频 | 久久久婷婷 | 成人亚洲精品 | 久久久夜 | 国产精品视频网 | 99欧美精品 | 9999国产精品欧美久久久久久 | 日韩高清三区 | 亚洲高清免费观看 | 成人免费视频一区 | 亚洲视频在线免费观看 | 国产午夜精品一区二区三区四区 |