成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

軌跡跟蹤誤差直降50%,清華汪玉團隊強化學習策略秘籍搞定無人機

人工智能
本文介紹了基于強化學習的無人機控制策略零樣本泛化到真實世界的關鍵因素。作者來自于清華大學高能效計算實驗室,通訊作者為清華大學汪玉教授和于超博士后,研究方向為強化學習和具身智能。

控制無人機執行敏捷、高機動性的行為是一項頗具挑戰的任務。傳統的控制方法,比如 PID 控制器和模型預測控制(MPC),在靈活性和效果上往往有所局限。而近年來,強化學習(RL)在機器人控制領域展現出了巨大的潛力。通過直接將觀測映射為動作,強化學習能夠減少對系統動力學模型的依賴。

然而,「Sim2Real」(從仿真到現實)的鴻溝卻始終是強化學習應用于無人機控制的難點之一。如何實現無需額外微調的策略遷移,是研究者們追逐的目標。盡管有許多基于強化學習的控制方法被提出,但至今學界仍未就訓練出魯棒且可零微調部署的控制策略達成一致,比如:獎勵函數應該如何設計才能讓無人機飛得平穩?域隨機化在無人機控制中到底該怎么用?

最近,清華大學的研究團隊為我們帶來了一個突破性的答案。他們詳細研究了訓練零微調部署的魯棒 RL 策略所需的關鍵因素,并提出了一套集成五大技術、基于 PPO 的強化學習框架 SimpleFlight。這一框架在軌跡跟蹤誤差上比現有的 RL 基線方法降低了 50% 以上!如果你正為強化學習策略無法實際控制無人機而發愁,那么 SimpleFlight 能夠幫助你訓練出無需額外微調就能在真實環境中運行的魯棒策略。

圖片

  • 論文標題:What Matters in Learning A Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study
  • 論文鏈接:https://arxiv.org/abs/2412.11764
  • 開源代碼及模型項目網站:https://sites.google.com/view/simpleflight

實驗效果一覽

為了驗證 SimpleFlight 的有效性,研究人員在開源的微型四旋翼無人機 Crazyflie 2.1 上進行了廣泛的實驗。

實驗中,無人機的位置、速度和姿態信息由 OptiTrack 運動捕捉系統以 100Hz 的頻率提供,并傳輸到離線計算機上進行策略解算。策略生成的 collective thrust and body rates( CTBR) 控制指令以 100Hz 的頻率通過 2.4GHz 無線電發送到無人機。

研究人員使用了以下兩種類型的軌跡作為基準軌跡:

  • 平滑軌跡:包括八字形和隨機多項式軌跡。八字形軌跡具有周期性,研究人員測試了三種速度:慢速 (15.0s 完成)、正常速度 (5.5s 完成) 和快速 (3.5s 完成)。隨機多項式軌跡由多個隨機生成的五次多項式段組成,每個段的持續時間在 1.00s 和 4.00s 之間隨機選擇。
  • 不可行軌跡:包括五角星和隨機之字形軌跡。五角星軌跡要求無人機以恒定速度依次訪問五角星的五個頂點。研究人員測試了兩種速度:慢速 (0.5m/s) 和快速 (1.0m/s)。隨機之字形軌跡由多個隨機選擇的航點組成,航點的 x 和 y 坐標在 -1m 和 1m 之間分布,連續航點之間由直線連接,時間間隔在 1s 和 1.5s 之間隨機選擇。

圖片

圖 1:四種軌跡的可視化

策略的訓練數據包括平滑隨機五次多項式和不可行之字形軌跡。訓練過程持續 15,000 個 epoch,訓練完成后,將策略直接部署到 Crazyflie 無人機上進行測試,沒有進行任何微調。值得注意的是,由于策略在不同隨機種子下表現穩定,研究人員在 3 個隨機種子中隨機挑選了一個策略而沒有選擇表現最好的那個。

圖片

表 1:SimpleFlight 與基線算法的表現對比

研究人員將 SimpleFlight 與兩種 SOTA 的 RL 基線方法 (DATT [1] 和 Fly [2]) 進行了比較,如表 1 所示。結果表明,SimpleFlight 在所有基準軌跡上都取得了最佳性能,軌跡跟蹤誤差降低了 50% 以上,并且是唯一能夠成功完成所有基準軌跡(包括平滑和不可行軌跡)的方法。圖 2 是一些真機飛行的視頻。

圖片

圖 2:SimpleFlight 在 Crazyflie 2.1 無人機上的實驗效果

研究人員指出,這些對比的核心目的并非進行絕對的橫向評價,而是為了表明:SimpleFlight 實現了目前所知的在 Crazyflie 2.1 上的最佳控制性能,盡管沒有依賴任何新的算法改進或復雜的架構升級。SimpleFlight 的意義更在于作為一套關鍵訓練因素的集合,它能夠輕松集成到現有的四旋翼無人機控制方法中,從而幫助研究者和開發者進一步優化控制性能。

此外,研究人員還進行了額外實驗,將 SimpleFlight 部署到一款由團隊自制的 250mm 軸距四旋翼無人機上。這款無人機配備了 Nvidia Orin 處理器,進一步驗證了 SimpleFlight 在不同硬件平臺上的適應性與效果。自制無人機的飛行視頻和結果已上傳至項目官網,供感興趣的同行參考。

SimpleFlight 的五大核心秘訣

那么,SimpleFlight 是如何做到的呢?研究人員主要是從優化輸入空間設計、獎勵設計和訓練技術三方面來縮小模擬到現實的差距,并總結出了以下 5 大關鍵因素:

  • 采用與未來一段參考軌跡的相對位姿誤差、速度和旋轉矩陣作為策略網絡的輸入,這使得策略可以進行長距離規劃,并更好地處理具有急轉彎的不可行軌跡。研究人員指出,在強化學習策略的學習中,采用旋轉矩陣而不是四元數作為輸入,更有利于神經網絡的學習。
  • 將時間向量添加到價值網絡的輸入。無人機的控制任務通常是隨時間動態變化的,時間向量作為價值網絡的額外輸入,增強了價值網絡對時間信息的感知,從而更準確地估計狀態值。
  • 采用 CTBR 指令作為策略輸出動作,使用連續動作之間的差異的正則化作為平滑度獎勵。在無人機控制中,不平滑的動作輸出可能導致飛行過程中的不穩定,甚至出現震蕩和意外偏離軌跡的情況。而現實中的無人機由于硬件特性和動態響應的限制,比仿真環境更容易受到這些不穩定動作的影響。研究人員比較了多種平滑度獎勵方案,結果表明使用連續動作之間的差異的正則化作為平滑度獎勵,可以獲得最佳的跟蹤性能,同時鼓勵策略輸出平滑的動作,避免在現實世界中產生不穩定的飛行行為。
  • 使用系統辨識對關鍵動力學參數進行校準,并選擇性地應用域隨機化手段。研究人員通過系統辨識對關鍵動力學參數進行了精確校準,確保仿真模型能夠盡可能接近真實無人機的動力學特性。然而,研究也發現,域隨機化的應用需要極為謹慎。對于那些能夠通過系統辨識達到合理精度的參數,過度引入域隨機化可能會適得其反。這是因為不必要的隨機化會顯著增加強化學習的學習復雜度,導致性能下降。換句話說,域隨機化并非 「越多越好」,需要通過合理選擇哪些參數應用隨機化。
  • 在訓練過程中使用較大的 batch size。在 SimpleFlight 的訓練過程中,研究人員特別關注了 batch size 對策略性能的影響。他們通過實驗發現,增大 batch size 盡管對仿真環境中的性能提升并不顯著,但在真實無人機上的表現卻得到了顯著改善。這表明,大 batch size 在縮小模擬與現實之間的 Sim2Real Gap 方面,扮演了關鍵角色。這種現象背后的原因可能與強化學習的泛化能力有關。在大 batch size 的訓練中,策略能夠在更廣泛的狀態分布上進行學習,從而提升其應對真實環境中復雜情況的魯棒性。這種改進不僅幫助策略更好地適應現實世界中的不確定性,還減少了從仿真到現實部署時可能出現的性能退化問題。

另外值得注意的是,SimpleFlight 框架集成在研究人員自主開發的高效無人機仿真平臺 OmniDrones,該平臺基于 NVIDIA 的 Isaac Sim 仿真環境搭建,允許用戶在 GPU 并行模擬之上輕松設計和試驗各種應用場景,可以實現每秒超過 10^5 步的仿真速度,極大地加速了強化學習策略的訓練。

圖 4:OmniDrones 仿真平臺示意圖,來源:https://arxiv.org/abs/2309.12825

還等什么?趕快試試 SimpleFlight,把你的強化學習策略送上無人機吧!

Reference:

[1] Huang, K., Rana, R., Spitzer, A., Shi, G. and Boots, B., 2023. Datt: Deep adaptive trajectory tracking for quadrotor control. arXiv preprint arXiv:2310.09053.

[2] Eschmann, J., Albani, D. and Loianno, G., 2024. Learning to fly in seconds. IEEE Robotics and Automation Letters.

責任編輯:姜華 來源: 機器之心
相關推薦

2023-08-31 13:37:00

訓練模型

2021-04-19 16:39:59

無人機人工智能AI

2017-06-30 15:45:33

消費

2017-08-29 08:11:48

倉庫MITRFID

2021-01-11 13:27:55

無人機通信技術

2015-06-23 14:57:08

深圳市國通廣告有限公司

2021-01-03 20:05:02

美國無人機牌照

2021-05-28 13:24:46

無人機人工智能AI

2023-11-24 17:20:41

無人機無人駕駛飛行器

2021-05-06 10:20:13

特斯拉黑客漏洞

2023-05-19 16:43:10

移植無人機鴻蒙

2015-05-25 16:35:22

CES

2021-12-23 10:38:00

人工智能AI無人機

2023-05-04 11:35:15

無人機

2024-05-30 16:37:29

2023-06-25 11:30:47

可視化

2015-10-09 11:37:08

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 激情婷婷 | 日韩av高清在线 | 91一区二区三区 | 日韩中文字幕在线观看 | 中文字幕电影在线观看 | 懂色av一区二区三区在线播放 | 亚洲精品日本 | hitomi一区二区三区精品 | 欧美乱人伦视频 | 午夜精品视频在线观看 | 午夜电影合集 | 日韩欧美中文字幕在线视频 | 日韩毛片在线观看 | 亚洲欧美久久 | 99视频在线免费观看 | 欧美极品视频在线观看 | 日产精品久久久一区二区福利 | 成人在线h | 午夜午夜精品一区二区三区文 | 成人视屏在线观看 | 秋霞影院一区二区 | 久久国产激情视频 | 一区二区不卡高清 | 蜜桃av鲁一鲁一鲁一鲁 | 美女黄网站视频免费 | 日本中文在线 | av色在线| 波多野结衣一二三区 | 亚洲36d大奶网 | 欧美狠狠操 | 一区二区三区免费在线观看 | 一区二区三区四区在线免费观看 | 国产欧美一区二区三区在线看蜜臀 | 亚洲精品视频网站在线观看 | 国产亚洲精品久久久久动 | 久久久激情 | 亚洲国产成人久久久 | 亚洲第一区国产精品 | 天堂一区二区三区四区 | 99热精品久久 | 在线观看中文字幕av |