刺激,無人機競速超越頂級人類玩家,強化學習再登Nature封面
最近,在一場無人機比賽中,一架自主控制的無人機戰勝了頂級人類玩家。
這架自主控制無人機是由來自蘇黎世大學的研究團隊設計研發的 Swift 系統,研究成果登上了最新一期的《Nature》雜志封面。
研究內容:https://www.nature.com/articles/s41586-023-06419-4
在這場無人機比賽中,人類操縱者通過機載攝像機操縱無人機通過 3D 賽道,這是為了讓操縱者從無人機的視角觀察環境。自主無人機要達到人類控制無人機的水平是非常具有挑戰性的,因為無人機需要僅通過機載傳感器估計其在賽道中的速度和位置。
而 Swift 戰勝的是世界冠軍級人類玩家,他們分別是:2019 年無人機競速聯盟世界冠軍 Alex Vanover、兩屆 MultiGP 國際公開賽冠軍 Thomas Bitmatta 和三屆瑞士全國冠軍 Marvin Schaepper。
下圖 1a 是這次比賽的賽道,Swift 不僅贏得了與人類冠軍的比賽,還創造了最快的比賽紀錄。這項工作是移動機器人和機器智能領域的一個里程碑。
圖 1
下面我們就來看一下自主無人機 Swift 的技術方法。
Swift 技術介紹
Swift 是一個僅使用機載傳感器和計算完成自主控制的四旋翼飛行器,由兩個關鍵模塊組成:
- 感知系統,將高維的視覺和慣性信息轉換成低維表征;
- 控制策略,攝取感知系統產生的低維表征并產生控制命令。
其中,控制策略由一個前饋神經網絡來表征,并使用無模型 on-policy 深度強化學習(RL)進行訓練。
由于模擬與現實世界在傳感和動力學方面存在差異,僅在模擬中優化策略會導致無人機的現實性能較差,因此研究團隊利用物理系統收集的數據來估計非參數經驗噪聲模型(non-parametric empirical noise model)。實驗表明,這些經驗噪聲模型有助于將控制策略從模擬成功轉移到現實。
具體來說,Swift 將機載傳感器的讀數映射成控制命令,這一映射包括兩部分:(1) 觀察策略,將高維的視覺和慣性信息提煉成特定于任務的低維編碼;(2) 控制策略,將編碼轉換成無人機命令。Swift 系統整體概覽如下圖 2 所示:
圖 2
如圖 1 所示場景,Swift 的觀察策略需要運行視覺 - 慣性估計器和門檢測器。其中,門檢測器是一個卷積神經網絡,用于檢測機載圖像中的賽車門,然后使用檢測到的門來估計無人機在賽道上的全局位置和飛行方向。這是使用相機后方交會算法(camera-resectioning algorithm),并結合賽道地圖來完成的。最后,Swift 用卡爾曼濾波(Kalman filter)將全局姿態估計(從門檢測器獲得)與視覺 - 慣性估計結合起來,從而更準確地表征機器人的狀態。
控制策略(用一個兩層感知器表征),負責將卡爾曼濾波(Kalman filter)的輸出映射成無人機控制命令。控制策略在模擬中使用無模型 on-policy 深度強化學習(RL)進行訓練。在訓練期間,該策略會考慮相機視野內下一個競賽門的信息,將獎勵最大化,以提高姿態估計的準確性。
實驗及結果
為了評估 Swift 的性能,該研究進行了一系列的比賽實驗,并與軌跡規劃和模型預測控制(MPC)進行了比較。
如下圖 3b 所示,在與 A. Vanover 的 9 場比賽中,Swift 贏了 5 場;在與 T. Bitmatta 的 7 場比賽中,Swift 贏了 4 場;在與 M. Schaepper 的 9 場比賽中,Swift 贏了 6 場。在 Swift 記錄的 10 次失利中,40% 是因為與對手相撞,40% 是因為與競賽門相撞,20% 是因為比人類控制的無人機慢。總體而言,在與人類控制無人機進行的比賽中,Swift 獲勝次數最多,并且它還創造了最快的比賽紀錄,比人類控制無人機(A. Vanover)的最佳時間快了半秒。
圖 3
為了對 Swift 的性能進行更細致的分析,該研究比較了 Swift 和人類控制無人機的最快單圈飛行速度,結果如下圖 4 和表 1 所示。
圖 4
表 1
雖然從整體上看,Swift 比所有人類控制無人機都要快,但它在賽道的每個賽段上的速度并不快,如表 1 所示。
研究團隊仔細分析發現:在起飛時,Swift 的反應時間較短,平均比人類飛行員早 120 毫秒起飛;Swift 的加速也更快,進入第一個競賽門時速度更高。在急轉彎時,如圖 4cd 所示,Swift 的動作更加緊湊。
研究團隊還提出一種假設,Swift 在比人類操控者更長的時間尺度上優化軌跡。眾所周知,無模型 RL 可以通過價值函數優化長期獎勵(long-term reward)。相反,人類操控者規劃運動的時間尺度較短,最多只能預測未來一個競賽門。