刺激，無人機競速超越頂級人類玩家，強化學習再登Nature封面

作者：機器之心 2023-08-31 13:37:00

在這場無人機比賽中，人類操縱者通過機載攝像機操縱無人機通過 3D 賽道，這是為了讓操縱者從無人機的視角觀察環境。自主無人機要達到人類控制無人機的水平是非常具有挑戰性的，因為無人機需要僅通過機載傳感器估計其在賽道中的速度和位置。

最近，在一場無人機比賽中，一架自主控制的無人機戰勝了頂級人類玩家。

這架自主控制無人機是由來自蘇黎世大學的研究團隊設計研發的 Swift 系統，研究成果登上了最新一期的《Nature》雜志封面。

研究內容：https://www.nature.com/articles/s41586-023-06419-4

而 Swift 戰勝的是世界冠軍級人類玩家，他們分別是：2019 年無人機競速聯盟世界冠軍 Alex Vanover、兩屆 MultiGP 國際公開賽冠軍 Thomas Bitmatta 和三屆瑞士全國冠軍 Marvin Schaepper。

下圖 1a 是這次比賽的賽道，Swift 不僅贏得了與人類冠軍的比賽，還創造了最快的比賽紀錄。這項工作是移動機器人和機器智能領域的一個里程碑。

圖 1

下面我們就來看一下自主無人機 Swift 的技術方法。

Swift 技術介紹

Swift 是一個僅使用機載傳感器和計算完成自主控制的四旋翼飛行器，由兩個關鍵模塊組成：

感知系統，將高維的視覺和慣性信息轉換成低維表征；
控制策略，攝取感知系統產生的低維表征并產生控制命令。

其中，控制策略由一個前饋神經網絡來表征，并使用無模型 on-policy 深度強化學習（RL）進行訓練。

由于模擬與現實世界在傳感和動力學方面存在差異，僅在模擬中優化策略會導致無人機的現實性能較差，因此研究團隊利用物理系統收集的數據來估計非參數經驗噪聲模型（non-parametric empirical noise model）。實驗表明，這些經驗噪聲模型有助于將控制策略從模擬成功轉移到現實。

具體來說，Swift 將機載傳感器的讀數映射成控制命令，這一映射包括兩部分：(1) 觀察策略，將高維的視覺和慣性信息提煉成特定于任務的低維編碼；(2) 控制策略，將編碼轉換成無人機命令。Swift 系統整體概覽如下圖 2 所示：

圖 2

如圖 1 所示場景，Swift 的觀察策略需要運行視覺 - 慣性估計器和門檢測器。其中，門檢測器是一個卷積神經網絡，用于檢測機載圖像中的賽車門，然后使用檢測到的門來估計無人機在賽道上的全局位置和飛行方向。這是使用相機后方交會算法（camera-resectioning algorithm），并結合賽道地圖來完成的。最后，Swift 用卡爾曼濾波（Kalman filter）將全局姿態估計（從門檢測器獲得）與視覺 - 慣性估計結合起來，從而更準確地表征機器人的狀態。

控制策略（用一個兩層感知器表征），負責將卡爾曼濾波（Kalman filter）的輸出映射成無人機控制命令。控制策略在模擬中使用無模型 on-policy 深度強化學習（RL）進行訓練。在訓練期間，該策略會考慮相機視野內下一個競賽門的信息，將獎勵最大化，以提高姿態估計的準確性。

實驗及結果

為了評估 Swift 的性能，該研究進行了一系列的比賽實驗，并與軌跡規劃和模型預測控制（MPC）進行了比較。

如下圖 3b 所示，在與 A. Vanover 的 9 場比賽中，Swift 贏了 5 場；在與 T. Bitmatta 的 7 場比賽中，Swift 贏了 4 場；在與 M. Schaepper 的 9 場比賽中，Swift 贏了 6 場。在 Swift 記錄的 10 次失利中，40% 是因為與對手相撞，40% 是因為與競賽門相撞，20% 是因為比人類控制的無人機慢。總體而言，在與人類控制無人機進行的比賽中，Swift 獲勝次數最多，并且它還創造了最快的比賽紀錄，比人類控制無人機（A. Vanover）的最佳時間快了半秒。