AI無人機競速擊敗人類冠軍,Nature封面:將AlphaGo成果帶到物理世界
AI再一次擊敗人類世界冠軍,登上Nature封面。
與上一次AlphaGo下圍棋不同,這次不是腦力運動,而是在真實物理環(huán)境中的競技體育項目——“空中F1”無人機競速。
與AlphaGo也有相同之處,核心技術(shù)都是深度強化學習。
成果來自蘇黎世大學,作者之一Davide Scaramuzza認為,這是國際象棋的深藍、圍棋的AlphaGo之后的又一大突破。
這標志著自主移動機器人首次在為人類設計并由人類設計的物理環(huán)境體育運動中擊敗人類冠軍。
微軟高級研究工程師Shital Shah認為這比AlphaGo更難,也更難獲得認可,但仍是歷史性的里程碑。
深度強化學習,又一次勝利
先介紹一下這個運動項目:FPV(第一人稱視角)無人機競速。
人類選手會通過機載攝像頭傳輸?shù)囊曨l,從無人機的視角觀察環(huán)境,穿越障礙。
賽道由七個方形大門組成,每一圈都必須按順序通過。要贏得比賽,參賽者必須連續(xù)領(lǐng)先對手完成三圈。
兩臺無人機同時出發(fā),正面對決,最高速度可達每小時100公里,同時承受數(shù)倍于重力的加速度。
這次與AI同臺的是2019年無人機競速聯(lián)盟世界冠軍Alex Vanover、MultiGP國際公開賽世界杯冠軍Thomas Bitmatta和三屆瑞士全國冠軍Marvin Schaepper。
對AI來說,要達到專業(yè)人類選手的水平非常有挑戰(zhàn)性,因為無人機需要在物理極限下飛行,同時僅通過機載傳感器估計速度和位置。
為解決這些挑戰(zhàn),蘇黎世大學設計了Swift,由兩個關(guān)鍵模塊組成:
- 感知系統(tǒng),將高維視覺信息和慣性信息轉(zhuǎn)換為低維表示。
- 控制策略,感知系統(tǒng)產(chǎn)生的低維表示并產(chǎn)生控制命令。
其中,感知系統(tǒng)主要是一個VIO(Visual-Inertial Odometry)模塊,同時利用視覺和慣性傳感器對自身定位和對環(huán)境建模。
VIO估計與神經(jīng)網(wǎng)絡相結(jié)合,用于檢測障礙門的四個角點。
控制策略是一個前饋神經(jīng)網(wǎng)絡,使用無模型的On-policy深度強化學習進行模擬訓練,獎勵目標結(jié)合了向下一個門的中心前進,和保持下一個門在攝像機視野內(nèi)。
為了彌合模擬和物理世界之間感知和動力學上的差距,使用了從物理系統(tǒng)中收集的數(shù)據(jù),驅(qū)動一個MLP殘差模型。
在比賽開始前,人類選手在指定賽道上有一周的練習時間,賽道包含“Split-S”等高難度機動動作。
具體規(guī)則還有:由聲學信號(發(fā)令槍)開啟比賽,如果發(fā)生碰撞也可以繼續(xù)比賽,如果兩架無人機都墜落則飛得遠的獲勝。
最終在與三位人類選手的比賽中,Swift分別拿下了9局5勝,7局4勝,和9局6勝的成績。
在Swift輸?shù)舻谋荣愔校?0%是因為與對手發(fā)生碰撞,40%是因為與門發(fā)生碰撞,20%是因為速度比人類慢。
Swift還在比賽中取得最快記錄,人類選手的最佳時間領(lǐng)先半秒。
在累計300圈的數(shù)據(jù)中,Swift平均時間更短,方差更低,代表AI每圈都穩(wěn)定追求更快圈速。
而人類則會在自己領(lǐng)先時保持一個較慢的速度,降低碰撞的風險,表現(xiàn)出更大的方差。
這也體現(xiàn)出當前的Swift系統(tǒng)無法得知對手的情況,在領(lǐng)先時不夠穩(wěn),落后時又不夠浪。
AI與人類選手,哪里不同?
在論文中,團隊還討論了AI與人類選手的更多對比。
首先,Swift利用了機載慣性傳感器,這類似于人類的前庭系統(tǒng)。
但反而是人類在這個項目上無法使用前庭系統(tǒng),因為他們不隨無人機一起移動,感受不到加速度。
另外,Swift的傳感器延遲更低為40毫秒,專業(yè)人類選手平均能做到220毫秒。
但Swift的攝像頭刷新率有限,只有30Hz,人類使用的攝像頭則120Hz。
最后,人類有更高的韌性。
比如即使在全速墜機了只要設備沒壞就能繼續(xù)比賽,但Swift沒有接受碰撞后恢復的訓練。
如果改變比賽現(xiàn)場的光照環(huán)境,Swift的感知系統(tǒng)就會失效。
作者認為,這項研究可能會激發(fā)在其他物理系統(tǒng)(例如自動駕駛汽車、飛機和機器人)中跨廣泛應用部署基于混合學習的解決方案。
論文地址:https://www.nature.com/articles/s41586-023-06419-4。
參考鏈接:[1]https://x.com/davsca1/status/1696938013421429111。