為什么自動駕駛汽車不需要激光雷達?
譯文【51CTO.com快譯】開發和生產自動駕駛汽車所需的技術是什么?生產商和研究機構對這個問題的答案存在著一些分歧。自動駕駛的方法范圍從攝像頭和計算機視覺的組合發展到計算機視覺和先進傳感器的組合。
特斯拉公司一直是基于視覺的自動駕駛方法的擁護者,在今年的計算機視覺和模式識別會議(CVPR)上,該公司首席人工智能科學家Andrej Karpathy解釋了采用這一方法的原因。
在CVPR2021自動駕駛技術研討會上,領導特斯拉公司自動駕駛技術開發工作的Karpathy詳細介紹了該公司如何開發只需要視頻輸入就可以了解汽車的周圍環境的深度學習系統。其技術通過視覺神經網絡非常準確估計汽車之間距離、速度和加速度。其必要的技術包括:龐大的車隊數據引擎、強大的人工智能團隊和超級計算機。他還對為什么特斯拉公司在實現基于視覺的自動駕駛汽車方面處于行業領先地位進行了解釋。
通用計算機視覺系統
深度神經網絡是自動駕駛技術堆棧的主要組成部分之一。神經網絡通過車載攝像頭來分析道路、標志、汽車、障礙物和人員的信息。
但是深度學習在檢測圖像中的對象時也會出錯。這就是為什么大多數自動駕駛汽車公司(其中包括Alphabet的子公司Waymo公司)使用激光雷達的原因,激光雷達是一種通過向各個方向發射激光束來創建汽車周圍3D圖像的設備,可以提供填補神經網絡空白的補充信息。
然而,將激光雷達添加到自動駕駛技術堆棧會帶來其自身的復雜性。Karpathy說,“這樣的自動駕駛技術必須采用激光雷達預先繪制環境地圖,然后必須創建高清地圖,需要輸入所有車道及其連接方式以及所有交通燈的信息。而在測試時,只需定位到該地圖即可放心行駛。”
但是,創建自動駕駛汽車將要行駛的每個位置的精確地圖是極其困難的。Karpathy說,“收集、構建和維護這些高清激光雷達地圖是很困難,而讓這一基礎設施保持最新狀態將是極其困難的。”
特斯拉公司因此在其自動駕駛技術堆棧中沒有使用激光雷達和高清地圖技術。他說,“我們根據圍繞汽車的8個攝像頭拍攝的視頻信息,可以在車內處理一切事務。”
自動駕駛技術必須弄清楚車道在哪里,交通燈在哪里,交通燈的狀態是什么,以及哪些信息與車輛相關。而且它必須做到這一切,而不需要獲得任何關于其導航的道路的預定義信息。
Karpathy承認,基于視覺的自動駕駛在技術上更加困難,因為它需要采用神經網絡技術,而神經網絡僅基于視頻信號就能發揮難以置信的良好功能。他說,“但是一旦真正讓它工作起來,它就是一個通用的視覺系統,可以部署在地球上的任何地方。”
使用通用視覺系統,自動駕駛汽車將不再需要任何輔助裝備。Karpathy表示,特斯拉公司已經在朝著這個方向前進。在此之前,該公司的自動駕駛汽車使用激光雷達和攝像頭的組合進行自動駕駛,但該公司已經開始銷售不再采用激光雷達的汽車。
Karpathy說,“我們刪除了激光雷達,新推出的自動駕駛汽車只靠視覺駕駛。”他補充說,其原因是特斯拉公司的深度學習系統的性能已經遠遠超出了激光雷達,現在采用激光雷達反而阻礙其技術發展。
監督學習
而反對純粹計算機視覺方法的主要論點是,在沒有激光雷達深度圖像技術的情況下,神經網絡是否可以進行測距和估計距離仍存在不確定性。
Karpathy說:“顯然,人類在駕駛時主要依賴視覺,所以人類的神經網絡能夠處理視覺輸入,以了解汽車周圍物體的距離和速度。但最大的問題是我們開發的神經網絡能否做到同樣的事情。我們一直在努力解決這個問題,我們對于這個問題的回答是肯定的。”
特斯拉公司的工程師為此創建一個深度學習系統,該系統可以檢測物體以及距離、速度和加速度。他們將挑戰視為一個監督學習問題,其中神經網絡在對帶注釋的數據進行訓練之后學習檢測對象及其相關屬性。
為了訓練他們的深度學習架構,特斯拉公司的研發團隊需要一個包含數百萬個視頻的海量數據集,并用它們包含的對象及其屬性仔細注釋。而為自動駕駛汽車創建數據集特別棘手,技術工程師必須確保包含不經常發生的各種道路狀況和路邊情況。
Karpathy說,“當擁有一個龐大、干凈、多樣化的數據集,并在其上訓練一個大型神經網絡時,在實踐中獲得成功才是有保證的。”
自動標記數據集
特斯拉公司在全球銷售了數百萬輛配備攝像頭的汽車,因此在收集訓練汽車視覺深度學習模型所需的數據方面處于有利地位。特斯拉公司自動駕駛技術開發團隊積累了1.5PB的數據,其中包括100萬個10秒視頻和60億個用邊界框、深度和速度標注的對象。
但是標記這樣的數據集是一個巨大的挑戰。一種方法是通過數據標記公司或Amazon Turk等在線平臺對其進行人工注釋。但這需要大量的人工工作,可能會花費更多費用,并且其過程非常緩慢。
與其相反,特斯拉公司的開發團隊使用了一種自動標記技術,該技術涉及神經網絡、雷達數據和人工審查的組合。由于數據集是離線注釋的,其神經網絡可以反復運行視頻,將它們的預測與真實情況進行比較,并調整它們的參數。這與測試時間推理形成對比,而在測試時間推理中,一切都是實時發生的,深度學習模型無法追蹤。
離線標記還使技術工程師能夠應用非常強大且計算密集型的對象檢測網絡,這些網絡無法部署在汽車上并用于實時、低延遲的應用程序。他們使用激光雷達傳感器數據來進一步驗證神經網絡的推論。所有這些都提高了標記網絡的精度。
Karpathy說,“如果處于離線狀態,可以獲得事后分析的好處,因此可以更好地冷靜地融合不同的傳感器數據。此外,可以讓人類參與進來,他們可以進行清理、驗證、編輯等工作。”
根據Karpathy在CVPR研討會上展示的視頻,對象檢測網絡在通過碎片、灰塵和雪云環境的表現保持一致。
特斯拉公司的神經網絡可以在各種能見度條件下始終如一地檢測出現的物體。
Karpathy并沒有說明對自動標記系統進行最終修正需要多少工作量。但人類認知在引導自動標記系統朝著正確方向發展方面發揮了關鍵作用。
在開發數據集的過程中,特斯拉公司的開發團隊開發了200多個觸發器,并對對象檢測進行不斷調整。其中包括諸如不同攝像頭的檢測結果之間或攝像頭與激光雷達之間的不一致等問題。他們還確定了需要特別注意的場景,例如隧道入口和出口以及特殊種類的汽車。
開發和掌握所有這些觸發器花了四個月的時間。隨著標記網絡變得越來好,它以“影子模式”部署,這意味著它安裝在自動駕駛車輛中并靜默運行,無需向汽車發出命令。將網絡的輸出與傳統網絡、激光雷達和駕駛員行為的輸出進行比較。
特斯拉公司的開發團隊經歷了七次數據工程迭代。他們從一個初始數據集開始,在該數據集上訓練神經網絡。然后,他們在真實汽車上以影子模式部署深度學習,并使用觸發器來檢測不一致、錯誤和特殊場景。然后再進行修改以糾正錯誤,并在必要時將新數據添加到數據集中。
Karpathy說,“我們一遍又一遍地進行修改和調整,直到神經網絡變得非常好為止。”
因此,該架構可以更好地描述為具有巧妙分工的半自動標記系統,其中神經網絡執行重復性工作,工作人員處理高級認知問題和極端情況。
有趣的是,當一位與會者問Karpathy是否可以自動生成觸發器時,他說,“生成自動化觸發器是一個非常棘手的場景,因為可以擁有通用觸發器,但它們并不會正確表示錯誤模式。例如,很難自動觸發進入和退出隧道的觸發器。而作為人類是靠自己的直覺處理,這是一個挑戰......目前尚不清楚這將如何運作。”
分層深度學習架構
特斯拉的自動駕駛開發團隊需要一個非常高效且設計精良的神經網絡,以充分利用他們收集的高質量數據集。
該公司創建了一個分層深度學習架構,由不同的神經網絡組成,這些神經網絡處理信息并將其輸出結果提供給下一組網絡。
深度學習模型使用卷積神經網絡從安裝在汽車周圍的8個攝像頭的視頻中提取特征,并使用神經網絡將它們融合在一起。然后將它們跨時間進行融合,這對于行進軌跡預測和平滑推理不一致性等任務非常重要。然后將空間和時間特征輸入到神經網絡的分支結構中,Karpathy將其描述為頭部、軀干和終端。
Karpathy說:“采用這種分支結構的原因是因為輸出結果的數量巨大,而且不能為每個輸出都配備一個單一的神經網絡。”
層次結構可以為不同的任務重用組件,并在不同的推理路徑之間實現特征共享。網絡模塊化架構的另一個好處是分布式開發的可能性。特斯拉公司目前雇傭的機器學習工程師團隊致力于自動駕駛神經網絡的研究。他們每個人都開發神經網絡的一個小組件,并將開發結果插入到更大的神經網絡中。
Karpathy說,“我們的開發團隊大約有20人,他們正在全身心地訓練神經網絡。”
垂直整合
在計算機視覺和模式識別會議(CVPR)的演講中,Karpathy分享了有關特斯拉公司用來訓練和微調其深度學習模型的超級計算機的一些細節。
其計算集群由80個節點組成,每個節點包含8個具有80GB顯存的Nvidia A100 GPU,總計采用5,760個GPU和超過450TB的內存。這臺超級計算機還擁有10PB的NVME超高速存儲和640tbps的網絡容量,可以連接所有節點,并允許對神經網絡進行高效的分布式訓練。
Karpathy說:“特斯拉公司還擁有并制造安裝在其汽車內的人工智能芯片。這些芯片是專門為神經網絡設計的,我們希望它能用于全自動駕駛應用。”
特斯拉公司的一大優勢在于其垂直整合的特性。特斯拉公司擁有整個自動駕駛汽車技術堆棧,該公司生產電動汽車和用于自動駕駛功能的硬件。它處于獨特的位置,可以從已銷售的數百萬輛汽車中收集各種遙測和視頻數據。該公司還在其專有數據集、其特殊的內部計算集群上創建和訓練其神經網絡,并通過對其汽車的影子測試來驗證和微調這些神經網絡。當然,該公司還擁有一支由機器學習工程師、研究人員和硬件設計師組成的才華橫溢的團隊,可以將所有部分組合在一起。
Karpathy說,“我們可以在該堆棧的所有層進行協同設計和工程,并且沒有第三方的干涉,可以完全掌握自己的命運,我認為這太不可思議了。”
這種創建數據、調整機器學習模型并將其部署在許多汽車上的垂直整合和重復循環,使特斯拉公司處于實現視覺自動駕駛汽車功能的獨特市場位置。Karpathy在其演講中展示了幾個示例,其中新的神經網絡的性能超過了與激光雷達信息結合使用的傳統機器學習模型。
正如Karpathy所說,如果這個系統繼續改進,特斯拉公司可能會走上淘汰激光雷達的道路,而且現在沒有其他公司能夠復制特斯拉公司的方法。
有待解決的一些問題
但仍然有一些沒有解決的問題,例如,深度學習在目前的狀態下能否克服自動駕駛的所有挑戰?當然,對象檢測以及速度和范圍估計在駕駛中起著重要作用。但是人類視覺還執行許多其他復雜的功能,科學家將其稱為視覺的“暗物質”。這些都是對不同環境的視覺輸入和導航進行有意識和潛意識分析的重要組成部分。
深度學習模型也難以做出因果推斷,當模型面臨他們以前從未見過的新情況時,這可能是一個巨大的障礙。因此,雖然特斯拉公司設法創建了一個非常龐大和多樣化的數據集,但開放的道路也是非常復雜的環境,新的和不可預測的事情隨時可能發生。
人工智能社區在是否需要將因果關系和推理明確集成到深度神經網絡中,或者是否可以通過“直接擬合”克服因果關系障礙的問題上存在分歧,在這種情況下,大型且分布良好的數據集足以達到通用深度學習的水平。特斯拉公司基于視覺的自動駕駛團隊似乎更喜歡后者(盡管他們完全控制技術堆棧,但在未來將會嘗試采用新的神經網絡架構)。而這項技術能否經受時間的考驗,人們將拭目以待。
原文標題:Tesla AI chief explains why self-driving cars don’t need lidar,作者:Ben Dickson
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】