成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大語言模型會成為自動駕駛的靈丹妙藥嗎?也談模塊化方法和端到端方案~

人工智能 智能汽車
今天為大家分享清華&MIT團隊最新的大語言模型綜述!全面概述了大語言模型在自動駕駛中的應用,并深入討論了大模型在其中發揮的作用。深度思考,值得一讀!

寫在前面 & 筆者的個人理解

人工智能(AI)在自動駕駛(AD)研究中起著至關重要的作用,推動其向智能化和高效化發展。目前AD技術的發展主要遵循兩條技術路徑:模塊化和端到端。模塊化將駕駛任務分解為感知、預測、規劃和控制等模塊,并分別進行訓練。由于模塊之間的訓練目標不一致,綜合效果存在偏差。端到端試圖通過利用一個直接從傳感器數據映射到控制信號的單一模型來解決這個問題。這條路徑在一系列功能方面的學習能力有限,難以處理不可預測的長尾事件和復雜的城市交通場景。面對這兩條路徑中遇到的挑戰,許多研究人員認為,具有強大推理能力和廣泛知識理解的大型語言模型(LLM)可能是解決方案,期望LLM為AD系統提供更深入的理解和決策能力。鑒于這兩條路徑都面臨的挑戰,許多研究人員認為,LLM憑借其強大的推理能力和廣泛的知識,可以提供一種解決方案。為了了解LLM是否可以增強AD,本文對LLM在AD系統中的潛在應用進行了深入分析,包括探索其在模塊化和端到端方法中的優化策略,特別關注LLM如何解決當前解決方案中存在的問題和挑戰。此外,我們還討論了一個重要問題:基于LLM的通用人工智能(AGI)能否成為實現高水平AD的關鍵?我們進一步分析了LLM在促進AD技術發展方面可能遇到的潛在局限性和挑戰。這項調查可以為相關領域的跨學科研究人員提供基礎參考,并指導未來的研究方向。

簡介

自動駕駛(AD)已成為現代交通領域的一個關鍵研究領域,其最近的發展在很大程度上依賴于人工智能(AI)。人工智能的發展一直是AD發展的催化劑,即使是最簡單的高級駕駛輔助系統(ADAS)也需要人工智能來實現。因此,可以通過AI設計的視角全面了解AD解決方案的發展。

設計AI的兩種不同方式,即模塊化和端到端解決方案,形成了AD的兩種常見解決方案,如圖1所示。第一種解決方案,即模塊化解決方案,是人工智能系統設計之前的遺留問題。這些解決方案將AD分解為幾個獨立的任務,通常包括感知、預測、計劃和控制。雖然這種模塊化簡化了單個任務的實現,但它往往難以實現系統集成。不同的模型,每個模型都針對獨立的目標,可能會導致系統內不可避免的差距和沖突,從而導致次優性能。因此,通過執行加強一致性可能是一項艱巨的挑戰。

圖片

第二種解決方案,即端到端解決方案,試圖通過模仿人類行為的過程來解決這些問題。端到端解決方案利用大規模神經網絡,直接根據傳感器輸入控制車輛。已經提出了不同的實現方式,包括模仿人類駕駛或基于控制結果的直接訓練。然而,沿著這條路徑的所有這些方法都有一個共同的缺點,即信息通道過長和網絡結構復雜,導致在訓練和引入專家知識時難以收斂。此外,端到端算法訓練中涉及的數據主要與駕駛有關,而人類駕駛員在駕駛過程中利用常識和其他信息。這些挑戰限制了端到端算法的進一步改進。

除了這些具體問題外,這兩種解決方案在現實世界的應用中都面臨著一些挑戰,包括確保魯棒性、驗證性、可解釋性和高效的人機交互。因此,應對這些挑戰已成為AD研究的主要重點,強調了有效解決方案的必要性。

2022年底ChatGPT問世以來,人工智能領域掀起了一場新的革命。由于其龐大的規模、大量的數據和訓練所涉及的技術(例如,從人類反饋中學習),大型語言模型(LLM)已經具備了推理、數據生成和理解人類意圖等能力。這些能力使LLM能夠在各種自然語言處理(NLP)任務中超越以前的模型。LLM在智能交通系統等各個領域的應用正在上升。具體而言,LLM的能力為AD研究中的上述挑戰提供了創新的解決方案。例如,推理能力可以幫助理解和適當地應對看不見的角落情況,提高魯棒性。生成能力可用于測試用例生成。增強對人類意圖的理解有助于解決可解釋性問題,改善人機交互。

最近,LLM開創了AD研究的一個新領域。研究人員越來越相信,LLM可以為傳統AD解決方案提供新的視角。此外,有一種觀點認為,LLM進一步為實現通用人工智能(AGI)鋪平了道路,這讓我們回到了關于實現完全AD的辯論。一些專家認為,大規模、通用、強大的智能是必要的,而另一些專家則認為,規模較小的特定智能體就足以完成AD任務。站在這個十字路口,本文從AD系統實施的角度系統地概述了采用LLM的最新AD進展,重點討論了以下問題:

  • AD研究目前面臨的挑戰是什么?具體來說,這是一組與AD實施中的不同任務相對應的具體挑戰(即正文中的挑戰i至X)。
  • LLM能否為這些挑戰提供卓越的解決方案,以及如何提供?
  • AD的最終解決方案是什么?AD算法優化的目標應該是什么?

Autonomous Driving Solutions

模塊化

模塊化解決方案將AD系統分解為不同的模塊。通常,這些模塊包括感知、預測、計劃和控制。

感知

感知涉及環境信息的收集、有用知識的提取以及理解環境的判斷的形成。感知的準確性和全面性對于自動駕駛汽車(AV)有效地應對復雜的交通場景至關重要。感知任務最初僅限于“如何看?”的問題。這指的是對周圍物體的識別和跟蹤,包括靜態物體(如車道、交通信號燈和其他交通基礎設施)和動態物體(如車輛和道路使用者)。隨著過去二十年來傳感技術的進步和機器學習(ML)的發展,這些基本任務不再構成挑戰。車道檢測或交通信號識別等基本應用現在可以在大多數情況下正確執行,為推廣低級高級駕駛員輔助系統(ADAS)鋪平了道路。

更先進的傳感器和神經網絡結構也為感知算法提供了新的視角,感知算法已經從對象級發展到場景級。鳥瞰圖(BEV)和基于Transformer的方法的出現使識別綜合場景成為可能。BEV將車輛周圍的多模態3D數據投影到2D地圖上,確保數據表示的一致性。Transformers最初是為NLP設計的,由于其強大的注意力機制,已經證明了它們在建模多源異構數據方面的有效性。這使得BEV表示能夠熟練地捕獲全面的空間信息。遵循這一范式的方法,如BEVForme,在各種感知任務中表現出了卓越的性能,成為主要的感知解決方案。然而,BEV在高度信息方面的不足限制了其表示3D體積的效率。占用網絡通過直接學習體素中的3D信息、將3D表面描繪為神經網絡決策邊界以及消除對LiDAR點云的需求來支持BEV。它們融合了幾何和語義來精確地描繪場景,提高了感知效率和準確性。

隨著情景信息的獲取不再具有挑戰性,目前的研究重點已轉向通過可靠和詳細的表示來全面了解環境的最終目標,即“What to see?”的問題。這要求感知系統非特定地識別周圍的物體,識別它們的屬性和相互作用,并徹底理解場景。從歷史上看,AD感知算法經常將時間和3D空間數據合并到2D對象檢測框架中(例如YOLO、CenterNet),合并來自LiDAR、相機的輸入,并利用PointNet等不同的深度學習模型進行信息處理。然而,在不同尺度(如時間、空間、任務相關)上整合特征帶來了挑戰。

盡管取得了長足的進步,但現有的感知解決方案仍然面臨著幾個挑戰。第一:

  • CHALLENGE I: How to improve the performance of perception systems in the real world or uncontrolled environments?

當前基于學習的方法嚴重依賴于訓練數據,當遇到現實世界數據長尾分布中存在的角點情況時,它們的性能會顯著下降。第二:

  • CHALLENGE II: How to form a comprehensive understanding of complex scenarios like humans did?

當前的場景理解方法更像是簡單地整合所有數據和模態,而不是理解場景。最后:

  • CHALLENGE III: How to enhance the efficiency of processing the vast amount of sensor data collected and establish a more unified data annotation method?

這些挑戰凸顯了AD的復雜性以及在該領域進行持續研究和創新的必要性。

預測

預測是AD過程中的一個關鍵組成部分,其目標是根據物體過去的運動軌跡預測物體(主要是行人和車輛)即將到來的運動軌跡。該模塊最初不是AD工作流的一部分。隨著過去二十年AD解決方案的演變,預測作為一個獨立的部分逐漸引起了人們的關注,彌合了感知和規劃之間的差距。從功能上講,它直接利用感知作為輸入,而其輸出則是后續規劃和控制任務的重要參考。從時間的角度來看,預測代表了從過去到現在和未來的過渡,這是端到端工作流不可或缺的過渡。傳統的預測方法主要是基于模型的。這些包括物理模型、意圖模型和交互模型。這種方法在處理軌跡的不確定性方面存在局限性,特別是在較長的時間范圍內。

在過去的十年中,基于學習的方法逐漸主導了預測任務的解決方案。例如,循環神經網絡(RNN)及其衍生網絡架構,如長短期記憶(LSTM)網絡,在基于深度學習的預測范式中得到了廣泛應用。其他使用的網絡架構包括卷積神經網絡(CNN)和圖形注意力轉換器。這些基于學習的方法顯著提高了更廣泛時期內預測的可靠性和準確性,而BEV等感知技術的進步實現了多目標協同預測。這標志著預測建模領域的發展,強調了協作預測策略在實現卓越預測結果方面的重要性。根據目標的不同,最新的預測方法能夠提供持續幾秒甚至十多秒的軌跡準確預測。在大多數情況下,這對于后端AD任務來說是足夠的。

目前對預測任務的研究旨在提高動態環境中的準確性,以提高AD的安全性和效率,這需要關注的不僅僅是軌跡,還有情況。車輛必須了解并適當應對社會動態或不同的環境,這可以歸結為另一個具體的挑戰:

  • CHALLENGE IV: How to realize comprehensive situation-aware predictions in complex scenarios?

應對這一挑戰將是朝著更準確和更先進的預測方法邁出的又一步。

規劃

規劃是指自動駕駛汽車根據給定的交通環境和車輛的情況設置未來駕駛路線或軌跡的過程。根據具體的功能和規劃范圍(空間和時間),規劃通常可分為路線規劃、行為規劃和軌跡規劃(也稱為運動規劃)。具體而言,路線規劃概述了車輛的道路網絡級路徑,通常稱為“導航”。行為規劃在規劃路線上的重要航路點提供決策。軌跡規劃生成了一個精確的時空軌跡,連接車輛要遵循的路點。

盡管有各種目標和限制,但不同的規劃任務可以以類似的方式制定,因此共享類似的方法。例如,原始規劃方法起源于傳統的搜索方法,包括A*、快速探索隨機樹等。這些被稱為基于搜索的規劃方法。基于優化的方法利用優化理論來搜索最優軌跡。與基于搜索的方法相比,這些方法在復雜場景中更省時。

基于學習的方法也出現在規劃中。例如,強化學習(RL)在規劃任務中得到了廣泛的應用,規劃任務通常被表述為馬爾可夫決策過程。模仿學習(IL)為基于學習的計劃提供了一種不同的范式。其他方法將神經網絡與現有的規劃方法相結合,或使用神經網絡直接生成計劃軌跡,為規劃任務提供實時在線解決方案。

目前規劃方法的研究差距主要在于兩個方面。第一:

  • CHALLENGE V: How to improve the performance of planning methods when facing complex kinematic or scenery constraints?

這要求系統更好地整合來自前端模塊的信息,同時處理繼承的不確定性。第二:

  • CHALLENGE VI: How to bind the planning tasks to form a more integrated hybrid planning?

這將有利于規劃過程的穩健性和更好的性能。

控制

傳統模塊化的最后一步是控制,它涉及車輛沿著預設的計劃軌跡行駛(軌跡跟蹤)。這種過程的基本目標是使目標軌跡和真實車輛軌跡之間的誤差最小化。其他控制目標包括提高穩定性或乘坐舒適性。

已經為控制過程開發了各種控制器和方法。基本控制方法,如純追蹤[24],主要考慮了車輛的運動學約束。相比之下,其他方法結合了車輛的動態特性來實現更精確的控制。控制器,如模型預測控制(MPC),擅長管理更復雜的場景。鑒于車輛相對于外部環境的固有穩定性和控制問題的性質,基于學習的方法在控制任務中的使用頻率較低。然而,混合控制器的出現值得注意,例如基于學習的MPC,它融合了傳統控制器和基于學習的控制器。

車輛控制的主要挑戰在于一個問題。

  • CHALLENGE VII: How can controllers adapt to various, comprehensive scenarios?

現實世界的場景包括從車輛達到穩定性閾值的極端操作條件到個性化控制要求。適應各種場景需要控制器具有更好的魯棒性和精確調整的空間。控制模塊還需要與AD解決方案中的前端模塊協調,以實現更好的性能。

端到端

與模塊化解決方案相比,端到端AD采用了不同的路線圖。從狹義上講,端到端AD試圖模仿人類駕駛車輛的方式,其中使用一個大規模神經網絡將原始傳感器輸入直接映射到車輛的軌跡點或控制命令。端到端AD的第一次嘗試,即神經網絡中的自主陸地車輛,可以追溯到20世紀80年代。它試圖將相機和Lidar的輸入直接映射到車輛的轉向控制。

隨著機器學習方法的進步,端到端AD在過去十年中蓬勃發展。端到端AD中應用最廣泛的學習技術是IL。IL是一種監督學習方法,可進一步分為行為克隆和逆最優控制。端到端AD中涉及的另一種學習方法是RL,并且應用了包括策略蒸餾在內的技術來提高算法的性能。此外,數據集的不斷積累、日益完善的測試環境和評估指標進一步加速了端到端AD的實際應用。使用端到端方法訓練的Tesla FSD系統等AD系統已經應用于開放環境。

隨著對端到端解決方案的研究不斷深入,重點正轉向這些解決方案背后的核心思想,而不是其形式。端到端方案的集成方法為傳輸各種類型的信息和數據提供了一個統一的渠道。這最大限度地減少了信息在不同模塊或子任務之間傳輸過程中的丟失和壓縮,這被認為是端到端解決方案的優點之一。應用這一理念,許多模塊子任務的廣義“端到端”應用正在出現,特別是被劃分為多個分層子任務的感知和規劃模塊。例如,“端到端”感知模塊將傳感器的數據作為輸入,同時提供集成和完整的場景感知輸出。這些通用的端到端模塊使子任務的訓練和執行更加順暢和高效。

與此同時,端到端AD系統的形式也在不斷發展。例如,最新的統一端到端自動駕駛(UniAD)解決方案,被稱為“模塊化端到端AD”,集成了AD的三個主要任務和六個次要任務。每個模塊在網絡結構方面保持相對獨立。在訓練過程中,每個模塊在整個系統訓練之前都經過預訓練,以確保訓練目標的一致性。這種方法在閉環仿真驗證中表現出了出色的性能,證明端到端解決方案的本質不一定是用單個網絡完成所有任務。

盡管端到端解決方案正在迅速發展,并解決了模塊化AD系統中的一些現有問題,但還存在一些其他挑戰。與模塊化AD相比,端到端系統在更大范圍內利用神經網絡,幾乎完全依賴于訓練數據,這兩者都增加了訓練過程中的挑戰。例如:

  • CHALLENGE VIII: How to establish datasets, including selecting specific data and generating new cases, with better quality so as to support the training of end-to-end algorithms?
  • CHALLENGE IX: How to improve the training efficiency (e.g., design better reward functions) of end-to- end solutions?
  • CHALLENGE X: how to improve the interpretability of end-to-end solutions?

大語言模型的發展

現代語言處理模型起源于兩種范式:基于規則和統計。基于規則的語言模型依賴于手動定義的語法、語義和語用規則,使用一組手動規則生成自然語言。這種方法的局限性在于需要大量手動設置的規則,這使得在真實的語言語料庫中覆蓋所有場景變得具有挑戰性。另一方面,統計語言模型依賴于大型語料庫中的詞匯統計分布,例如在上下文中使用n個單詞預測文本的n元語法模型。這些模型標志著語言處理中理性主義方法的開始。

隨著深度學習的進步,研究人員開始使用神經網絡模型來學習自然語言的復雜結構和語義信息。RNN成為處理自然語言和其他時間序列問題的經典模型框架。通過引入跨時間步長共享的循環結構和權重參數,RNN可以處理不同長度的自然語言文本序列并捕獲隱藏特征。LSTM網絡是對傳統RNN的改進,引入了存儲單元,有選擇地保留或忘記信息,以有效解決梯度消失或爆炸等問題。在此基礎上進行的一些工程包括門控循環單元(GRU)。2017年,Transformer憑借其強大的上下文處理能力,逐漸開始應用于NLP任務。與之前的統計模型相比,這些基于神經網絡的模型在處理語言中的表示和特征方面具有更好的方法,從而在特定的NLP任務中表現出更好的性能。

隨著網絡結構的進步,一種新的語言模型訓練方法——預訓練,也有助于語言模型的進一步發展。2018年,谷歌推出了BERT(變壓器的雙向編碼器表示),這是一種基于注意力機制的預訓練語言模型。它采用兩階段策略,首先在大規模語料庫上進行無監督預訓練,然后對特定任務進行監督學習微調,以適應下游任務。第一個生成預訓練模型GPT-1也于2018年由OpenAI發布。GPT-1利用基于Transformer架構的網絡模型,特別是僅使用解碼器的結構,通過生成式預訓練和判別式微調,在特定任務上實現了卓越的性能。GPT-2是2019年發布的高級版本,也采用了只有堆疊編碼器的結構。與GPT-1不同,它使用無監督學習模式,僅基于輸入和任務概率模型預測輸出。這些模型可以稱為“預先訓練的語言模型”,它們對零樣本學習和遷移學習具有重要意義,為LLM的發展鋪平了道路。

LLM的參數達到一定規模(例如數十億或數千億),在過去三年中作為一種新興的人工智能技術引起了廣泛關注。它們繼承了預訓練語言模型的結構和訓練范式,并受益于其規模增加所提供的可擴展性和涌現效應。LLM不僅在語言相關任務中實現了顯著的性能提升,而且還展示了上下文學習等能力,可以應用于其他不同的場景。2020年,在GPT-2的單向語言模型訓練之后,引入了GPT-3,但使用了更大的模型和數據集。實驗結果表明,GPT-3在小樣本學習場景中取得了優異的性能。2023年3月,OpenAI發布了GPT-4,同年5月,GPT-4的技術報告發布。與過去三個版本的GPT相比,GPT-4在小樣本學習、邏輯推理、多模式理解、安全性和對更長上下文的支持方面取得了重大進展。

類似的LLM還包括Genimi,它利用PaLM 2等高級語言模型在NLP和信息檢索方面表現出色;Claude強調安全性和可解釋性,在需要安全和對齊的人工智能系統的場景中尤其有價值;LLaMA,一種開源模型,通過提供一個可訪問的平臺來探索LLMs,對研究界產生了重大影響;Command R專注于檢索增強生成,以增強內容創建和業務應用。

大語言模型在自動駕駛中的應用

模塊化方法

感知

在AD感知任務中,LLMs促進了傳統感知任務解決方案的改進,開辟了新的研究方向。目前,LLMs在感知任務中的應用主要集中在以下幾個方面:

首先,LLM可以直接用于傳統的感知任務。盡管該語言很難直接用于獲取或描述周圍環境,但它可以作為模態之間的緩沖區,并與視覺和激光雷達等模態結合,進行簡單的推理。這提高了感知任務的效率,并優化了不同場景下的性能。例如,[48]使用LLM來分析行人的語言線索,從而提高行人檢測的準確性。

此外,由于LLM能夠理解復雜的場景,LLM已被直接用于對復雜場景的全面感知,整合各種感知信息以理解復雜的交通環境和駕駛情況。LLM通過分類、識別和理解交通場景中動態和靜態元素之間的關系,提高了對AD系統內復雜交互的理解。他們還對這些元素在時間和空間上的相互作用進行了推理,為挑戰II提供了解決方案。例如,[52]利用傳統的3D感知管道來增強VLM的感知能力。在GPT-4V(ision)的道路上,[53]展示了VLM在處理非分布場景和在實際駕駛環境中識別意圖方面的潛力。

LLM的綜合能力也揭示了角案例的問題,這是當前感知算法中一個值得關注的問題(挑戰I)。[56]分析了LLM理解AD場景的能力,確定了LLM實現類人表現的關鍵能力,指出LLM能夠通過理解情況來解決AD中的關鍵問題。

最后,LLMs還通過語言情態以各種形式增強現有的感知數據。這些應用程序不僅促進了人與機器之間的透明可解釋性,還促進了LLM進一步進行規劃和控制,為挑戰III提供了一種可能的解決方案。例如,關于對象引用,[59]提出了一種統一的視覺語言模型,該模型可以引用人類指令中描述的對象并在圖片框中生成邊界框。[60]提出了一種基于GPT-4的上下文感知視覺接地框架。該框架可以響應自然語言指令,引用提到的關鍵對象,并提供對人類當前情緒的分析。基于OpenFlamingo VLM框架,使用扎根思維鏈指令訓練了一個視覺語言模型,該模型旨在吸收類人能力作為對話式駕駛助手,以與AD任務保持一致。訓練好的模型能夠提供對場景的理解。

預測

由于LLM的任務能力更強,預測任務以兩種方式發展。一方面,預測通常是使用LLM與感知或規劃相結合來實現的。這將提高系統的整體效率,并為預測部分提供更準確的信息。[67]嵌入自然語言描述和交通場景的光柵化圖像表示,以實現軌跡預測。[68]使用LLM從過去的軌跡中得出運動線索,并將其與傳統方法相結合,以更好地預測未來的軌跡。

另一方面,LLM利用其推理能力進行情景預測,為挑戰IV提供了部分解決方案。[71]提出了一種將高分辨率信息整合到多模態LLM中的方法。語言模式用于對低分辨率視頻進行推理,并為高分辨率視頻幀提供先驗和亮點。該框架還根據預測的風險和情景為即將發生的行為提供了建議。

規劃

LLMs的推理能力和常識使他們能夠為車輛制定各種計劃,并擔任車輛駕駛員。通常,規劃任務包括路線規劃、行為規劃、軌跡規劃和混合規劃。

關于路線規劃,LLM可以使用地圖信息、交通規則和用戶意圖來規劃車輛的最佳路線。可以考慮交通擁堵、道路建設和天氣條件等因素來選擇最方便、最安全的路徑。[73]將LLM應用于周圍環境的口頭描述、導航指令和其他相關信息,以提供城市環境中的元動作級導航序列。[74]使用LLM提取用戶的意圖,并相應地以描述和地圖注釋的形式提供路線規劃。

在行為規劃方面,LLM可以決定車輛在不同情況下的行為,如加速、減速、變道和避開障礙物。這種元動作決策可以使用自然語言來理解和執行,需要綜合考慮車輛動力學、周圍環境和其他車輛的行為。[76]提出了一個持續學習框架,以增強AD中多模態LLMs的行為決策。[77]利用LLMs根據特定情況提供元動作級行為。LLMs能夠學習專業司機的經驗,逐步提高他們的駕駛技能。

關于軌跡規劃,除了定量元動作外,LLM還可以為車輛提供更精確的軌跡,例如包括轉彎、超車和停車在內的軌跡。[80]利用LLM的閉環框架在復雜場景中提供定性運動規劃。副駕駛框架能夠以坐標點的形式為車輛提供詳細的軌跡[81]。

關于混合規劃,LLM的推理能力也使混合規劃(挑戰V)成為可能。這種混合管道整合了不同層次的規劃,甚至部分感知,形成了“端到端”的規劃解決方案。[52]提出了一種包含場景描述、場景分析和層次規劃的思維鏈(CoT),以形成車輛的軌跡計劃。[82]提出了一種“GPT驅動程序”,利用GPT作為AD任務的運動規劃器,通過“提示推理微調”過程實現。[83]在實際駕駛任務中使用了LLM,其中LLM用于生成規劃車輛運動的代碼。下游控制器也被用來控制車輛。

除了在規劃中直接應用LLM外,另一種常見的方法是將LLM與現有的規劃方法相結合。LLM通過推理或增強來提高傳統方法的性能。這可以稱為基于模型的規劃(解決挑戰VI)。[86]提出了一種利用LLM來提高感知、預測和規劃性能的框架。

控制

由于控制任務對快速響應的要求,LLM目前很難直接替換現有的控制器。然而,由于LLM的理解和推理能力,他們可以在更高的層次上參與控制任務,例如與規劃任務相結合,以提高效率和對不同場景的適應性(解決挑戰VII)。[88]將LLM與MPC相結合,在AD場景中精確控制車輛。LLM在此過程中提供高級決策,并使用相應的矩陣對MPC控制器進行微調。該框架也被認為適用于多車輛控制場景。

還多次嘗試將LLM直接應用于AD車輛的控制。它們中的大多數將計劃和控制相結合,根據元動作提供更精確的控制器信息。[81]提出了一種使用ChatGPT作為控制器選擇器的Co-Pilot框架,該框架可以完成所需的任務并調整其輸出以正確滿足人類意圖。

端到端方法

作為一種更系統的解決方案,LLM參與了端到端AD解決方案實施過程中的不同步驟,總結如下。

數據基礎

基于學習的AD算法,特別是端到端解決方案,在很大程度上依賴于海量數據。因此,作為解決方案的一部分,提出了許多用于訓練基于LLM的端到端算法的新數據集。這些數據集大多包含自然語言注釋,因此提供了一個全面的渠道,通過這個渠道,語言可以在訓練和實現過程中應用。這種注釋也可以作為一種提煉的知識,從而提高訓練效率。[92]使用基于Graph VQA的工作流來實現端到端AD,提供了一個包括數據集、任務、基線和指標的整體解決方案。[65]集成視頻幀和文本作為輸入,模型的輸出包括響應和預測控制信號。訓練過程包含兩個階段,預訓練和混合微調,后一階段使用ChatGPT注釋數據。

表1列出了更具代表性的LLM相關數據集。值得注意的是,這些數據集的貢獻不僅限于端到端的解決方案,因為它們為所有AD任務的開發和驗證提供了重要的參考。這些數據集中自然語言的比例增加,從簡單的標簽過渡到自然語言描述或問答格式,也導致了與感知相關的挑戰II和III。例如,[50]提出了一個基于NuScene數據集的數據集,其中包含3D駕駛場景中物體的自然語言注釋。

圖片

除了基于真實場景的數據集外,在LLM生成能力的幫助下,場景生成也成為AD數據集的一個重要方面。這種能力有助于解決數據分布的長尾問題,提高訓練效率。[95]提出了一個框架,即LCTGen,用于基于描述和地圖數據生成動態交通場景進行模擬。LLM用于將場景的自然語言描述轉換為場景的結構化表示。SimCopilot利用LLM將對象交互的自然語言描述轉換為虛擬道路場景的編程代碼,大大簡化了AD系統交互數據的創建。WEDGE數據集直接使用DALLE大模型生成場景圖像,模擬各種天氣條件下的二維道路和交通場景,這是構建AD數據集的一種新嘗試。

作為端到端代理的大語言模型

LLM本身可以充當代理,同時完成所有駕駛任務。Agent Driver利用LLM作為車輛的智能代理。該代理旨在通過函數調用訪問駕駛信息,并充當人類。[110]提出了一種架構,該架構將場景信息編碼為數字向量,并應用預訓練的LLM來理解場景并提供運動水平控制。它還能夠提供其行為的原因,提高解決方案的可解釋性。[111]提出了一種開創性的AD通用世界模型,該模型集成了多模態LLM和擴散技術,使其能夠直接預測控制信號,并根據歷史視覺動作對生成未來幀,從而模擬無限的駕駛體驗。Graph VQA實現了基于VLM的端到端AD流水線。在這種方法中,視覺問題引導推理過程通過不同的階段,在復雜的場景中取得了顯著的性能。

訓練和思考

正如挑戰IX所述,端到端AD解決方案的訓練一直是一個重要的話題。法學碩士主要通過更好的推理和反思提高了這一過程的效率。[113]提出了一種新的端到端AD數據集和基準,其中包括傳感器數據、控制決策和CoT標簽,以指示推理過程。它還提出了一個基線模型DriveCoTAgent,在該數據集上進行訓練,以生成CoT預測和最終決策,在開環和閉環評估中表現出強大的性能,并提高了端到端驅動系統的可解釋性和可控性。DriveGPT4能夠在模擬環境中執行零樣本泛化,顯示出提高訓練效率的潛力。

其他方面

除了直接實現AD任務外,LLM還廣泛應用于支持AD的應用,包括人機交互、安全、道德和公平問題。關于人機交互,[114]提出了一個框架,可以通過評估和迭代優化使用LLM執行AD任務的代碼。[115]提出了一個以人為中心的框架,將LLM整合到AD的規劃中,在復雜的駕駛任務中提供有用的幫助,并通過推理回應不同的查詢。AccidentGPT可以響應駕駛員的查詢,或自動提供具體建議(例如減速)和駕駛安全通知。

大語言模型會成為自動駕駛的靈丹妙藥嗎?

在第4節中,我們系統地展示了LLM在AD中的應用越來越多。這些應用涵蓋了AD的整個領域,許多應用展示了LLMs超越現有AD算法并應對前面討論的挑戰的潛力。根據我們的調查和分析,我們試圖通過基于LLM的AD解決方案的進展,提供對這些現有挑戰已經或預計將如何解決的見解。因此,我們將這些見解分為以下三個層次,并在表2中描述了挑戰。

  • 解決方案洞察A:LLM在解決相應挑戰方面表現出了顯著的能力,可以期待基于LLM的全面解決方案。
  • 解決方案洞察B:LLM已經證明有能力解決相應的挑戰,但鑒于LLM目前的缺點,挑戰可能無法完全解決。
  • 解決方案洞察C:LLM可以提高相關任務的性能,但可能無法解決挑戰中的關鍵問題。

圖片

如表2所示,我們可以得出結論,LLM在為現有AD算法中的當前挑戰提供有效解決方案方面表現出了巨大的潛力。具體而言,我們認為LLMs在AD任務中的表現主要源于以下幾個方面。

  • 常識。常識是每個成年人都應該具備的實際判斷或基本事實知識的基本水平。它是人類基于積累的經驗和知識而提煉出來的理解。常識在日常生活中起著至關重要的作用。人類通過模仿快速獲得特定技能的能力與此密切相關。例如,一個成年人需要大約20個小時的訓練才能通過駕駛考試。這是因為訓練主要側重于駕駛的操作技能。許多其他與駕駛相關的技能,如識別交通信號或標志,都是直觀理解的,不需要大量學習。然而,對于AD模型,每個元素都必須單獨設計和訓練。法學碩士從廣泛的語料庫中積累了一種“常識”。這可以被視為高維空間中特定語義指標的表示。例如,與“紅燈”和“停車”概念相對應的表示向量可能在表示AD行為的維度上具有緊密投影。這使得LLM能夠以最少的預先指令執行復雜的AD任務,并使很少的射擊學習成為可能。
  • 推理能力。與以前的語言模型相比,LLM能夠理解文本輸入中的因果關系和邏輯關系。因此,一些研究人員認為LLMs能夠像人類一樣進行推理。這種推理能力增強了LLM對交通場景的理解,這對于需要預測未來情況并做出相應決策的AD任務至關重要。此外,LLM的推理能力為AD中遇到的“長尾”問題提供了一種潛在的解決方案。即使在極端情況下,這些模型也可以根據其推理做出準確的決策。
  • 溝通能力。LLM的另一個重要能力是它們可以與人類流利地交流。重新審視人類的駕駛行為,我們可以注意到語言主要用于導航和路線描述。LLM可以理解人類的意圖,并通過推理提供適當的輸出,因此可以直接參與駕駛過程。除了駕駛任務本身,與人類溝通的能力也有利于LLM在訓練和調整過程中。人類和LLM之間的相互理解和互動在一定程度上解決了神經網絡作為黑盒模型的問題。

我們注意到,LLM的這些優勢部分解決了數據驅動學習算法遺留下來的幾個長期缺陷。這些算法在AD實現中得到了廣泛的應用,給AD任務帶來了特定的挑戰。因此,LLM能夠為他們提供解決方案。此外,我們可以得出結論,這意味著從以數據為中心的模型向利用數據和知識的混合模型的轉變。這種雙重驅動的方法結合了兩種范式的優點。從執行駕駛任務的角度來看,這種轉變也使實施過程更類似于人類決策,這可能是AD的最終目標。我們預計未來數據和知識將在相當長的一段時間內共存,可能以LLM的形式體現出來,知識在AD解決方案中的作用逐漸凸顯。未來的研究應側重于如何更好地整合數據驅動和基于知識的方法,以提高AD解決方案的訓練和實施效率。

存在的限制

盡管取得了各種進步,但我們必須指出,LLM在AD中的進一步應用面臨著許多局限性和挑戰。作為一種安全關鍵場景,這些局限性需要在未來的研究中得到更多的關注。其中一些局限性主要是由于當前LLM性能的缺點,這些缺點繼承了它們的模型結構、訓練方法或實現。

  • LLMs的“幻覺”問題。“幻覺”是指LLM在沒有充分依據的情況下給出的結果與事實或用戶要求不符的情況。這種現象在LLM中很常見,作為一個具有高安全要求的系統,在AD過程中對這些問題的容忍度非常低。因此,必須采取措施防止幻覺問題。現有研究表明,LLM的幻覺主要來自數據、訓練和推理過程。為了解決這些原因,可以使用檢索增強生成(RAG)、改進預訓練和調優過程以及設計CoT等方法來改進。此外,為了防止可能的錯誤結果影響車輛的實際運行,還可以設計保險機制,并使用其他規則來判斷LLM輸出的合理性。
  • 模型響應時間。實時性能差是目前LLM的缺點之一。無論模型是在線還是離線,LLM的巨大數量都使其響應延遲難以忽視。這在AD的背景下可能會產生嚴重的后果,特別是對響應時間高度敏感的任務(如控制)。一方面可以通過提高計算能力來解決這個問題,另一方面,在實時性能得到解決之前,LLM可能更適合具有更高延遲容限的任務。
  • 對物理世界缺乏了解。雖然LLM在處理和生成文本方面很強大,但在理解物理世界方面卻有一個明顯的缺點。他們缺乏與環境互動并從中學習的能力,這意味著他們對重力、動量或物體紋理等物理概念沒有直接的理解。他們無法像人類甚至一些機器人那樣體驗世界。他們的知識完全基于他們接受訓練的文本,他們很難根據現實世界的經驗或感官輸入來更新這些知識。這限制了他們準確建模或預測物理現象的能力,并可能導致在物理世界中產生無意義或不正確的輸出。當將這些模型應用于需要深入了解物理世界(如駕駛車輛)的任務時,這是一個重大限制。進一步提高LLM有效捕獲和理解現實世界信息的能力非常重要。

其他挑戰來自LLM和AD任務的結合。

  • 隱私和安全考慮。自動駕駛汽車使用的數據通常非常敏感,包括特定位置、駕駛習慣等細節。這些數據對于微調AD任務的LLM至關重要。這引發了嚴重的數據隱私和安全問題。例如,如果法學碩士在無意中包含個人信息的公開數據上接受培訓,它可能會學習和復制這些信息,從而導致隱私泄露。確保這些數據得到安全處理,并且模型不會無意中泄露這些信息,這是一個關鍵的挑戰。
  • 語言造成的偏見。我們注意到,現在幾乎所有的法學碩士都使用英語作為對話語言,涉及其他語言的實驗和研究很少。由于語言具有更強的區域性,我們認為這可能會成為一種潛在的偏見,即使用不同語言時模型的性能無法保持一致。這種偏見可能比基于視覺和其他模式的算法更明顯,也可能帶來潛在的倫理和道德風險。此外,訓練數據隱私和數據集安全等問題也值得關注。我們認為可以進行進一步的研究來解決這些問題。

在LLM應用于現實世界的AD應用之前,需要解決這些挑戰,但我們相信,LLM和相關AD解決方案的快速發展將不斷為這些挑戰提供新的見解。

Perspectives

自AD概念提出以來,研究人員一直在探索實現這一目標的不同途徑。針對不同的技術路徑,已經進行了許多討論。因此,我們想回顧一下其中的一些討論,并就AD的最終解決方案提出一些看法。

端到端 or 模塊法自動機愛誰

模塊化和端到端方法一直是AD技術討論的前沿。本文的引言部分總結了這兩種路徑的一些優缺點。然而,LLMs為這場討論帶來了新的亮點。一方面,LLM的出現模糊了模塊化和端到端方法之間的界限。LLM的多功能性使其能夠同時完成多項任務,從而打破了傳統的模塊化界限。例如,LLM執行的許多規劃任務直接基于原始傳感器輸入。從功能上講,這種實現涵蓋了從感知到規劃的所有方面,在形式上,它們可以被視為接近端到端的實現。我們認為,隨著模型泛化能力的增強,這種模糊可能會成為一種趨勢。

另一方面,研究人員已經開始更加關注端到端方法的核心,而不是形式本身。端到端解決方案的優點可以概括為提供統一的信道,減少不同模塊之間的信息傳輸損失。換言之,只要確保信息的完整傳遞,形式上的差異就不再重要。這也是UniAD“模塊化端到端”的起源。這種端到端方法形式的轉變也可能為端到端算法的測試和驗證等現有問題提供解決方案。

因此,我們可以相信,端到端和模塊化在形式上的區別將繼續減弱,但考慮到系統的安全性和魯棒性,一些成熟的模塊(如ADAS)將在實際應用中長期保留。

通用人工智能與駕駛智能

最后,我們得出了AD領域長期存在的一個爭論:高度先進的AGI對于實現最佳AD是否不可或缺?一方面,正如我們之前提到的,LLMs所擁有的常識和其他知識在執行AD任務中發揮了重要作用。雖然我們還不能確定LLM是否是AGI的重要途徑點,但它們在一定程度上滿足了人們對AGI的期望。應用自然語言的能力使他們能夠有效地從龐大的人類語言語料庫中學習,并以易于理解的方式與人類互動。另一方面,人類的駕駛技能相對獨立。例如,一位經驗豐富的卡車司機可能沒有受過高等教育,而AD研究人員可能沒有駕照。這意味著通用人工智能不一定是最佳AD的唯一解決方案。

從理想主義的角度來看,構建一個駕駛智能實體似乎更容易。我們距離AGI還有很長的路要走,而隨著大模型、世界模型等的成熟,駕駛智能更容易實現。如果我們能夠開發專門用于駕駛智能的算法,我們可能能夠解決更多與大型模型相關的問題。然而,實現這一目標也帶來了許多挑戰。首先,最優AD的定義仍然有些模糊。什么樣的駕駛策略可以被稱為最優,仍然是一個值得進一步研究和討論的話題。此外,理想化最優駕駛模型本身的實施也存在一些挑戰。例如,由于人類認知的局限性,精確定義最佳駕駛所需的知識是具有挑戰性的。圖2從知識的角度說明了這一點。最佳駕駛所需的一些知識可能還沒有一種方法可以總結,例如經驗豐富的駕駛員在關鍵情況下做出的直觀判斷。

另一方面,我們相信LLMs在不久的將來仍將是AGI類藥物的最佳形式之一。因此,LLM驅動的AD仍將是一個值得注意的研究前沿。為了進一步優化LLM在AD任務中的應用,我們認為可以在以下領域進行研究。首先,優化LLM本身的結構,設計更有效的培訓方法。與現有模型相比,這些改進可以增強模型在推理、常識等方面的能力。此外,設計更好的結構可以幫助減少微調和本地部署期間的計算功耗。這有助于在智能車輛中部署LLM,改善響應時間長的問題,并降低應用LLM的成本。此外,在AD和LLM的集成中可以進行各種優化。例如,在預訓練階段引入更多與AD相關的數據。現有智能車輛的軟件和硬件結構也可以進行優化,以支持LLM的系統級集成應用。

總的來說,這個問題可能在很大程度上取決于人工智能技術的后續發展:通用人工智能的發展能否實現快速突破,或者駕駛智能模型能否更快地實現。我們認為,在相當長的一段時間內,這兩種方法都有其優勢,將共存或相互備份,就像模塊化和端到端解決方案一樣。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2020-12-31 05:47:40

網格化網格通信

2011-09-11 03:06:28

Windows 8Jupiterbuild

2022-11-15 11:01:48

物聯網氣候變化

2019-09-06 18:29:14

網絡優化Akamai

2018-11-19 15:44:48

2025-04-07 03:00:00

自動駕駛

2023-10-30 09:47:00

自動駕駛技術

2021-08-19 11:33:16

自動駕駛人工智能AI

2020-11-04 10:23:21

云計算數字化轉型IT基礎設施

2024-01-10 17:34:42

2019-10-09 08:38:25

區塊鏈數字貨幣比特幣

2024-03-19 13:12:36

自動駕駛模型

2022-11-02 16:17:49

6G

2020-07-14 09:25:49

COVID?19隱私數據泄露

2012-06-25 10:20:22

敏捷開發

2012-09-28 09:11:43

2020-11-17 05:44:52

5G運營商網絡

2023-06-13 12:12:44

2024-01-04 09:35:41

自動駕駛端到端

2024-08-13 12:39:23

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线看h| 先锋av资源网 | 日韩一区二区三区在线 | www.国产.com | 久久这里只有精品首页 | 在线观看国产视频 | 成人在线播放 | 日本高清不卡视频 | 在线观看黄色 | 玖玖国产精品视频 | 久久久久久一区 | 国产精品一区在线观看你懂的 | 久久天堂| 视频一二区 | 在线观看av中文字幕 | 国产在线第一页 | 玖玖视频网 | 欧美一区二区视频 | 国产精品亚洲一区二区三区在线观看 | 欧美精品一区二区免费 | 天天操精品视频 | 黄色在线观看国产 | 亚洲高清视频在线 | 搞黄网站在线观看 | 黄a在线播放 | av喷水| 国产精品色婷婷久久58 | 亚洲高清视频在线观看 | 一本一道久久a久久精品综合蜜臀 | 免费在线观看黄视频 | 精品视频一区二区三区在线观看 | 一级毛片中国 | 欧美极品视频在线观看 | 国产成人精品一区二区三区在线 | 亚洲精品国产a久久久久久 午夜影院网站 | 亚洲精品视频播放 | 国产一区二区三区精品久久久 | 日本三级全黄三级三级三级口周 | 酒色成人网 | 美女黄网站视频免费 | 九一在线|