成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

主流自動駕駛方案的庖丁解牛,商用車和乘用車的本質需求到底有什么異同?

人工智能 智能汽車
本文對商用車、乘用車主流自動駕駛技術分傳感器配置、系統(tǒng)架構、感知、預測、規(guī)劃控制等模塊進行了分析總結。

本文經(jīng)自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。

寫在前面&筆者的個人總結

本文對商用車、乘用車主流自動駕駛技術分傳感器配置、系統(tǒng)架構、感知、預測、規(guī)劃控制等模塊進行了分析總結。分析了商用車、乘用車對于自動駕駛技術需求的異同。并結合代表性科技公司如特斯拉、百度、毫末智行、小鵬等對當前自動駕駛系統(tǒng)主要技術進行了分析總結。

典型乘用車商用車自動駕駛技術方案分析:贏徹,毫末智行,特斯拉,百度Apollo。

當前世界范圍內自動駕駛公司雖然歷經(jīng)退市、裁員風波,受到技術完備性、安全性、盈利模式等多方面質疑,但仍是各車企、科技公司角逐的熱門方向。不過,當前全社會及資本對自動駕駛的關注也已從前兩年的嘗鮮、新奇、未來屬性轉變?yōu)榱藢ψ詣玉{駛商業(yè)模式何時能大規(guī)模落地,其盈利模式應該怎么搭建、怎么推廣的思考。而自動駕駛落地、盈利模式又與承載自動駕駛方案的車倆類型息息相關,不同類型自動駕駛車型其落地、營運模式差別很大。

1.商用車、乘用車區(qū)別

按車倆用途分,當前自動駕駛公司可分乘用車自動駕駛和商用車自動駕駛兩大類。乘用車自動駕駛以robotaxi和前裝量產(chǎn)為主要目標,客戶群體較明確,自動駕駛方案通用性更強。乘用車自動駕駛賽道科技公司較多,目前處于第一梯隊的有華為、小鵬、百度Apollo、AutoX、文遠知行、滴滴、小馬智行、Momenta、毫末智行等,乘用車主機廠自研自動駕駛的有一汽、東風、廣汽、極氪等。乘用車自動駕駛方案目前基本確定以BEV+Transformer,重感知、輕地圖方案為主,部分特殊場景如高速遠距離感知考慮目標級后融合方案作為BEV遠距感知缺陷的補充。商用車由于其營運屬性復雜,目標客戶不固定,其中既有物流運輸公司,也有個人車主,且商用車車型種類非常之多,工況差別也較大,因此商用車自動駕駛方案更偏定制。商用車自動駕駛賽道的有智加、摯途、贏徹、圖森未來、千掛科技、三一海星智駕、陜汽、德創(chuàng)未來等。千掛科技、摯途能查到公開資料較少,摯途內部技術開發(fā)人員稱也有預研BEV+多任務學習方案,但目前還沒量產(chǎn)上車。智加據(jù)CICV報告及其他演講資料,推測其自動駕駛方案既有BEV方案,也有傳統(tǒng)后融合方案。圖森未來當前主要布局高速物流,方案以BEV為主,其他商用車賽道自動駕駛公司技術方案均以第一代多傳感器目標級后融合方案為主,整體上技術棧落后乘用車近一代。

2.商用車、乘用車自動駕駛方案分析目標選擇

為簡要介紹當前自動駕駛技術方案構成與趨勢,本文精選了三個代表性的自動駕駛公司介紹其技術方案及其商用化布局,其中乘用車自動駕駛方案選擇了極具代表性的特斯拉和毫末智行,特斯拉技術方案資料完善,是典型的第二代BEV+Transformer為主的自動駕駛方案。毫末智行技術預研超前,屬于最早一批在量產(chǎn)自動駕駛方案中引入基于大模型的通用自動駕駛控制器DriveGPT、部分端到端技術的科技公司(上海人工智能實驗室在端到端、部分端到端自動駕駛技術研究方面較為超強,感興趣讀者可以UniAD為線索進行查閱)。

商用車自動駕駛方案本文選擇了贏徹,贏徹具體資料參考其于2022年9月發(fā)布的《自動駕駛卡車量產(chǎn)白皮書》,但該材料具體方案欠缺,大部分方案只是常識性介紹,可參考性不大,但贏徹材料勝在完整性較高,所以本文以贏徹為例簡要介紹下商用車自動駕駛系統(tǒng)方案。贏徹重卡自動駕駛滿配采用7V3L5R(V代表相機,L代表激光雷達,R代表毫米波,7V3L5R代表車輛配備了7個相機,3個激光雷達,5個毫米波雷達),但這種方案目前缺少掛車角度測量傳感器,基本不能進行倒車控制相關的應用開發(fā),因此不適合實際大多數(shù)園區(qū)落地場景,因為園區(qū)實際落地場景基本上都包含倒車場景(進出倉庫、裝卸貨廠房等)。此外,受商用車車型、尺寸限制,贏徹方案相機重疊區(qū)域較小,至少在視覺上難以實現(xiàn)BEV感知框架。

3.商用車、乘用車自動駕駛方案分析

本文將分控制器、傳感器配置,系統(tǒng)架構,感知、定位模塊,規(guī)控模塊四個部分進行介紹,同時也會介紹一些當前較為前沿且實車效果較好的學術方案,如UniAD。

3.1 傳感器配置

圖1 贏徹自動駕駛重卡采用3激光雷達,7攝像頭,5毫米波雷達(7V3L5R)傳感器配置

贏徹傳感器采用7V3L5R配置(圖1),較適合干線物流智能駕駛輔助,贏徹也在推廣其自動駕駛方案時側重其在高速、干線上的表現(xiàn),其線下經(jīng)常舉辦干線智駕體驗活動。但如上文所說贏徹這套傳感器方案不適合園區(qū)L4級自動駕駛落地,也不適合BEV感知框架,更像是傳統(tǒng)基于目標級后融合的傳感器配置方案,根據(jù)實際商用車特點,若要比較符合BEV框架,其大概要用到11V的方案。而若要適應商用車大多數(shù)園區(qū)落地場景,最小傳感器配置應為3V4L4R(采用后融合方案)或11V2L4R(采用BEV方案),這兩個方案里均考慮了對主掛夾角的測量(使用1激光雷達)。贏徹當前自動駕駛方案硬件成本初步估計在5-7萬之間。乘用車由于車型尺寸較固定,且相對較小,其傳感器配置相對較統(tǒng)一,業(yè)界周知的特斯拉是采用8V純視覺的方案(圖2)。根據(jù)毫末智行2023年10月第九屆毫末AI Day資料,毫末目前包括跨層記憶泊車、高速/城市NOH、全場景避障、全場景輔助功能的最高配的自動駕駛方案采用11V1L1R12S(11相機,1激光雷達可選,1個毫米波,12個超聲波)的傳感器配置(圖3)。據(jù)毫末方面稱該套方案包括控制器總成本可控制在1萬元以內,這相比商用車,或者說后融合方案相比BEV方案即第一代自動駕駛方案相較于第二代自動駕駛方案成本具有巨大優(yōu)勢,這也是為什么廣大乘用車車企都不惜重金研發(fā)第二代自動駕駛方案的原因。

其他感知方案,如小鵬G6傳感器方案為11V2L5R12S,問界M5 EV智駕版采用11V1L3R12S方案??傮w上,自動駕駛傳感器均以相機為主,一般7V-11V,純視覺方案較少,以相機+毫米波(1-5R)+激光雷達(1-3L)多傳感器融合為主其中基于BEV+Transformer技術框架的自動駕駛方案可減少激光雷達到1顆或完全不需要激光雷達,在成本上具有較大優(yōu)勢。

圖2 特斯拉純視覺(9V)傳感器方案

圖3 毫末智行高配自動駕駛傳感器方案及功能

3.2 控制器方案

圖4 左:贏徹控制器效果圖;中:特斯拉HW4.0控制器實物圖;右:毫末智行8000元級控制器效果圖

圖4為贏徹、特斯拉、毫末智行三家當前自動駕駛控制器半實物效果圖(特斯拉為實物圖)。特斯拉HW4.0控制器包含20個CPU核心3個NPU,信息娛樂模塊APU和GPU集成在了一塊PCB板上。其控制器提供兩塊FSD芯片,其中一塊可以作為備份算力。信息娛樂和智能駕駛分別部署在兩個處理器上,實現(xiàn)了功能隔離和安全保障。從特斯拉控制器CPU配置可以看出當前特斯拉自動駕駛系統(tǒng)對CPU的算力需求仍比較大。根據(jù)筆者實際開發(fā)經(jīng)驗,即使intel 8700 CPU,操作系統(tǒng)使用ubuntu,在處理4路激光雷達,4路以上相機,3路以上毫米波,再加上當前較多依賴CPU算力的SLAM算法,其CPU占用便會達到90%以上,系統(tǒng)也會卡頓,因此目前CPU算力也是自動駕駛系統(tǒng)必須關注的性能參數(shù)之一,當前Nvidia的Orin 254TOPS算力SOC自帶12個A78核,其中11核可用,CPU算力228K DMIPS,目前基本滿足7V4L3R傳感器配置下的功能開發(fā)。

毫末智行毫末控制器基于高通Snapdragon Ride平臺,采用SA8540P SoC+SA9000的組合,其中SOC芯片8540包括CPU+GPU,深度學習異構芯片9000??刂破髦С纸尤?路千兆以太網(wǎng),12路800萬像素攝像頭,5路毫米波雷達,3路激光雷達,單片功耗75w,單板算力360Tops,4板聯(lián)合支持升級到1440TOPS. 安全冗余芯片為英飛凌TC397,可以做 L1/L2級別的降級控制,也可以滿足當前L3以及后續(xù)L4/L5等全場景自動駕駛功能的實現(xiàn)。

圖5 贏徹自動駕駛控制器架構

綜合各家量產(chǎn)自動駕駛控制器硬件配置、軟件架構,以贏徹控制架構(圖5)為例,可得出當前量產(chǎn)自動駕駛控制器一般具備以下特征:

量產(chǎn)自動駕駛控制一般包括通用計算域(CPU),模型加速域(NPU,GPU等支持深度學習模型加速的運算處理單元),安區(qū)冗余控制域,及各模塊間的通信模塊(一般為交換機芯片)。如圖6為天準科技(TZTEK)一款面向L2+/L3的自動駕駛域控制器,其通用計算域采用國產(chǎn)E3+X9U處理器,模型加速域采用地平線J5 SOC,J5、E3、X9U各模塊間通過一顆RTL9068 和一顆 RTL9072 交換機進行連接,該控制器同樣支持安區(qū)冗余控制功能。

圖6 天準L2+/L3全國產(chǎn)自動駕駛控制器(右上角為連接拓撲圖)

3.3 系統(tǒng)架構

當前自動駕駛系統(tǒng)由于大算力、高吞吐量、多平臺適應需求增強,逐步在借鑒云計算領域較為成熟的框架或技術,如硬件虛擬化、容器化,但這些技術一般為基礎支撐技術,所以在各大科技公司的自動駕駛系統(tǒng)一般不會著重介紹,但包括華為、百度在內的大批公司都已經(jīng)在使用相關技術以提升自動駕駛系統(tǒng)多平臺適應能力,實現(xiàn)算力與硬件分離,整車軟件系統(tǒng)服務化,提高系統(tǒng)功能或服務動態(tài)部署能力。

贏徹科技的自動駕駛系統(tǒng)架構較為典型(圖7),其自動駕駛系統(tǒng)采用硬件層、系統(tǒng)軟件層、應用軟件層三層架構。硬件層即包括物理層的控制器、傳感器實體、車端執(zhí)行器等部分。系統(tǒng)軟件層則提供中間件支持,不同算力平臺的硬件虛擬化,不同理想傳感器抽象及車輛抽象,并且提供包括進程監(jiān)控、數(shù)據(jù)記錄等在內的安全管理服務。應用層則負責實現(xiàn)感知、定位、規(guī)劃、控制等上層功能。

贏徹科技自動駕駛系統(tǒng)采用第二代自動駕駛方案,傳感器采用7V3L5R配置,感知系統(tǒng)采用基于BEV框架的多任務感知模型,地圖與定位系統(tǒng)采用慣導等硬件融合定位和基于算法的多特征融合定位方法,具有重感知輕地圖的特征。決策控制也引入了結合神經(jīng)網(wǎng)絡和模型預測控制的方法。

圖7 贏徹科技自動駕駛系統(tǒng)架構

總體上贏徹自動駕駛系統(tǒng)架構雖然已較為完善,但仍沒有解決不同業(yè)務系統(tǒng)環(huán)境依賴和干擾的問題。理想的自動駕駛系統(tǒng)架構應如圖8所示,架構采用分布式云計算框架,基于硬件虛擬化和傳感器抽象,實現(xiàn)功能開發(fā)和底層軟硬件分離、算力和硬件分離。為實現(xiàn)自動駕駛功能不同平臺快速移植、適配、部署及自動化刷寫、部署,自動駕駛各業(yè)務模塊采用基于容器化的開發(fā)方法,以實現(xiàn)批量部署、自動化運維、各業(yè)務系統(tǒng)服務更新、OTA。

圖8 理想自動駕駛量產(chǎn)框架

自動駕駛底層系統(tǒng)框架其實本質解決的問題類似,無非實現(xiàn)軟硬件分離,算力硬件分離,以及解決各業(yè)務系統(tǒng)環(huán)境依賴和干擾的問題,因此其系統(tǒng)框架是具有共通性的,但自動駕駛應用層算法的系統(tǒng)架構則各家方案里區(qū)別較大,有傳統(tǒng)的目標級后融合框架,也有當前使用最為廣泛的多任務學習BEV框架,也有較為前沿的端到端或部分端到端自動駕駛框架。

目標級后融合框架最為經(jīng)典,實現(xiàn)也較為容易,各模塊間耦合較松,感知模塊融合相機、激光雷達、毫米波雷達檢測或聚類算法,輸出目標動靜態(tài)類別、目標物類型、位置、速度等信息,送入預測模塊對動態(tài)目標的軌跡、意圖進行預測,決策規(guī)劃模塊接收預測結果、感知結果、定位、高精度地圖信息,根據(jù)目標信息和局部環(huán)境信息輸出位置、速度規(guī)劃,控制模塊根據(jù)輸入的軌跡速度,控制線控底盤執(zhí)行器實現(xiàn)軌跡、速度跟蹤,最終達成任務關于位置和姿態(tài)的要求,目前后融合框架由于成本較高、性能一般,只有極少數(shù)公司或有特殊場景需求的軍方單位在使用,如慧拓、千掛、陜汽、小米等。

特斯拉作為第二代多任務BEV學習的自動駕駛框架變革的發(fā)起者(2021年),其技術框架較為典型,當下仍具有較大參考價值(圖9)。2021年特斯拉自動駕駛以多任務感知模型為基礎,后接基于動態(tài)交互樹的無碰撞軌跡生成算法,再基于規(guī)則和優(yōu)化的方法從舒適性、人類偏好角度出發(fā)對軌跡進行優(yōu)選,再通過控制器進行軌跡跟蹤。該框架的主要貢獻是實現(xiàn)了基于共享backbone進行目標檢測、車道線預測等多任務感知模型的實車。

圖9 特斯拉2021公布的基于共享backbone多任務感知的自動駕駛技術框架

特斯拉在2022-2023又進一步公布了其第二代基于BEV的自動駕駛技術框架(圖10),該框架取消了傳統(tǒng)自動駕駛運動預測相關模塊,而以Occupancy預測即一般障礙物占用預測(體素占用預測)模塊取代。該技術為后續(xù)各科技公司、研究機構最先進的自動駕駛框架都提供了參考,如2023年CVPR Best Paper中也將occupancy作為部分端到端自動駕駛框架規(guī)控模塊的輸入特征之一,并在數(shù)據(jù)集上取得了SOTA的成績,實車也取得了不錯的效果。

圖10 特斯拉2022/2023采用Occupancy預測模型的自動駕駛系統(tǒng)技術框架

而隨著大模型技術在行業(yè)內的應用加深,也有如毫末智行、百度、上海人工智能實驗室等先行者對基于大模型的通用自動駕駛框架、端到端或部分端到端自動駕駛框架技術進行了探索,圖11為毫末智行DriveGPT的技術框架,其先將不同視角的相機圖像通過基于share backbone提取特征,再通過transformer模型生成BEV視角下的時空融合BEV特征(4D Encoder),后續(xù)Decoder通過語義地圖重建、3D目標檢測、運動預測等基于transformer的多任務感知頭輸出環(huán)境感知結果,系統(tǒng)再結合自動駕駛任務目標、車輛CAN反饋的車輛狀態(tài)信息輸入基于提示詞和具有背景知識的大語言模型LLM和駕駛策略生成模型生成車輛的控制序列,最后通過大量的人類駕駛數(shù)據(jù)訓練DriveGPT模型實現(xiàn)模型性能的提高。最終實現(xiàn)效果是基于DriveGPT不僅可以生成車輛的控制序列,也可以同步以自然語言的形式輸出系統(tǒng)是基于哪些交通元素或事件生成的當前控制序列,該思路在UniAD工作中也有所體現(xiàn)。

圖11 毫末智行通用自動駕駛控制系統(tǒng)框架-DriveGPT

3.4 感知、建圖與定位

當前自動駕駛方案感知部分共同點很多,一般都是share backbone后接多任務感知頭,share backbone網(wǎng)絡以RegNet/ResNet+FPN類網(wǎng)絡居多,F(xiàn)PN主要是為了輸出不同尺度特征圖,增強后續(xù)模型對于尺度不同目標的適應能力。贏徹多任務感知框架信息有限只有基本框架(圖12),特斯拉感知框架則展示了其多任務感知模型的主要技術。

圖12 贏徹多任務感知框架

圖13 特斯拉HydraNets多任務感知模型架構

特斯拉多任務感知模型-HydraNets(圖13)的share backbone使用了RegNet,RegNet是一種新型的神經(jīng)網(wǎng)絡,由何愷明團隊提出,RegNet相對于ResNet的優(yōu)勢在于其設計更加簡單易懂,同時可以應對高計算量的情況。RegNet在性能上表現(xiàn)突出,比如在ImageNet數(shù)據(jù)集上,RegNet在所有復雜度指標下,都有了較大的改進。在類似的條件下,性能優(yōu)于EfficientNet,在GPU上的速度還提高了5倍。

特斯拉多任務感知模型的Neck網(wǎng)絡采用了BiFPN(Bidirectional Feature Pyramid Network)網(wǎng)絡,BiFPN是一種特征金字塔網(wǎng)絡,可以實現(xiàn)簡單而快速的多尺度特征融合。BiFPN結合了EfficientNet的模型縮放技術,可以用于檢測器的backbone等網(wǎng)絡。

Decoder Trunk接受來自Neck網(wǎng)絡輸出的不同尺度特征后,根據(jù)不同的任務,有不同的任務Head。Decoder通常包含upsampling部分和通常使用基于卷積層的模型如ResNet/RegNet的Trunk部分,當然當前即2023年多任務感知模型的decoder部分均已采用基于Transformer的網(wǎng)絡模型。decoder之后cls、reg和attr是多任務head。cls head負責圖像目標檢測、分類。reg head負責預測圖像中物體的位置。attr head負責檢測和分類物體的屬性,例如顏色、形狀和大小。HydraNets中不同任務heads可以單獨微調,具有較高靈活性。

2022年末時,特斯拉在HydraNets基礎上增加了一般障礙物預測模型即Occupancy Network(圖14),模型輸入為多視角的相機圖像序列,同樣經(jīng)過share backbone網(wǎng)絡,模型輸出時空間體素的占用概率即Occupancy Volume,體素占用趨勢預測即Occupancy Flow,該方法無需識別障礙物,可以有效應對一般障礙物、異性障礙物情況,實際測試效果較好,目前國內各車企也均已跟進。

圖14 特斯拉Occupancy Network模型

圖15 小鵬汽車的XNet感知框架

同樣國內具有代表性的自動駕駛技術汽車公司-小鵬汽車的感知架構XNet(圖14),也采用了類似特斯拉的架構,區(qū)別是,

(1)小鵬XNet針對動靜態(tài)目標采用了兩種模型進行多種類目標的識別,沒有像不同類別采用多個任務head。此外,小鵬多任務感知模型輸入為圖像,意味著XNet之外還有激光雷達、毫米波信息的融合,以增加尺寸、速度估計的準確度,所以小鵬技術架構是視覺BEV+激光雷達、毫米波雷達多傳感器融合的技術框架。當然還存在另一種可能性,即BEV框架下處理的路徑長度一般在100m,對于150m以上的感知需求需要通過其他傳感器進行特殊處理(如與BEV感知結果進行目標級后融合),如遠距激光雷達、毫米波雷達、長焦相機等。

(2)XNet1.0大概率還沒有增加Occupancy預測模型,使用Occupancy模型意味著后續(xù)規(guī)控的技術框架也會有較大的變動。因為Occupancy的輸出結果(圖16)與獲取目標種類、速度等信息的感知方法輸出結果相差較大,其更利于無碰撞軌跡的生成,而不利于傳統(tǒng)規(guī)控方法。

圖16 Occupancy模型輸出體素占用結果

國內目前毫末智行對于新技術的跟進速度較快,但其自動駕駛方案量產(chǎn)進度一直表現(xiàn)不佳。毫末智行感知方案相較于XNet更接近特斯拉總體感知方案,特斯拉當前推測其FSD已是完全基于無高精地圖的方案,毫末智行在其AI Day上的相關材料(圖17)也表明毫末智行的感知框架在進行目標感知和運動預測同時,也在進行語義地圖的實時重建。毫末感知方案采用了視覺圖像和激光雷達點云融合生成BEV特征的方案,其首先對激光雷達數(shù)據(jù)進行體素化處理,相當于對數(shù)據(jù)進行降采樣,然后再通過點云特征處理的經(jīng)典模型pointPilars模型提取點云特征,然后和基于BEV Transformer處理的視覺BEV特征相加后作為某些某時刻輸入,通過構建多個歷史時刻的輸入豐富模型對于上下文關聯(lián)特征的學習,從而優(yōu)化模型模板檢測、長時長語義地圖生成及運動預測的輸出,輸出模型均采用基于transformer的decoder模型實現(xiàn)輸入到目標輸出特征的映射學習。

圖17 毫末智行感知、地圖生成多任務模型

建圖、定位方面方面,目前國內多數(shù)車企還是以高精地圖方案為主,贏徹自動駕駛已量產(chǎn)方案極大概率完全依賴高精度地圖,可能采用圖商地圖盒子方案提供主要干線地圖信息。華為、毫末、元戎啟行有資料介紹其基于無圖的智駕方案,無圖智駕方案也是目前各大公司競爭的焦點,主要體現(xiàn)再智駕開城的速度上,一般對于高精地圖依賴越小,其智駕方案開城速度則越快。但鑒于在線高精地圖實時生成技術仍未普及,為了確保安全與智駕功能道路覆蓋率,目前所有已量產(chǎn)的智駕方案仍對高精地圖依賴較重,高速、干線、主要城區(qū)路段仍以高精地圖為主,只有在特定功能,如代客泊車、自動泊車等小區(qū)域場景下才會使用實時建圖的方案,或者以實時生成的地圖作為高精地圖的補充,以避免高精地圖和實際道路不符的情況,如B站有測評視頻顯示小鵬在開啟城區(qū)領航時不能識別道路邊沿,或出現(xiàn)車身即將剮蹭橋梁支撐柱等情況,這表明當前小鵬自動駕駛還是以高精地圖為主,并沒有通過實時地圖生成技術對高精地圖進行修正,而相比較華為ADS系統(tǒng)則能夠很大程度避免此類情況,也證明了華為在基于高精地圖進行規(guī)控的同時還會基于在線生成的地圖對規(guī)控進行調整。特斯拉FSD則是目前唯一完全不基于高精地圖的智駕方案。

特斯拉在線地圖生成主要包括車道線生成(識別)模型和車道線拓撲結構預測兩部分。模型基本結構與感知部分模型近似,均為原始圖像輸入接share backbone,即RegNet,再接FPN以產(chǎn)生不同尺度特征圖,之后再接基于transformer的decoder以實現(xiàn)車道線生成,車道線拓撲結構預測。

圖18 特斯拉車道線生成、道路拓撲結構預測方法

在生成車道線后,在動態(tài)交互場景仍不足以支撐決策系統(tǒng),如在路口處需要避讓行人,在車道合并(fork)處需要執(zhí)行匯車操作等,因此還需要對車道線的拓撲結構語義進行識別或預測(圖19)。特斯拉對每一個車道線片段Vector序列,通過由粗略到精細的兩個級聯(lián)預測head預測特定功能車道線起始位置,再通過拓撲結構預測head預測當前后繼車道線片段是start(起點),continue(延續(xù)點),fork(合并點),還是end(終止點),生成該車道線片段的拓撲語義描述序列即“Language of Lanes”。

圖19 特斯拉道路拓撲預測/識別的LANGUAGE COMPONENT模塊

百度Apollo 團隊2022年也介紹了其基于在線感知和多源地圖融合的在線地圖生成技術,其通過車端感知輸出道路可行使區(qū)域分割、地圖要素實例、地圖要素分割、地圖要素矢量化等結果,結合多源地圖如高精地圖、眾源地圖,實現(xiàn)實時在線地圖實時生成,以避免高精地圖更新慢、部分路段高精地圖與實際不符等情況。其主要技術棧也是基于BEV Transformer方法對視覺、激光雷達輸入進行特征提取,再通過基于Decoder模型學習生成相應的地圖元素。

圖20 百度基于車端感知數(shù)據(jù)和多源地圖融合的在線地圖生成技術(2022年)

自動駕駛定位技術目前各家方案相似,均是在GNSS+IMU+輪速計基礎上,增加基于特征定位或SLAM,實現(xiàn)多源融合定位。根據(jù)贏徹定位系統(tǒng)基本框架(圖21),其采用了基于特征和GNSS/IMU的融合定位方法,一般車企也都采用類似方法。GNSS(GPS、北斗)可以提供絕對位置定位,但在遮擋環(huán)境下如隧道內、廠房內存在信號不穩(wěn)定或丟失問題?;贗MU、輪速計、特征定位則會隨著定位時長誤差會產(chǎn)生累計,因此一般定位系統(tǒng)均需要定期基于GNSS定位校準總體定位準確度,在GNSS信號不好位置采用基于慣導和特征融合的定位。毫末智行OverlapTransformer 即是面向LiDAR-Based Place Recognition的基于特征和transformer模型的定位方法(圖22)。

圖21 贏徹定位系統(tǒng)基本框架

圖22 毫末智行面向激光雷達位置識別的OverlapTransformer模型

目前感知和建圖、定位的界限變得更加模糊,部分在線HDMap生成模型和感知模型共用一種框架,而Occupancy的出現(xiàn)則提供了另一種對于異形未知障礙物處理的方法,總體上感知、建圖、定位具有以下三個趨勢:

(1). 統(tǒng)一BEV框架,基于share backbone的多任務感知、端到端地圖生成等模型,基于transformer的編碼器-解碼器架構是目前千億車企自動駕駛通解。

(2). 一般障礙物預測即Occupancy占用預測正在取代傳統(tǒng)軌跡、語義預測,成為感知模塊重要部分。

(3). 重感知、輕地圖、實時地圖生成方案因為無需高精度地圖,靈活度更高,成為毫末、特斯拉、華為等頭部車企自動駕駛系統(tǒng)首選方案。

3.5 決策規(guī)劃與控制

截至到2022年,規(guī)控系統(tǒng)一直都是優(yōu)化、搜索方法占主導地位,路徑搜索有A* ,D* , 混合A* 等,軌跡生成有EM Planner、Lattice Planner、貝塞爾曲線等。后面隨著大模型技術和端到端/部分端到端技術的發(fā)展,規(guī)控系統(tǒng)在原有優(yōu)化、搜索方法基礎上也引入了更多基于transformer大模型方法、部分端到端方法。

贏徹據(jù)稱采用了規(guī)劃控制一體化架構(圖23左側),采用基于模型控制的方法實現(xiàn)卡車橫縱向控制,采用神經(jīng)網(wǎng)絡對交通參與者的行為進行長時預測(圖23右上)。架構中也提到了通過模型辨識方法來獲得車輛加速度響應、轉向響應等車輛特性描述模型,規(guī)控系統(tǒng)在感知結果、車輛模型基礎上進行車輛橫向位置、縱向速度的控制。

圖23 贏徹規(guī)控系統(tǒng)架構

特斯拉第一代FSD的規(guī)劃與控制部分接收感知模塊動靜態(tài)信息,Occupancy信息,采用一種動態(tài)交互式行為樹加軌跡優(yōu)化方法生成滿足避障,舒適等約束的軌跡,再將生成軌跡輸入軌跡評分模塊,從碰撞、舒適性、以及人類偏好角度對軌跡進行優(yōu)選(圖25)。

一般自動駕駛對于軌跡的表征包括8個維度,即:

位置,Heading, 速度,橫縱向加速度,橫縱向jerk(位置的3階導)。

傳統(tǒng)多物體聯(lián)合軌跡優(yōu)化方法需要找到自車和他車、行人等各自的軌跡,使得所有物體都能盡可能的抵達goal,同時橫縱向jerk盡可能?。ㄊ孢m度),并滿足所有軌跡最近距離大于安全距離約束,及早到約束和遲到約束(早到約束是指車輛不能在交叉口的前方等待,以避免阻塞交通。遲到約束是指車輛不能太晚進入交叉口,以避免與其他車輛發(fā)生碰撞)。特斯拉嘗試了基于歐式距離啟發(fā)式A* 和基于歐式距離加導航的A* 傳統(tǒng)方法,所能實現(xiàn)最短規(guī)劃耗時為50ms(20Hz),即圖24中的A,B方法,右側同時可視化了A,B方法的搜索結果。20Hz很難滿足高速場景自動駕駛需求,為此,特斯拉采用了結合交互式MCTS(蒙特卡洛樹搜索)和神經(jīng)網(wǎng)絡的方法,即圖24中的C,算法迭代次數(shù)相較傳統(tǒng)方法下降了兩個數(shù)量級。一次軌跡生成約100us,推測其規(guī)劃部分總用時小于10ms,可以滿足各種駕駛場景下實時性需求。特斯拉具體做法如下:

(1). 根據(jù)道路拓撲選定目標點(goal),或者根據(jù)自然人駕駛數(shù)據(jù)先驗得到goal點概率分布;

(2). 根據(jù)goal點,生成候選軌跡(優(yōu)化算法+神經(jīng)網(wǎng)絡);

(3). 沿著候選軌跡rollout,得到終點狀態(tài),再基于碰撞檢測、舒適性分析、介入概率以及與人類駕駛軌跡相似度給節(jié)點打分(圖25底部),選擇滿足約束的最優(yōu)軌跡。

圖24 特斯拉路徑路徑搜索求解的三種方法

圖24 特斯拉基于MCTS和Neural Planner的軌跡生成、選擇方法

特斯拉控制算法沒有看到相關介紹,推測應該以傳統(tǒng)算法為主,如基于模型的MPC、串級PID等。總體上特斯拉方法更貼近量產(chǎn)和落地,但在最新技術的應用上,特斯拉并非響應最快的,當然特斯拉最新的FSD V12據(jù)稱從感知到規(guī)控模塊基本完全采用神經(jīng)網(wǎng)絡模型實現(xiàn),但國內其實也有一些在新技術和自動駕駛結合方面探索的更為激進一些,如毫末智行、百度等。圖11展示了毫末智行結合LLM即大語言模型實現(xiàn)的從駕駛場景自然語言推理,到車輛控制信號輸出的通用的可解釋自動駕駛控制器DriveGPT,該架構包含兩個核心模型即多模態(tài)感知大模型(圖25)、駕駛常識認知大語言模型(圖26)。DriveGPT基于通用語義感知大模型提供的“萬物識別”能力,通過構建駕駛語言(Drive Language)來描述駕駛環(huán)境和駕駛意圖,再結合導航引導信息以及自車歷史動作,并借助外部大語言模型LLM的海量知識來輔助給出并解釋駕駛決策。

圖25 毫末智行的多模態(tài)感知大模型

圖26 毫末智行駕駛常識認知大語言模型

圖27 DriveGPT駕駛場景理解、駕駛行為解釋測試效果

圖27給出了一個實際駕駛場景DriveGPT測試,通過感知大模型實現(xiàn)道路元素的分割和識別,然后通過大語言LLM模型推理當前場景的特征,各個車輛動作的含義。毫末通過引入大語言模型來解釋駕駛環(huán)境,讓AI自己解釋自己的駕駛決策。通過構建自動駕駛描述數(shù)據(jù),來對大語言模型進行微調,讓大語言模型能夠像駕校教練或者陪練一樣,對駕駛行為做出更詳細的解釋。

國內也有一些結合傳統(tǒng)方法和感知神經(jīng)網(wǎng)絡模型、規(guī)控神經(jīng)網(wǎng)絡模型的探索(圖28),如小鵬的XPlanner,感知模型輸出道路元素分割、識別結果,加上導航信息輸入神經(jīng)網(wǎng)絡規(guī)劃器以生成軌跡規(guī)劃,最后再結合規(guī)則知識對軌跡進行選擇或優(yōu)化,最后輸出到車輛控制模塊。

圖28 小鵬汽車的XPlanner架構(圖中綠色為神經(jīng)網(wǎng)絡模型,灰色為基于規(guī)則的模塊)

總結,當前規(guī)控方案的特點如下:

(1). 目前多數(shù)規(guī)控方案結合端到端神經(jīng)網(wǎng)絡方法、基于知識的決策樹或其他搜索、優(yōu)化方法來簡化建模等理論復雜度,并提升模型性能-數(shù)據(jù)量和數(shù)據(jù)質量關聯(lián)度。

(2). BEV框架+大模型+人反饋強化學習(RLHF)+圖像推理、自然語義理解 能夠構建一種數(shù)據(jù)依賴較強的新一代自動駕駛規(guī)控架構。

3.6 部分端到端感知、規(guī)控一體模型

通過端到端方式實現(xiàn)更復雜的控制技巧學習其實早在19年谷歌就嘗試過,在“Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection”一文中,Sergey Levine等人即提出一種基于機器人視覺輸入和執(zhí)行機構控制量到多目標抓取成功率的端到端學習框架(圖29),當時業(yè)內戲稱“機器人農場”,實際上也取得不錯的效果,后續(xù)相關的工作還有Dex-Net 1.0/2.0系列工作,但這些工作由于本身應用場景單一,數(shù)據(jù)量較小,而且不同機器人間機構、作業(yè)任務又差異很大,因此很難獲得大量高質量數(shù)據(jù)以助力模型表征能力突破,影響較小,基本僅限于機器人行業(yè)從業(yè)者之間。而自動駕駛,尤其是乘用車自動駕駛,由于其具有規(guī)模極大、駕駛任務高度相似,自動駕駛車輛結構及傳感器配置又比較相似,再加上資本的關注,恰恰解決了上述機器人場景的所有痛點,因此以特斯拉為代表的科技公司,才能完成數(shù)據(jù)-模型飛輪的閉環(huán),在全社會形成廣泛的影響。

圖29 谷歌機器人農場(左)和基于深度學習模型的感知輸入、控制量輸入到抓取成功率評價的端到端學習框架(右)

UniAD也是在這樣的背景下誕生的,UniAD的誕生實際上具有比較多的突破,UniAD是近十年來CVPR唯一一篇來自中國的Best Paper。UniAD并非完全端到端的感知-控制量的框架,其人為設計了包括TrackFormer、MapFormer、MotionFormer、OccFormer等在內的多個中間過程,其最終Planner模塊接收的輸入也包括Track、Motion的Query特征,以及OccFormer輸出的占用網(wǎng)格,同時Planner也接受自然語言控制指令的輸入,如圖中的“turn left”,模型最終輸出的為最優(yōu)的免碰撞軌跡。

圖30 UniAD總體框架,最右側引出圖為Planner內部的框架原理圖

UniAD與經(jīng)典序貫模型不同在于,經(jīng)典序貫模型各個模塊有自己的評價指標,如目標檢測模型優(yōu)化目標包括類別準確率及IOU等,追蹤模型優(yōu)化目標包括MOTA、Mostly Tracked tracklets (MT)等,預測模塊評價指標包括minADE、minFDE等,軌跡生成模塊同時要考慮安全、舒適性(速度,加速度,及加速度一階導等)等指標,控制部分需要考慮軌跡跟蹤實時性、收斂速度等,因此各模塊都會按照自己的評價指標對模型進行優(yōu)化、改進,而UniAD不強調各個模塊的評價指標最優(yōu),UniAD集成了感知、預測和規(guī)劃等關鍵任務,并將這些任務整合到一個基于 Transformer 的端到端網(wǎng)絡框架中,建立了一個由任務最終目標和Track、Map、Occ及控制指令構成的優(yōu)化函數(shù),通過標注數(shù)據(jù)優(yōu)化各個模塊的模型參數(shù),這樣模型就是始終以最終目標為優(yōu)化對象而進行訓練的。UniAD框架是業(yè)界首個將全棧關鍵任務整合到一個深度神經(jīng)網(wǎng)絡中的自動駕駛模型。實際基于不同方法、原理的端到端的自動駕駛技術工作其實也比較多(圖31,End-to-end Autonomous Driving: Challenges and Frontiers),其中包括基于模仿學習方法(CNN E2E)、強化學習方法(Drive in A Day)等的工作,UniAD屬于模塊化端到端規(guī)劃方法。

圖31 端到端自動駕駛相關工作。圖中按順序列出了關鍵的里程碑工作,藍色字體標識了不同類方法(Imitation Learning, Reinforcement Learning etc.)。其中代表性工作用粗體、插圖進行了展示。頂部為CARLA Autonomous Driving Leaderboard中的Driving Score的評分,nuPlan Score類似。

4.總結

4.1 三代自動駕駛系統(tǒng)特點分析總結

三代自動駕駛系統(tǒng)在之前文章已系統(tǒng)介紹過了(B站,ID:不優(yōu)秀博仕Hanker,文章題目:三代自動駕駛系統(tǒng)及主流科技公司自動駕駛技術方案簡介),因為總結里要分析三代自動駕駛系統(tǒng)的優(yōu)缺點,因此這里簡要回顧下三代自動駕駛系統(tǒng)。第一代自動駕駛技術以后融合感知技術,高精度地圖,基于慣導、GPS定位系統(tǒng),預測模塊,基于優(yōu)化、搜索的規(guī)控等組成。第二代自動駕駛技術在第一代自動駕駛方案基礎上,算法框架統(tǒng)一為BEV框架,感知采用了基于共享主干網(wǎng)(share backbone)的Transformer多任務感知模型,在輸出目標感知的同時,幾乎所有框架也都包含Occupancy預測,同時基于本地實時地圖生成方法降低了系統(tǒng)對高精度地圖的依賴,規(guī)控部分仍以搜索和優(yōu)化方法為主。第三代自動駕駛系統(tǒng)和第二代框架相同,均是基于BEV框架,但感知、規(guī)控算法開始采用端到端的方式,并在訓練通用自動駕駛控制器的同時,利用大規(guī)模語料數(shù)據(jù)訓練模型的自動駕駛場景描述能力,實現(xiàn)系統(tǒng)在輸出控制量的同時解釋系統(tǒng)為什么要執(zhí)行對應的操作,即對駕駛行為進行解釋。代表性工作如前文介紹的DriveGPT。第一代自動駕駛系統(tǒng)主要模型參數(shù)量約百萬級,算力需求在100TOPS量級;第二代自動駕駛系統(tǒng)主要模型規(guī)模突破千萬級,部分基于Transformer的模型參數(shù)量接近億級,算力需求約200-500TOPS;第三代自動駕駛系統(tǒng)由于引入大模型技術,初步估算參算量會達到百億、千億水平,算力需求最終則會達到2000TOPS。

圖32 三代自動駕駛系統(tǒng)特征,當前主要科技公司自動駕駛系統(tǒng)架構估計,及三代自動駕駛系統(tǒng)對應模型參數(shù)與硬件需求估計。

第一代后融合串聯(lián)自動駕駛系統(tǒng)具有以下問題:

(1).目標檢測、行駛區(qū)域分割等模型均獨立訓練,存在特征提取重復問題;
(2).感知、定位、預測、規(guī)控等各模塊針對不同的目標優(yōu)化,而非最終駕駛目標;
(3).感知、預測、規(guī)控前后串連,會導致誤差累積、傳遞。
(4).傳統(tǒng)二維視角由于透視效應,物體可能出現(xiàn)遮擋和比例問題。
(5).時序信息缺少,遮擋處理、速度估計難度大。

第二代基于BEV多任務學習的自動駕駛系統(tǒng)的出現(xiàn)解決了特征重復提取、視角不統(tǒng)一、激光雷達和高精度地圖依賴問題,但仍沒有解決系統(tǒng)各模塊未基于最終駕駛目標進行各模塊優(yōu)化問題,總體上第二代自動駕駛系統(tǒng)具有以下特點:

(1).檢測、分割、障礙物預測等多個任務共享模型主干,特征復用、多任務并行出結果,容易擴展到額外任務,提升效率;
(2).BEV 3D視角,跨攝像頭融合容易,時序融合容易,易預測、補全遮擋目標;
(3).模型結構單一,易優(yōu)化,多平臺部署難度小;
(4).純視覺BEV方案在功能不降級前提下,可極大降成本,個人根據(jù)實際系統(tǒng)開發(fā)經(jīng)驗,單傳感器配置一項即可降本至少20%。
(5).地圖方面根據(jù)元戎啟行數(shù)據(jù),采用在線生成地圖(SD Map具備道路幾何拓撲、車道等信息,總體精度5-10cm,支持隧道、橋梁等路況),對比HD Map,在線SD Map成本為 100RMB每年,HD Map成本則在1000RMB每年;
(6).降低激光雷達依賴后,自動駕駛系統(tǒng)整體易支持國產(chǎn)域控平臺,如前文提到的天準雙J5域控,即可支持11V2L4R的BEV方案;

第三代端到端或部分端到端自動駕駛系統(tǒng)根據(jù)chatGPT的經(jīng)驗看,大概率是最優(yōu)解,可能未來也是不同場景自動駕駛公司根據(jù)通用模型訓練針對性的智駕DriveGPT。第三代自動駕駛系統(tǒng)兩種類型具有以下特點:

(1).完全端到端

  1. 直接從感知輸入中學習駕駛策略;
  2. 結構簡單,在模擬器中表現(xiàn)良好;
  3. 現(xiàn)實世界中缺乏可解釋性。

(2).部分端到端

  1. 引入實時地圖生成、一般障礙物預測等中間任務,以協(xié)助規(guī)劃;
  2. 引入自然語言駕駛場景推理,提高可解釋性;
  3. 以最終任務協(xié)調所有子模塊任務以實現(xiàn)安全、高效的駕駛任務學習。

4.2 基于自動駕駛各模塊的分析總結

  • (1).在系統(tǒng)硬件架構上,多核CPU,GPU,深度學習/神經(jīng)網(wǎng)絡單元,安全冗余芯片為控制器四個必要組成部分。
  • (2).感知和地圖:基于BEV+Transformer構建共享主干多任務感知模型,實現(xiàn)目標檢測、運動預測、地圖實時生成的重感知輕地圖方案是未來2-3年內自動駕駛量產(chǎn)的核心框架。
  • (3).定位:基于消費級導航地圖、定位設備,融合多傳感器特征定位是降低基于高精度地圖和高精度慣導成本的重要方式。
  • (4).規(guī)劃:結合語言、知識大模型,結合端到端自動駕駛大模型和基于強化學習的反饋學習機制,構建能以自然語言方式實時描述、推理駕駛場景,能夠基于駕駛目標整體優(yōu)化的方案是未來重要方向。
  • (5).控制:基于模型預測控制,基于模型作為先驗,基于實際駕駛數(shù)據(jù)的無模型強化學習控制可能是解決多場景自適應控制的方向。
  • (6.)算法架構:含部分人為設計的中間過程,結合自然語言場景理解,基于人反饋強化學習(RLHF)大模型架構的偽端到端自動駕駛框架會是未來重要方向。

原文鏈接:https://mp.weixin.qq.com/s/h4UCkF2sasuYZ5PExAIiGw

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2021-11-03 09:48:08

智能自動駕駛汽車

2021-11-18 18:21:18

智能自動駕駛汽車

2024-07-26 16:12:35

火山引擎豆包大模型上汽乘用車

2019-02-14 08:00:30

大數(shù)據(jù)商用車市場分析

2021-01-20 14:06:54

華為云

2021-06-28 11:40:50

賀雄松無人駕駛無人配送

2021-07-02 13:16:56

自動駕駛無人駕駛人工智能

2011-12-14 18:28:10

惠普

2025-02-10 10:35:00

自動駕駛端到端模型

2023-03-14 13:01:05

職能汽車

2022-12-30 12:10:41

L4自動駕駛破產(chǎn)

2015-04-27 15:42:24

英特爾中交興路星航道

2021-12-30 10:53:01

自動駕駛毫末智行

2021-09-14 09:35:34

MySQL查詢解析優(yōu)化器

2023-02-17 15:15:53

2021-09-10 11:12:50

開發(fā)技能代碼

2019-04-24 23:02:25

激光雷達3D檢測
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 99福利视频| 国产日韩一区二区 | 日韩欧美国产精品 | 欧美亚洲在线 | 在线观看中文字幕视频 | aaa国产大片 | h片在线免费观看 | 免费在线看黄 | 91久久国产综合久久 | 成人网在线| 男女羞羞视频免费 | 午夜久久av | 欧美精品一区二区在线观看 | 99热热精品 | 亚洲视频一区在线观看 | 日韩国产欧美一区 | 国产一二三区电影 | 亚洲午夜精品视频 | 久久久久久久一区二区三区 | 毛片一级电影 | 日韩成人av在线 | 国产天天操 | 欧美日韩黄色一级片 | 91免费在线看 | 精品伦精品一区二区三区视频 | 成年视频在线观看福利资源 | 国产xxxx搡xxxxx搡麻豆 | 国产精品视频网 | 欧美视频网 | 国内自拍偷拍视频 | 成人超碰 | 天天看夜夜 | 丁香婷婷综合激情五月色 | 精品中文字幕在线 | 99精品一区二区 | 亚洲精品视频在线播放 | 精品视频一区二区三区在线观看 | 亚洲国产欧美日韩 | 精品国产91亚洲一区二区三区www | 国产成人精品一区二区三区视频 | 欧美精品乱码久久久久久按摩 |