站在自動駕駛技術的轉折點:2024端到端大佬們這樣說~
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
- 端到端落地的難點在哪?
- 如果說特斯拉和小鵬的優勢在數據,那么wayve作為初創數據應該是個門檻,但是它的端到端也些亮眼成果了?
- 基于合成數據,3dgs,world model這類新技術有沒有可能讓端到端突破真實數據的枷鎖?
- 端到端的技術路線會是什么方向?從感知,軌控 獨立模型演進到端到端,是否比 從0直接上端到端模型 有技術優勢和壁壘?
清華大學博士生&加州大學伯克利分校博士后 Kimi
- 端到端的難點主要在于如何評價學出來的端到端系統,特別是他是否學出來了真正的開車邏輯。這是因為輸出軌跡是一個很簡單的任務,即使你什么也沒學會,就輸出一條跟著前車的直線軌跡也大差不差。這跟感知任務還不太一樣,感知任務的難度還是比較高的。這就使得端到端系統,輸入圖像的話很容易學到一些shortcut,也就是他學到的邏輯其實是不對的。這也是為什么端到端系統中高質量的數據是真正重要的,因為這樣的數據才蘊含了真正的開車邏輯。
- 端到端數據只是一方面, 正如第1點提到的,更重要的是如果只告訴它一個真實軌跡真值,怎么才能讓這個系統從數據中學到真正的開車邏輯,也就是為什么這個真值是對的,其他是錯的。因此端到端的系統設計其實沒那么容易,而wayve很早之前就開始探索端到端自動駕駛,也一直有一些高質量的工作,因此端到端做得好也不奇怪了。
- 我認為這個是非常有希望的一個方向,不僅僅是在訓練階段,在測試階段其實更加重要。對于端到端系統的測試,很難像感知那樣直接通過GT來評判他的對錯,而是要把他放在一個仿真系統里來進行閉環測試。這就使得我們需要給端到端系統新視角的輸入,這個在數據集里大概率是沒有的,需要3dgs這樣的技術來實現。但是這個目前的技術距離真正實用還有一段距離,但我認為這方面的技術突破是自動駕駛的落地的一個核心。
- 通過我上面說的其實可以看出來,端到端模型的設計不是用一個神經網絡來擬合真實軌跡這么簡單的。除了從高質量數據篩選這個角度來教模型有用的開車邏輯,在感知、軌控方面的技術積累是很有幫助的。端到端系統的設計中,圖像和軌跡之間的這個場景表示是最核心的。我個人認為occupancy是最接近終極場景表示的方式了,一方面因為occ對三維場景表達的全面性,另一方面也是因為它可以使用自監督被有效地學到,這也是我們后續課程會重點講的一部分。
端到端論文帶讀老師 資深算法工程師 Jason
非常贊同上述第4點。我認為比較工程友好的路線是分模塊先實現端到端,比如規控模塊先用模型代替,感知模塊用一個統一的模型代替,后面再把兩個模塊拼接起來的形式。實際上規控的模型化難度是比較高的,一方面數據收集的困難,比如一些corner cases怎么收集,這里可能需要借助仿真或者world model來幫忙。此外規控模型的測試也是很難的。不像感知可以直接有幾個測集就可以,規控嚴格來說需要去做閉環測試才能接近真實車端的表現,那么總不能發一版模型讓車去到處測吧,那樣可能測試一個模型比訓一個模型的代價還大了。
軌跡預測課程老師 資深算法工程師 Thomas
端到端是從sensor到控制信號,比較大的優勢1)是sensor的信息不會有損失吧,2)不會因為前級模型的誤差導致級聯誤差。
傳統的技術路線相當于把端到端抽象成一個個人工定義的顯示子任務,每個任務有明確定義和相對高的可解釋性。
目前來看,端到端的方法還有提升的空間吧,它并沒有體現出比傳統方法更好的可解釋性穩定性可靠性安全性。比如一個case接管了,我們并不知道是端到端的模型的哪個模塊出問題了比較難針對性地去解這個case,但對于傳統Pipeline 我可以定位到是感知預測還是歸控出了問題,所以我感覺端到端達到百分百的安全性的難度可能會更大。
端到端還有一個難點是優質數據的搭建和收集,需要標注大量有駕駛行為的視頻和控制行為。但是當數據量達到一定的level, 基于scaling law, 我還是比較看好端到端或者/ world model會給我們帶來驚艷的表現
頭部大廠算法專家 Dylan
- 難點是根本沒有可以閉環的模型,只有各種公司和公眾號在亂吹,pnc是個系統不是個簡單模型搞定的,一步一步走才是硬道理,第一步不如想想ML和AI怎么幫助現有的pnc而不是一口吃成胖子
- 數據量不是優勢,有效數據才是,wayve有后發優勢,可能有更完善高效挖掘和收集有效數據方法
- 從業務角度看,個人短期(2-3年)看不到生成特別重要的用處。端到端可能也沒到那個階段,先理清楚端到端怎么用到現有的自駕框架怎么用更重要。
- 學術和業務發展應該是分開的。學術可以考慮更遠的可能性,考慮各種思路,業務需要一步一步來(當然人力財力足夠可以多方案同步嘗試)。另外感覺當前端到端模型沒啥壁壘,近期發的那幾篇論文比再早期的也沒啥真的新東西,借了純視覺bev的東風吧。
NeRF與自動駕駛知名博主:意茗
針對問題3,當前3DGS或者NeRF這類合成數據的方法,暫時不能讓端到端突破真實數據的枷鎖,但未來可期。當前合成數據做的事情是
- 采集數據的倍增,比如提升傳感器高度在重建好的模型中做渲染,來模擬不同高度車型的采集數據;
- 有限的閉環仿真,比如自車車道變化引起的相機和雷達傳感器渲染數據變化。
但這些功能還遠未達到能夠突破真實數據的枷鎖,枷鎖在于天氣模擬、動態前景和corner case。對于天氣模擬,當前逐漸取代NeRF的3DGS方法天生沒法重建環境光照,很難去做光線條件或者天氣的更改,即便有carla之類的工具也沒法作用到GS模型中未解耦的反光、表面和材質;對于動態前景,3DGS或者NeRF作為靜態重建方法,自然是不支持動態的重建,因此需向重建和渲染pipeline中引入大量或許不適配3DGS/NeRF特性的動態重建工具,很難,也未必是動態重建的最優解;對于corner case的數據合成,可以做到一部分,但是真實生活中的corner case的數量和類型遠超開發者想象,只期望生成模型有一天能夠補足這一部分,讓合成數據的過程更方便簡單,結果更真實可用。
上海AI LAB 資深研究員 DOMIN
個人理解現在的仿真主要還是偏規控,像carla這種三維建模場景加上比較簡單的隨機交通流,有些算法就有不小domain gap,做不了端到端。我們團隊也做過,我們發現其實是需要大量實車動力學數據以及carsim數據去訓模型,也就是說模型能力上限其實是carsim。我理解端到端是要做closed loop的,喂感知數據很難去完整評價,更難讓模型自己去不斷迭代
新加坡南洋理工大學博士生 加州大學伯克利分校訪問學者 黃志宇
- 端到端實施的主要難點何在?
自動駕駛系統或產品的首要目標是確保安全。端到端實施面臨的最大挑戰是如何確保系統的安全性,能否完全信賴模型輸出的決策和規劃,以及這些決策是否能與人類的價值觀和期望相符。
- 關于Tesla和Xpeng在數據方面的優勢,Wayve作為初創公司是如何應對的?
盡管Wayve是一家初創公司,但它已在倫敦進行了早期的數據收集,并開展了端到端模型的訓練,成為該領域的先行者之一。未來,Wayve可能會探索與歐洲的OEM廠商合作,部署其開發的系統。
- 利用合成數據、3DGS、World Model等新技術,端到端能否突破真實數據的限制?
我認為3DGS和World Model主要是作為測試和仿真工具而不是訓練工具。由于機器學習的方法依賴于訓練數據的分布,僅用合成數據難以顯著增加數據多樣性或提升模型性能。因此,關鍵還是要在真實世界中持續收集新的多樣化數據。不過,將這些技術用作測試駕駛系統確實是一個有前途的方向。此外,World Model的概念相當廣泛,并不局限于特定方法,可以作為端到端系統中一個關鍵的模塊,既可用于決策也可用于系統測試。
- 端到端技術的發展方向將如何演進?
我認為感知任務的目標應是盡可能準確地提供周圍環境的關鍵信息至決策模塊。即便擁有了完美的感知信息,如何設計出高效的人性化決策模塊依然是一個挑戰。端到端系統旨在為決策模塊提供盡可能多的感知信息,通過高維潛在信息替代人工定義和處理的物理信息,以優化交互和決策過程。近期,學術界在基于學習的規劃上已取得進展,這也推動了端到端技術的廣泛關注和應用。總的來說,應當首先開發高效的AI決策模型,待其能力成熟后,再向全面的端到端系統演進,確保決策能力的優先發展
多傳感器融合與多目標跟蹤全棧老師 感知算法專家 Edison
- 一方面,端到端模型會遠比現有的檢測、分割、預測、規劃小模型要復雜,甚至完全是另一種范式,現在來看這種模型的框架還沒有完全探索出來;另一方面, 由于模型的復雜性,人類工程師更難理解它工作的機制,當模型在corner case上表現差時,僅僅增加數據可能無法提升模型性能。
- 對于Wayve了解不多,但是很多人對數據的理解比較簡單,一般來說,即使原始數據量很大,其中蘊含的有效的高質量數據卻很少。如果缺乏高效合理的數據工程能力,絕大部分數據都無法用來提升模型能力。小公司能把數據Pipeline做好的話,在數據上或許也會很有優勢,和公司體量無關,和原始數據量大小也無關。
- 我認為真正的未來的端到端模型和分模塊小模型是兩種不同的技術范式,不斷提升感知、預測、規劃的AI成分,使其不斷接近100%可微網絡,可能無法達到真正的端到端可學習自動駕駛大模型。但是從公司角度來說,在這個過程中會積累出對自動駕駛技術有深刻理解的工程師和技術團隊,這批人在工程實踐中的自我迭代,會逐漸超越既有技術范式,探索出真正的端到端大模型。
Waymo研究員:自動駕駛方向算法專家,jerry
- 端到端落地的難點在哪?
數據/云端算力/車端算力/組織架構/infra效率/評測體系
- 如果說特斯拉和小鵬的優勢在數據,那么wayve作為初創數據應該是個門檻,但是它的端到端也些亮眼成果了?
小鵬在新宙離開之后,已經是另一個公司。數據總量 不等于 數據能力 wayve科研工作很好,e2e具體落地的穩定性有待觀察。
e2e對整個自動駕駛管線的影響系統性的,數據總量很關鍵,但并不是唯一因素。并不排除有些新公司,在有限數據的情況下能把e2e做好。
- 基于合成數據,3dgs,world model這類新技術有沒有可能讓端到端突破真實數據的枷鎖?
對于合成數據在業務中如何使用,是個目前沒有共識的方向。看起來評測會比訓練先用起來。
用大量的數據去訓練合成數據生成,再用這些數據訓練。未必比直接訓練自監督的模型效果更好。需要等待更多的研究。
- 端到端的技術路線會是什么方向?從感知,軌控 獨立模型演進到端到端,是否比 從0直接上端到端模型 有技術優勢和壁壘?
會是多個方向并行。很多時候并不存在唯一解。甚至端到端都不一定是唯一解。
但就具體到e2e這個方向。長期看來,模塊化的端到端和現有自駕體系更匹配,類似UniAD等方案。一體化的e2e方案,LLM-based 或者diffusion-based 由或者 VFM+LLM的二階段方案,在車端算力冗余的前提下,很可能經歷多個方向并行在市場中競爭,最終收斂到某些固定的格局。各自面臨的技術挑戰不一樣,都有壁壘。最終市場上存在,應該都是針對各自的優勢進行不同程度的trade-oof
感知算法專家 星球嘉賓 LEO
- (1) 算力 (2) 如何保證正確性和安全性 (3)模型收斂
- 我想,我們應該意識到的是,端到端技術的出現,就是為了打破 標注數據 瓶頸。希望通過更簡單的監督信息,來實現更有效的駕駛行為決策。
傳統意義上的標注數據(bbox, segmentation )由于人工標注環節的存在,始終無法進一步跨越規模瓶頸。而端到端的任務下,期待的是更廉價和高效的數據獲取,更弱的監督,更大規模的模型,scale up 來實現“智能涌現”。從這個角度看,傳統意義上的數據閉環,數據積累,不一定有跨越性的優勢。
- 先問是不是,“數據是不是端到端任務的枷鎖”?我認為目前而言,端到端任務的設計可能還不夠清晰,正如王乃巖博士(聊一聊端到端)的那篇文章提到 “我認為端到端的本質應當是感知信息的無損傳遞。” 因此,我認為端到端在方法上尚未到達終局。
而我們是否需要合成數據來實現端到端,我傾向于認為這是一個成本收益問題,當任務設計清晰明確后,在未來,哪種數據獲取方式更簡單更廉價,哪種就會被應用。
- 端到端的技術路線會是什么方向?從感知,軌控 獨立模型演進到端到端,是否比 從0直接上端到端模型 有技術優勢和壁壘?
先上一下乃巖大佬的文章引用:
“我們還應該從本質上思考一下,端到端的本質是什么?我認為端到端的本質應當是感知信息的無損傳遞。我們先回想一下在非端到端系統中,感知和PnC模塊的接口是什么樣子的。一般我們會有針對白名單物體(車,人,etc)的檢測/屬性分析/預測,會有對靜態環境的理解(道路結構/限速/紅綠燈,etc),如果做的更細致一些的話,還會做通用障礙物的一些檢測工作。從宏觀的角度來講,感知輸出的這些信息,都是對復雜駕駛場景的一種抽象,而且是人工定義的顯式抽象。然而,對于一些非常見場景中,現在的顯式抽象難以充分表達場景中會影響駕駛行為的因素,亦或是我們需要定義的任務過多過瑣碎,也難以枚舉盡所有需要的任務。所以端到端系統,提供了一種(也許是隱式)全面表示,希望能夠自動地無損地將這樣的信息作用于PnC。我認為,所有能滿足這樣的系統,都可以叫做廣義端到端。”
模塊化的任務設計方式更像是一種妥協,用人類容易理解和保證安全性的方式來解決自動駕駛問題,當然,我們遇到了一些瓶頸。而這些瓶頸是否可以被端到端解決?這很難講。
我更傾向于認為,這可能是兩種并行的技術路線。在未來長期一段時間內可能會同時存在。
我相信很多自動駕駛公司盡管談端到端,但仍然會有模塊化的設計在背后兜底。
從這個角度講,我認為從傳統模塊化再到端到端,比從 0 直接到端到端的廠家更有優勢。他們對自動駕駛任務,系統設計難點,相對有更清晰的認識。
數據閉環方向資深工程師 神秘網友小邱
- 我們不需要做端到端落地,所以可能有失偏頗,望拋磚引玉,個人認為e2e的最大問題是可解釋性問題,從sensor直接到plan中間空間太大了,不知道問題出在哪里,而且每一次版本迭代可能都要做復雜的測試,需要保證測試數據的多樣性和覆蓋性,還要保證不會過擬合,仍然擁有良好的泛化能力,第二是難做閉環,駕駛可能存在多種合理的駕駛選擇,而且駕駛場景存在博弈,雖然有waymax這樣的multi-agent simulator工具或gaia-1這樣的工作,但是仍然有局限性
- wayve數據說不上多,但也不是很少,gaia-1的時候就有4,700小時的數據,他們能夠通過gaia-1合成數據或驗證e2e的能力,同時他們做了很多Self-Supervised的工作,這樣對"已標注數據"的需求量就更少了
- 個人認為合成數據最大的使用場景在找到bad case / corner case和失衡數據,通過仿真環境去生成補集,幫助模型更魯棒,但是合成數據也有局限性,我認為顧險峰老師對Sora的評價用在這個問題也合適:模型忽略了物理過程中最為關鍵的臨界(災變)態,一方面因為臨界態樣本的稀缺,另一方面因為擴散模型將穩恒態數據流形的邊界模糊化,消弭了臨界態的存在,生成的視頻出現了不同穩恒態之間的跳躍。而基于幾何方法的最優傳輸理論框架,可以精確檢測到穩恒態數據流形的邊界,從而強調了臨界態事件的生成,避免了不同穩恒態之間的橫跳,更加接近物理的真實。
Gao
- 難點除了可解釋性,似乎E2E也比較考驗公司的工程能力和數據閉環能力。目前很多模型還是基于模仿學習的,一些重要但不常見的場景,很難采集,而且數據均衡也不好搞。
- wayve好像是引入了一些強化學習的策略,似乎有效果,這個是前幾天聽分享聽到的,具體的還沒看。
- 從之前做感知的經驗,會有幫助,但是真實數據還是不能丟,但是生成數據的占比可能會逐漸提升比例。此外,基于真實數據采集的離線標注,也可以大幅度降低標注成本。
- 有數據、各模塊技術儲備充足的公司、團隊,可以直接搞,但是其他團隊可能還是分段搞積累數據和經驗,以及驗證數據閉環能力和工程能力之后搞更靠譜些。
再補充一點,就是閉環指標,也需要在模塊化階段摸索。目前的公開指標可能還是太學術了,難以評價所謂的駕駛水平,需要開發和磨合額外的指標
NeRF/3DGS重建 專家
- 難點在數據。
- Wayve 的 gaia 解決了數據,而且可以按需產生稀缺的corner cases 數據。
- 取決于怎么串聯端到端模型。
- UniAD based 的端到端更靠譜,更適合工業界
仿真專家 JamesZhang
對于問題3:我的感覺是,現在這類技術還仍然處于“似是而非”的狀態,數據的確定性也許還不夠高吧
端到端論文帶讀群學員討論
CH:
- 難點在于可解釋性-因果關系,噪音處理和控制安全。
- 針對問題3:有可能,但目前來看有限。仿真能補充數據,但總歸和實際有偏差,標注數據不可替代。
- 針對問題4:分段模型逐步可控可驗證,直接端到端,即便像 driverAdapter 這樣的分層監督也需要包一層rule based安全層。