車道線再出發!SinLane:孿生Transformer如何破局(上交&浙大)
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面 & 筆者的個人理解
車道檢測是自動駕駛系統中一項重要但具有挑戰性的任務?;赩isual Transformer的發展,早期基于Transformer的車道檢測研究在某些場景下取得了有前景的結果。然而,對于復雜的道路條件,如不均勻的光照強度和繁忙的交通,這些方法的性能仍然有限,甚至可能比同期基于CNN的方法更差。在本文中,我們提出了一種新的基于Transformer的端到端網絡,稱為SinLane,該網絡獲得了關注稀疏但有意義的位置的注意力權重,并提高了復雜環境中車道檢測的準確性。SinLane由一種新穎的孿生視覺變換器結構和一種稱為金字塔特征集成(PFI)的新型特征金字塔網絡(FPN)結構組成。我們利用所提出的PFI來更好地整合全局語義和更精細的尺度特征,并促進Transformer的優化。此外,所設計的Siamese視覺變換器與多級PFI相結合,用于細化PFI輸出的多尺度車道線特征。在三個車道檢測基準數據集上進行的廣泛實驗表明,我們的SinLane以高精度和高效率實現了最先進的結果。具體來說,與目前性能最佳的基于Transformer的CULane車道檢測方法相比,我們的SinLane將精度提高了3%以上。
總結來說,本文的主要貢獻如下:
- 提出了一種新的FPN模塊,金字塔特征集成(PFI),以完全集成全局語義和更精細的尺度特征。
- 設計了一個Siamese視覺變換器來從PFI中提煉多尺度車道線特征。
- 在三個基準數據集上取得了最先進的結果,與CULane上最著名的Transformer方法相比,準確率提高了3%以上。
相關工作回顧
早期的車道檢測工作依賴于手工制作的特征,導致特征捕獲有限,因此對于復雜條件下的車道檢測任務無效。
為了應對復雜的環境,深度學習(DL)方法被引入到車道檢測任務中?;诜指畹姆椒ㄊ紫葢糜谲嚨罊z測,其檢測輸出基于每像素的分割圖。與傳統方法相比,基于CNN的方法可以捕獲更豐富的視覺特征和空間結構信息,因此基于DL的方法優于傳統的檢測方法。然而,基于每像素的分割方法計算成本高,實時性有限,并且難以學習車道線的細長特征。
為了解決這些問題,LaneNet引入了一種分支的多任務架構,將車道檢測任務轉化為實例分割問題。與之前的方法相比,這種方法對道路狀況的變化更具魯棒性,但更耗時。RESA被提出通過移動切片特征圖來聚合空間信息,這可以獲得良好的實時結果,但在復雜的道路條件下仍然失敗。此外,上述大多數方法的輸出車道線可能不連續。
為了以更高的效率獲得更連續的車道線,在最近的研究中,基于曲線的方法將車道檢測任務視為多項式回歸問題,并利用參數曲線來擬合車道線。這些方法在很大程度上取決于曲線的參數(表示車道線像素的坐標,a、b、c和d是曲線的參數)。PloyLaneNet首次提出了一種直接輸出參數的端到端深度多項式回歸方法。為了提高穩定性和效率,BézierLaneNet提出了一種參數化的Bézier曲線來模擬車道線的幾何形狀。然而,即使效率很高,受全局信息學習能力的限制,這些基于曲線的方法在大型數據集上的準確性也不能令人滿意,特別是在復雜的道路條件下。
Transformer引入計算機視覺領域后,在模型推理速度和全局信息獲取方面取得了令人矚目的成果。DETR在目標檢測方面取得了令人滿意的結果,優于一些基于CNN的方法。但是,在車道檢測領域,基于Transformer的方法仍然難以產生令人滿意的結果?;贒ETR的方法LSTR推理速度快,但精度相對較低,特別是在一些復雜的道路環境中。與預訓練和局部先驗的LSTR相比,PriorLane提高了預測的準確性。然而,目前基于Transformer的方法和基于CNN的方法在準確性上仍存在差距。
在檢測任務中,底層富含幾何信息,但缺乏抽象的語義信息,而深層則相反。對于車道檢測任務,車道線獨特的細長形狀和復雜的駕駛場景對本地和全局信息的集成提出了很高的要求。FPN提出了一種自上而下的特征金字塔架構,用于合并低級和高級特征。PANet中提出了一種自下而上的架構,用于更好地從低級到高級特征的聚合。Kong重新制定了FPN結構,并應用全局注意力和局部重構將低級表示與高級語義特征融合在一起。Nas-FPN和BiFPN提出了可學習的融合策略,從多尺度上提高了特征融合的效果。然而,所有這些方法都忽略了數據集的尺度分布,無法在復雜的自動駕駛場景中融合全局和局部信息。
方法詳解
結構設計
SinLane網絡的總體架構如圖2所示。由于車道線具有明顯的結構特征,因此可以用沿y軸等距采樣的一系列關鍵點來表示,這些關鍵點可以表示為:
雖然車道檢測任務可以被視為分割任務,但通過車道線的關鍵點表示,它可以被轉換為與對象檢測任務相似的序列預測任務。受DETR[3]的啟發,我們提出了一種基于端到端變壓器的方法SinLane,用于生成車道預測,而無需復雜的后處理步驟,如非最大抑制(NMS)[31]。我們網絡的主要結構可分為四個部分,骨干網(ResNet或DLA34)、頸部、頭部和訓練目標。
Pyramid Feature Integration
我們開發了PFI來整合全局語義信息和更精細的特征。圖3顯示了PFI的詳細結構。
在使用融合因子來平衡相鄰高層和低層的特征后,我們采用了一種集成結構來進一步融合它們。對于基于FPN的信息集成,有一些已知的方法,如PANet和NAS-FPN。當應用于車道檢測任務時,由于圖像中的車道線通常又長又細,因此這些方法很難平衡全局信息和更精細的尺度特征。
因此,我們開發了一種新的集成結構來集成全局語義信息和更精細的尺度特征。首先,我們將多尺度特征(已被融合因子平衡)重塑為相同的尺度。請注意,特征形狀是一個可調整的參數,取決于精度和效率的平衡。接下來,我們對重塑后的特征進行平均,可以表示為:
與之前的PANet等工作相比,我們的PFI具有兩個優勢:
(1)輕量級,即插即用,可以通過并行計算輕松實現,并應用于其他任務和網絡;
(2)它適用于嚴重依賴全局和局部信息融合的任務,如車道檢測任務。
Siamese Visual Transformer
我們提出了Siamese Visual Transformer來從多尺度特征圖中提取豐富的信息。圖4顯示了詳細的Siamese Visual Transformer結構。主結構由四個具有共享參數的暹羅視覺轉換器組成。
由于車道線細長且具有獨特的結構特征,我們使用對象序列(圖2中的e0、…、e3)來表示它們,這有助于降低計算成本,并且易于對Transformer進行優化。對象序列可以表示為:
通過使用GT監督對象序列的生成,我們可以強制輸出序列逐一對應圖像中的實際車道,從而實現車道線的檢測。
我們將PFI的輸入特征圖劃分為block,以減輕Transformer計算的負擔。然后將三維補丁展平為二維序列,并添加位置嵌入。與傳統的Transformer編碼器不同,我們利用Siamese結構使Transformer能夠通過共享參數學習更豐富的多尺度信息。具體來說,我們在輸入特征圖的序列和上層Transformer的輸出序列(或預生成的序列e0)之間應用注意力,而不是原始的自注意力。這個過程可以表示為:
Training and Inference Details
實驗結果
結論
在本文中,我們提出了一種新的基于變壓器的端到端網絡,稱為SinLane,用于車道線檢測。SinLane由一種新穎的暹羅視覺變換器結構和一種稱為金字塔特征集成(PFI)的新型FPN結構組成。我們證明,我們提出的PFI可以有效地整合全局語義和更精細的尺度特征,促進Transformer的優化。此外,所設計的Siamese Visual Transformer優化了我們的PFI輸出的多尺度車道線特征。我們在三個基準數據集CULane、Tusimple和LLAMAS上評估了我們提出的方法。實驗結果表明,我們提出的SinLane取得了最先進的結果,提高了復雜環境中車道線檢測的準確性。具體來說,與已知的基于Transformer的CULane數據集車道線檢測方法相比,它將準確率提高了3%以上。