只需1080ti,即可在遙感圖像中對目標進行像素級定位!代碼數據集已開源!
太長不看版
這篇論文介紹了一項新的任務 —— 指向性遙感圖像分割(RRSIS),以及一種新的方法 —— 旋轉多尺度交互網絡(RMSIN)。RRSIS 旨在根據文本描述實現遙感圖像中目標對象的像素級定位。為了解決現有數據集規模和范圍的限制,本文構建了一個新的大規模 RRSIS 數據集(RRSIS-D),其中涵蓋了多種空間分辨率的圖像和具有尺度和角度多樣性的分割目標(已公開?。?。
同時還提出了多尺度交互模塊和旋轉卷積(已開源!),以處理遙感圖像的復雜性。實驗證明,RMSIN 方法在 RRSIS 任務上表現優于當前最先進的方法,為未來的研究提供了有力的基線。(1080ti 即可跑?。?/span>
論文地址:https://arxiv.org/abs/2312.12470
代碼地址:https://github.com/Lsan2401/RMSIN
研究背景和意義
指向性遙感圖像分割(RRSIS)是一種結合了計算機視覺與自然語言處理兩門學科的前沿技術。根據給定的文本描述,RRSIS 可以在遙感圖像中對目標對象進行像素級定位。
然而,RRSIS 任務的發展受到現有數據集規模和范圍有限的制約。由于遙感圖像具有俯瞰拍攝的特殊視角,和自然圖片存在巨大的語義差距;且其目標物體具有豐富的尺度和角度變化,這極大提高了數據集標注的難度,需要投入大量人力和時間成本。這些因素限制了現有數據集的規模和標注的精度,導致現存數據集無法滿足模型將訓練到關鍵任務的實際運用所需的精度水平。
此外,現有的基于自然圖像指向性分割(RIS)方法應用于遙感圖像時面臨著局限性。如圖 1 所示,遙感圖像普遍存在多樣的大尺度空間變化和多個方向出現的物體,這樣巨大的語義差異使得訓練于自然圖像的 SOTA 方法在遙感圖像上表現不佳。
當前的 RIS 方法通常著重于實現視覺和語言特征的對齊,這些方法在邊界清晰的上下文中具有良好的表現,但在面對遙感圖像的混亂和非結構化性質時精度明顯下降,在 RRSIS 任務中性能差距明顯。這些問題都呼喚一種更穩健、更廣泛的針對遙感圖像的方法。
針對上述問題,作者構建了一個全新的大規模 RRSIS 數據集 RRSIS-D,該數據集的規模是其前身的三倍,不僅涵蓋了多種空間分辨率的圖像,而且分割目標也具有顯著的尺度和角度多樣性。
同時,作者提出了旋轉多尺度交互網絡(RMSIN)。RMSIN 的結構包含多尺度交互模塊和旋轉卷積,以應對 RRSIS 的復雜性。
圖1:遙感圖像分割普遍存在的問題。
具體來說,該研究的貢獻可總結為:
- 構建了新的指向性遙感圖像分割 benchmark 數據集 RRSIS-D。RRSIS-D 基于 SAM 強大的分割功能,再進行手動校準,涵蓋多種多樣的空間分辨率和物體方向的數據。新數據集能夠為傳統 RIS 方法向遙感領域遷移應用提供基礎。
- 提出了旋轉多尺度交互網絡(RMSIN),以應對遙感圖像中普遍存在的多空間尺度和方向所帶來的挑戰。
- 設計了層內尺度交互模塊和層間尺度交互模塊來處理不同尺度內和跨尺度的細粒度信息。同時,作者在分割的解碼器端引入了旋轉自適應卷積來增強模型的魯棒性,有效應對 RRSIS 中無處不在的旋轉現象。
- 廣泛的實驗證明了本文中的 RMSIN 優于當前 SOTA 方法,在一系列評估指標上,持續表現出最佳性能,為之后的 RRSIS 的研究提供強有力的基線。
RRSIS-D 數據集
作者提出了一個專門指向遙感圖像分割的大規模數據集 RRSIS-D。Segment Anything Model(SAM)實現了卓越的分割性能。在 SAM 的基礎上,作者采用了一種半自動方法實現數據集的標注,利用邊界框和 SAM 生成像素級掩碼,從而在標注過程中節約成本。
數據集 RRSIS-D 由 17402 個圖像 - 描述 - 掩碼對組成,所有圖像的分辨率統一為高 800px、寬 800px,包含 20 個遙感場景多個物體類別,圖像描述由 7 種屬性組成。圖 2 列舉了數據集掩碼占圖像總尺寸的比例(θ),并列舉了具有代表性的數據集實例,可以看出分割目標涉及極大、極小的顯著尺度變換的目標。豐富種類的圖片使得數據集具有挑戰性。
圖2:列舉了數據集掩碼占圖像總尺寸的比例。
方法
RMSIN 模型的流程如圖 3 所示。對于給定輸入圖像和描述
,首先描述 E 通過文本 backbone
轉換為文本特征
。
同時,圖像通過復合尺度交互編碼器(Compounded Scale Interaction Encoder,CSIE)進行處理并與文本特征交互,生成具有充分語義的跨多個尺度的融合特征。CSIE 由尺度內交互模塊(Intra-scale Interaction Module,IIM)和跨尺度交互模塊(Cross-scale Interaction Module,CIM)組成,在編碼器的每層,都會應用尺度內交互分支來增強局部視覺建模,而對稱的視覺 - 語言融合分支則會對視覺和語言特征進行調整,以改進后續的圖像特征提取。
隨后,編碼器每層的特征都會傳遞給 CIM,該模塊通過多尺度注意(Multi-scale Attention)促進信息交互和空間關系優化。最后,作者提出了基于自適應旋轉卷積(ARC)的定向感知解碼器(OAD),通過對 CSIE 多個階段的特征進行并行推理來生成分割掩碼。
圖3:RMSIN 模型的流程示意圖。
尺度內交互模塊(Intra-scale Interaction Module)
編碼器每層通過尺度內交互模塊(IIM)進一步挖掘每個尺度內的豐富信息,促進視覺和語言模式之間的交互。IIM 基于四個階段的層次結構,可表示為。通過文本 backbone 獲取文本特征
(其中 C 表示通道數)后,IIM 在階段 i 的輸出特征
可描述為:
.
其中, 是從視覺 backbone
和輸入 I 中提取的。具體來說,在階段 i 中,輸入特征
經過降采樣和 MLP 的組合以縮小尺度并統一特征維度,得到
。經過下采樣的特征被送入兩個分支,分別用于增強視覺先驗和融合多模態信息。
多感受野分支(Various Receptive)
特征通過 J 個不同卷積核大小的卷積分支進行變換,以產生具有不同感受野的特征,可表述為:
.
其中, 表示卷積的第 j 個分支,σ 表示 Sigmoid 函數。公式即表達利用不同的卷積設置來平衡所有像素之間的權重
。權重通過以下方式來增強特征:
.
輸出由視覺門 α (Vision Gate) 調節后,作為原始圖像特征的局部細粒度信息的補充特征。視覺門的具體實現方法是:
.
其中,LN (?) 為 1×1 卷積核大小的卷積,Tanh (?) 和 ReLU (?) 表示激活函數。
跨模態對齊分支(Cross-modal Alignment)
跨模態對齊分支是專為多模態特征對齊設計的,這是使模型能夠理解自然語言的關鍵。具體來說,在輸入和語言特征
的情況下,首先使用
作為 Query,以
作為 Key 和 Value,實現縮放點積注意力,從而獲得多模態特征:
,
隨后,將注意力與
結合起來,得到語言引導的圖像特征:
,
與的輸出操作類似,得到的輸出由語言門 β(Language Gate) 調節并加到原始圖像特征中,作為補充的語言特征。語言門 β 的結構與視覺門相同。因此,尺度內交互模塊在 i 階段的整體輸出特性可以表示為:
.
跨尺度交互模塊(Cross-scale Interaction Module)
基于通過尺度內特征交互獲得在語言特征的引導下的局部多尺度特征,作者提出跨尺度交互模塊以進一步加強粗粒度和細粒度特征間的交互,以應對遙感圖像中的大尺度變化。具體來說,該模塊將尺度內交互模塊每層的輸出,即之前提到的,作為輸入,并執行多階段交互。首先進行多尺度特征組合,將特征在空間維度降采樣到相同大小,并沿通道維度進行拼接,公式表達如下:
,
.
其中,表示
降采樣后的新特征,downsample (?) 通過 Average Pooling 實現;
表示沿通道維度拼接的多尺度特征,即通過
操作在通道維度拼接
得到的多尺度特征。多尺度特征
隨后被輸入到不同的感受野以實現深度多尺度交互,通過大小和步長不同的被調整到不同的尺度,其定義如下:
其中,是調整的尺度數,
是第 m 個深度卷積的卷積核大小,
和
是
的高度和權重。以此得到
集合,就可以在空間維度上對所有元素進行扁平化處理,并將它們拼接成一個序列的多尺度感知特征
。以原特征
作為 Query,以多尺度感知特征
作為 Key 和 Value 執行跨尺度注意力:
為了更好地保留局部細節,在跨尺度注意力輸出中并行加入局部關系補償,得到跨尺度注意力的最終輸出:,
其中,DWConv (?) 表示深度卷積,Hardswish (?) 為激活函數,以增強多尺度局部信息的提取。
最終,對于來自的每個部分,都會執行來自
相應部分的感知門正則化,以獲得跨尺度交互的權重。該權重被視為尺度內特征模塊輸出的輔助殘差。計算公式如下:
其中。感知門的輸出被用于后續解碼器的最終掩碼預測。
自適應旋轉動態卷積
考慮到遙感圖像中的目標實例通常會呈現不同的方向,使用靜態的水平卷積核生成掩碼可能會導致精度缺失。受旋轉物體檢測的啟發,作者提出使用自適應旋轉動態卷積的分割解碼器中,以實現更好的掩碼預測。
自適應旋轉卷積從輸入特征中捕捉角度信息,并動態地重參數化卷積核權重參數,以過濾冗余特征。具體來說,它提取方向特征,并根據輸入預測 n 個角度和相應的權重
。對于輸入 Χ,θ,λ 的預測值為:
,
由于靜態卷積核權重可以看作是從特征映射齊次方程的二維核空間以特定方向采樣點采樣得到的值。因此,卷積核的旋轉就是旋轉 - 重采樣的過程。具體來說,卷積核權重根據預測的角度重參數化(Rotate Block)如下所示:
其中, 是原始卷積核采樣點的坐標,
是圍繞坐標原點進行旋轉仿射變換的旋轉矩陣的逆矩陣,interpolation (?) 通過雙線性插值實現。最后,用得到的卷積核對特征進行過濾,并進行加權求和運算,以生成方向感知特征:
則自頂向下的掩碼預測整體過程可總結如下:
,
其中,Seg (?) 指的是包括 3 ×3 卷積層、Batch Normalization 層和 ReLU 激活函數的非線性模塊,以增強分割特征空間的非線性。而 Proj (?) 為線性變換函數,用于將最終特征映射到二分類的掩碼。值得注意的是,
輸入自適應旋轉動態卷積 ARC 中獲得優化特征
,以利用特征空間中的方向信息,從而消除冗余,提高邊界細節的準確性。
實驗
在實驗中,作者在 RRSIS-D 數據集上比較了 RMSIN 與現有最先進的自然圖像參考圖像分割方法的性能。為了進行公平比較,作者遵循了這些方法的原始實現細節。
在驗證集中,RMSIN 在每個指標上都優于所有比較方法。值得注意的是,與最近表現最好的 LAVT 方法相比,RMSIN 將 mIoU 提高了 3.54%。在處理非常小或旋轉物體等復雜情況時,這種顯著提升尤為明顯,在 P@0.5、P@0.6 和 P@0.7 中分別提高了 5.12%、4.71% 和 4.25%。這些結果突出表明,RMSIN 能夠捕捉到詳細的局部信息和特定方向信息,從而實現更準確的分割。
消融
作者在 RRSIS-D 上進行了各種消融實驗,以評估 RMSIN 的網絡中關鍵組件的功效。
可視化
為了直觀了解 RMSIN ,作者將預測結果與基線進行了定性比較。如圖 4 所示,RMSIN 在根據表情精確識別各種比例的目標方面表現出了卓越的能力。此外,它還能在嘈雜的背景中定位微小尺度的物體,并穩健地預測不同角度出現的物體。與此相反,基線模型生成的預測遮罩卻存在缺陷,包括部分缺失和明顯偏移。
圖4:RMSIN 的預測結果與基線進行定性比較。
在圖 5 中,作者對在 ARC 和 CSIE 的消融作用下,RMSIN 在訓練過程中生成的特征圖進行了可視化。很明顯,在比例交互和旋轉卷積的幫助下,RMSIN 可以準確捕捉邊界信息。有了 CSIE 的比例交互和 ARC 的方向提取,RMSIN 可以更敏銳地聚焦于所指的目標。與第一行相比,CSIE 提供了更精確的深層語義,而 ARC 則提供了空間先驗,這對旋轉物體分割非常重要。
圖5:在 ARC 和 CSIE 的消融作用下,RMSIN 在訓練過程中生成的特征圖。
結論
在本文中,作者提出了旋轉多尺度交互網絡(RMSIN),這是一種解決 RRSIS 中復雜空間尺度和方向問題的新型解決方案。RMSIN 中引入的 「內尺度交互模塊」和 「跨尺度交互模塊」 專門應對航空圖像中不同空間尺度的挑戰。此外,RMSIN 還集成了自適應旋轉卷積功能,為有效處理此類圖像的不同方向特征提供了強大的解決方案。在新開發的綜合性 RRSIS-D 數據集上進行的廣泛驗證證明了 RMSIN 的卓越性能。