開源人工智能算法一種新穎的超像素采樣,網絡深層特征估計超像素
開源人工智能算法一種新穎的超像素采樣,網絡深層特征估計超像素摘要: 超像素提供圖像數據的有效低/中級表示,這極大地減少了后續視覺任務的圖像基元的數量。 現有的超像素算法無法區分,因此難以集成到其他端到端可訓練的深度神經網絡中。 我們為超像素采樣開發了一種新的可微分模型,利用深度網絡來學習超像素分割。 由此產生的超像素采樣網絡(SSN)是端到端可訓練的,它允許學習具有靈活損失功能的特定于任務的超像素,并具有快速運行時間。 大量的實驗分析表明,SSN不僅在傳統的分割基準測試中勝過現有的超像素算法,而且還可以學習其他任務的超像素。 此外,SSN可以輕松集成到下游深度網絡中,從而提高性能。
開源人工智能算法一種新穎的超像素采樣網絡深層特征來估計任務特定的超像素簡介:超像素是通過基于低級圖像屬性對圖像[33]進行分組而形成的圖像的過分割。它們提供了圖像內容的感知上有意義的細分,從而減少了后續圖像處理的圖像基元的數量。由于它們具有代表性和計算效率,超像素已經成為一種既定的低/中級圖像表示,并廣泛應用于計算機視覺算法,如物體檢測[35,42],語義分割[15,34,13],顯著性估計[18,30,43,46],光流估計[20,28,37,41],深度估計[6],跟蹤[44]等等。超像素尤其廣泛用于傳統能量最小化框架,其中少量圖像基元極大地降低了優化復雜性。
近年來,對于廣泛的計算機視覺問題采用深度學習的情況急劇增加。除了一些方法(例如,[13,18,34]),超像素幾乎不與現代深度網絡結合使用。這有兩個主要原因。首先,形成大多數深層結構基礎的標準卷積運算通常定義在規則網格上,并且當在不規則超像素網格上運算時效率低下。其次,現有的超像素算法是端到端可訓練網絡架構中的可區分模塊。在這項工作中,我們通過提出一種用于超像素分割的新的深度差分算法來緩解第二個問題。我們首先回顧一下廣泛使用的簡單線性迭代聚類(SLIC)超像素算法[1]并通過放松最近鄰居con將其轉化為可微分算法SLIC中存在束縛。這種新的可區分算法允許端到端訓練,并使我們能夠利用強大的深度網絡來學習超像素,而不是使用傳統的手工制作功能。
開源人工智能算法一種新穎的超像素采樣網絡深層特征來估計任務特定的超像素貢獻:這個組合了具有可微差分SLIC的深度網絡構成了我們稱為超像素采樣網絡(SSN)的端到端可訓練超像素算法。圖1顯示了所提出的SSN的概述。給定的輸入圖像首先通過a深度網絡在每個像素處產生特征。然后將這些深度特征傳遞到可微分SLIC上,SLIC執行迭代聚類,從而產生所需的超像素。整個網絡是端到端的可訓練的。 SSN的可區分性允許使用靈活的損失函數來學習特定于任務的超像素。圖1顯示了一些樣本SSN生成的超像素。
包括BSDS500 [4],Cityscapes [10]和PascalVOC [11]在內的3種不同分割基準數據集的實驗結果表明,所提出的超像素采樣網絡(SSN)對現有的主要超像素算法表現出色,同時也更快。我們還通過簡單地將我們的SSN框架集成到使用超像素的現有語義分割網絡[13]中來證明,實現了性能改進。此外,我們展示了SSN在學習其他視覺任務的超像素方面的靈活性。具體來說,在Sintel光流數據集[7]的概念驗證實驗中,我們演示了如何學習更好地與光流邊界而不是標準物體邊界對齊的超像素。
與現有的超像素算法相比,所提出的SSN具有以下有利特性:- 端到端可訓練:SSN是端到端的可訓練的,可以輕松集成到其他深層網絡架構中。據我們所知,這是第一個端到端可訓練的超像素算法。-Flexible和task-speciftc:SSN允許學習靈活的損失功能,從而學習特定任務的超像素。- 最先進的性能:對各種基準數據集的實驗表明,SSN優于現有的超像素算法。- 有利的運行時間:SSN在運行時方面也有利于突出的超像素算法,使其適合在大型數據集上學習,并且對實際應用也有效。
開源人工智能算法一種新穎的超像素采樣網絡深層特征來估計任務特定的超像素相關工作:超像素算法。傳統的超像素算法可以廣泛地分為基于圖形和基于聚類的方法?;趫D的方法將超像素分割表示為圖分區問題,其中圖節點由像素表示,邊表示相鄰像素之間的連接強度。通常,通過解決離散優化問題來執行圖分區。在這個類別中,一些廣泛使用的算法包括歸一化削減[33],Felzenszwalb和Huttenlocher(FH)[12],以及熵率超像素(ERS)[26]。由于離散優化涉及離散變量,優化目標通常是不可微分的,因此很難在基于圖的方法中利用深層網絡。另一方面,基于聚類的方法利用傳統的聚類技術,例如用于超像素分割的k均值。此類廣泛使用的算法包括SLIC [1],LSC [25]和Manifold-SLIC [27]。這些方法主要進行k均值聚類,但其特征表示不同。而SLIC [1]將每個像素表示為5維位置和Lab顏色特征(XY Lab特征),LSC [25]方法投射這些5維具有10維空間的特征,并在投影空間中執行聚類。另一方面,Manifold-SLIC [27]使用二維流形特征空間進行超像素聚類。雖然這些聚類算法需要迭代更新,但在SNIC方法[2]中提出了用于超像素分割的非迭代聚類方案。提出的方法也是基于聚類的方法。但是,與現有技術不同,我們利用深度網絡通過端到端的培訓框架來學習超像素聚類的功能。正如最近的一篇調查論文[36]所詳述的,其他技術被用于超像素分割,包括分水嶺變換[29],幾何流[24],圖形切割[39],均值漂移[9]和山丘。 - 攀登[5]。但是,這些方法都依賴于手工制作的功能,將深度網絡融入這些技術并非易事。最新的SEAL技術[38]提出了一種通過不可微的超像素算法繞過梯度來學習超像素分割的深度特征的方法。與我們的SSN框架不同,海豹突擊隊不是端到端可區分的。
深度聚類。受到監督任務深度學習成功的啟發,有幾種方法研究了深度網絡在無監督數據聚類中的應用。最近,Greff等。人。 [17]提出神經期望最大化框架,他們使用的模型集群標簽的后驗分布深度網絡并展開EM程序中的迭代步驟以進行端到端培訓。在另一項工作[16]中,梯形網絡[31]用于建模用于聚類的分層潛變量模型。好時等人。 [19]提出一個用于分離和分割音頻的基于深度學習的聚類框架信號。謝等人人。 [40]提出了一個深度嵌入式聚類框架,用于同時學習特征表示和聚類分配。在最近的一份調查報告中,Aljalbout等。人。 [3]給出了基于深度學習的聚類方法的分類。在本文中,我們還提出了一個基于深度學習的聚類算法。與以前的工作不同,我們的算法是針對超像素分割任務而定制的,其中我們使用特定于圖像的約束。此外,我們的框架可以輕松地結合其他視覺目標函數來學習任務特定的超像素表示。
預處理:SSN的核心是一種可區分的聚類技術,其靈感來自SLIC [1]超像素算法。在這里,我們在下一節描述我們的SSN技術之前簡要回顧一下SLIC。 SLIC是最簡單的,也是最廣泛使用的超像素算法之一。它易于實現,具有快速運行時間,并且還可以生成緊湊且均勻的超像素。盡管SLIC算法有幾種不同的變體[25,27],但在原始形式中,SLIC是在五維位置和顏色空間(通常是縮放的XY Lab空間)中對圖像像素執行的k均值聚類。從形式上看,給定圖像I Rn×5,在n個像素處具有5維XY Lab特征,超像素計算的任務是將每個像素分配給m個超像素中的一個,即,計算像素 - 超像素關聯圖H 0,1,...,m 1 n×1。 SLIC算法如下操作。首先,我們在5維空間中對初始聚類(超像素)中心S0 Rm×5進行采樣。這種抽樣通常是在像素網格上均勻地進行,并且基于圖像梯度進行一些局部擾動。給定這些初始超像素中心S0,SLIC算法以迭代方式進行,在每次迭代t中具有以下兩個步驟:
開源人工智能算法一種新穎的超像素采樣網絡深層特征來估計任務特定的超像素網絡架構:圖3顯示了SSN網絡架構。用于特征提取的CNN由一系列與批量標準化[21](BN)和ReLU激活交織的卷積層組成。我們使用max-pooling,在第2和第4個卷積層之后將輸入下采樣2倍,以增加感受野。我們對第4和第6卷積層輸出進行雙線性上采樣,然后與第2卷積層輸出連接,以傳遞到最終的卷積層。我們使用3 3個卷積濾波器,每層輸出通道數設置為64,除了輸出k 5個通道的最后一個CNN層。我們將此k 5通道輸出與給定圖像的XY Lab連接,從而產生k維像素特征。我們選擇這種CNN架構的簡單性和高效性。其他網絡架構是可以想象的。得到的k維特征被傳遞到可微分SLIC的兩個模塊上,迭代地更新像素 - 超像素關聯和超像素中心以進行v次迭代。整個網絡是端到端的可訓練的。
學習任務-Speciftc Superpixels:端到端可訓練SSN的主要優點之一是損失函數方面的靈活性,我們可以使用它來學習特定于任務的超像素。與任何CNN一樣,我們可以將SSN與任何特定于任務的損失函數耦合,從而學習針對下游計算機視覺任務進行優化的超像素。在這項工作中,我們專注于優化超像素的表現效率,即學習可以有效地表示場景特征的超像素,例如語義標簽,光流,深度等。例如,如果我們想要學習將要成為的超像素用于下游語義分割任務,期望產生遵循語義邊界的超像素。為了優化表示效率,我們發現任務特定的重建損失和緊湊性損失的組合表現良好。任務-speciftc重建損失。我們將要用超像素有效表示的像素屬性表示為R Rn×l。例如,R可以是語義標簽(作為一熱編碼)或光流圖。重要的是要注意,我們在測試時間內無法訪問R,即SSN僅使用圖像數據預測超像素。我們僅在訓練期間使用R,以便SSN可以學習預測適合表示R的超像素。如前面4.1節所述,我們可以使用列標準化關聯矩陣Q,R˘= QTR將像素屬性映射到超像素,其中R ˘Rm×l。所結果的然后使用行標準化關聯矩陣Q 1,R * = Q〜S將超像素表示R 6映射回像素表示R *,其中R * Rn×1。
開源人工智能算法一種新穎的超像素采樣網絡深層特征來估計任務特定的超像素結論:我們提出了一種新穎的超像素采樣網絡(SSN),它利用通過端到端訓練學到的深層特征來估計任務特定的超像素。據我們所知,這是第一個端到端可訓練的深度超像素預測技術。實驗的幾個基準測試表明,SSN始終如一地在最先進的超像素技術上表現出色,同時也更快。將SSN集成到語義分段網絡[13]中還可以提高性能,顯示SSN在下游計算機視覺任務中的實用性。 SSN快速,易于實施,可以輕松集成到其他深層網絡中,具有良好的實證性能。SSN解決了將超像素納入深度網絡的主要障礙之一,這是現有超像素算法的不可微分性質。在深度網絡中使用超像素可以具有幾個優點。超像素可以降低計算復雜度,尤其是在處理高分辨率圖像時。超像素也可用于強制分段不變的假設,也有助于遠程信息傳播[13]。我們相信這項工作開辟了利用深層網絡中的超像素的新途徑,并激發了使用超像素的新深度學習技術。致謝。我們感謝Wei-Chih Tu提供評估腳本。我們感謝Ben Eckart對補充視頻的幫助。