摳圖精細到發絲，Adobe處理6000×6000高分辨率圖像

作者：佚名 2020-09-21 16:11:04

很多深度學習方法實現了不錯的摳圖效果，但它們無法很好地處理高分辨率圖像。而現實世界中需要使用摳圖技術的圖像通常是分辨率為 5000 × 5000 甚至更高的高分辨率圖像。

很多深度學習方法實現了不錯的摳圖效果，但它們無法很好地處理高分辨率圖像。而現實世界中需要使用摳圖技術的圖像通常是分辨率為 5000 × 5000 甚至更高的高分辨率圖像。如何突破硬件限制，將摳圖方法應用于高分辨率圖像？來自 UIUC、Adobe 研究院和俄勒岡大學的研究者提出了一種新方法。

摳圖是圖像和視頻編輯與合成的關鍵技術。通常，深度學習方法會以整個輸入圖像和相關的 trimap 作為輸入，使用卷積神經網絡來推斷前景蒙版（alpha matte）。這種方法在圖像摳圖領域實現了 SOTA 結果。但是，由于硬件限制，這些方法在實際的摳圖應用中可能會失敗，因為現實世界中需要摳圖的輸入圖像大多具備很高的分辨率。

近日，來自伊利諾伊大學香檳分校（UIUC）、Adobe 研究院和俄勒岡大學的研究者提出了一種名為 HDMatt 的新方法，這是首個處理高分辨率輸入圖像的深度學習摳圖方法。

早在 2017 年，Adobe 等機構就發表論文《Deep Image Matting》，采用大規模數據集與深度神經網絡學習圖像的自然結構，進一步分離圖像的前景與背景。而那篇論文的一作 Ning Xu 正是這篇論文的第二作者。只不過，研究者這次將矛頭對準了高分辨率圖像。

論文地址：https://arxiv.org/pdf/2009.06613.pdf

具體來說，HDMatt 方法使用新型模塊設計，以基于 patch 的剪裁 - 拼接方式（crop-and-stitch）為高分辨率輸入圖像進行摳圖，進而解決不同 patch 之間的語境依賴性和一致性問題。基于 patch 的原版推斷方法單獨計算每個 patch，而該研究提出了新的模塊——CrossPatch Contextual module (CPC)，該模塊由給定的 trimap 指導，對跨 patch 語境依賴性進行建模。

大量實驗表明了該方法的有效性及其對于高分辨率輸入圖像的必要性。HDMatt 方法在 Adobe Image Matting 和 AlphaMatting 基準上均實現了新的 SOTA 性能，并且在更真實的高分辨率圖像上獲得了優秀的效果。

下圖展示了，在處理高分辨率圖像時，HDMatt 方法與之前最優方法 ContextNet 的對比結果：

ContextNet 分別應用了下采樣 (DS) 和剪裁 (C) 策略。從圖中可以看出，DS 導致細節模糊，剪裁則導致跨 patch 不一致問題。

而該研究提出的 HDMatt 方法解決了這兩個缺陷，摳圖效果與真值（上圖 c）最接近，這說明該方法能夠擬合精細細節。

該研究的主要貢獻有：

這是首個基于深度學習的高分辨率圖像摳圖方法，在硬件資源限制下使現實世界中的高質量 HR 摳圖成為現實。

提出一種新型模塊 CPC，用來捕獲 patch 之間的長程語境依賴性。在 CPC 內部，新提出的 Trimap-Guided Non-Local（TGNL）操作旨在高效傳播來自 reference patch 不同區域的信息。

在定量和定性實驗方面，HDMatt 方法在 Adobe Image Matting (AIM)、AlphaMatting 基準和真實高分辨率圖像數據集上均實現了新的 SOTA 性能。

HDMatt 方法

為了解決高分辨率圖像的摳圖問題，該研究提出 HDMatt 方法，該方法首先將輸入圖像和 trimap 剪裁為 patch，然后估計每個 patch 的 alpha 值。僅使用一個 patch 的信息會導致信息損失以及不同 patch 之間的預測不一致問題。因此，該研究提出新型 Cross-Patch Context Module (CPC) 模塊，高效利用每個 query patch 的跨 patch 信息。最后，將每個 patch 的估計 alpha 值連接，輸出整個圖像最終的前景蒙版。

下圖 2 展示了 HDMatt 方法的整體框架：