成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

BEV的上下求索之路 | 智加提出DualBEV:基于雙向統一權重的BEV檢測(ECCV'24)

人工智能 新聞
今天自動駕駛之心邀請來了智加科技算法工程師—李沛東!為大家分享ECCV 2024接收的工作DualBEV!

圖片

論文鏈接:https://arxiv.org/pdf/2409.02108
Github鏈接:https://github.com/xw-hu/Unveiling-Deep-Shadows

亮點直擊

  • 深度學習時代陰影分析的全面綜述。本文對陰影分析進行了深入的綜述,涵蓋了任務、監督級別和學習范式等各個方面。本文的分類旨在增強研究人員對陰影分析及其在深度學習領域應用中的關鍵特征的理解。
  • 現有方法的公平比較。目前,現有方法之間的比較存在輸入大小、評估指標、不同數據集和實現平臺的不一致性。本文標準化了實驗設置,并在同一平臺上對各種方法進行了實驗,以確保公平比較。此外,實驗將在新修正的數據集上進行,其中的噪聲標簽或真實圖像已被糾正。
  • 模型大小、速度與性能關系的探索。與以往僅關注最終性能指標的陰影分析研究不同,本文還考察了模型大小和推理速度,強調了這些特征與性能之間的復雜相互作用。
  • 跨數據集泛化研究。認識到陰影數據集中的固有偏差,本文對現有數據集進行了跨數據集泛化研究,以評估深度模型在不同數據集上的泛化能力,為這些模型的魯棒性提供了寶貴的見解。
  • 開放問題和未來方向的概述,涉及AIGC和大型模型。本文探討了陰影分析中的開放問題,重點關注圖像和視頻感知、編輯以及對AIGC和大型視覺/語言模型的影響。本文的見解建議了未來的研究方向,為陰影分析及其應用的進展提供了路線圖。
  • 公開可用的結果、訓練模型和評估指標。本文提供了在公平比較設置下的結果、訓練模型和評估指標,以及新的數據集,以促進未來的研究和該領域的進步。結合這些貢獻,本文提供了全面的綜述,使其與早期的評審論文有所區別。

陰影是在光線遇到障礙物時形成的,導致照明區域減弱。在計算機視覺中,陰影檢測、去除和生成對于增強場景理解、改善圖像質量、確保視頻編輯中的視覺一致性以及提升虛擬環境至關重要。本文對過去十年中深度學習領域內圖像和視頻的陰影檢測、去除和生成進行了全面的綜述,涵蓋了任務、深度模型、數據集和評估指標。本文的主要貢獻包括對陰影分析的全面綜述、實驗比較的標準化、模型大小、速度與性能之間關系的探索、跨數據集的泛化研究、未解決問題和未來方向的識別,以及提供公開資源以支持進一步研究。

陰影檢測

陰影檢測預測二進制 mask,指示輸入圖像或視頻中的陰影區域。定位陰影使得陰影編輯成為可能,并促進陰影區域分析,這對于對象檢測和跟蹤等高級計算機視覺任務至關重要。本小節提供了針對圖像和視頻的陰影檢測深度模型的全面概述。此外,它還總結了用于評估陰影檢測方法的常用數據集和指標。為了評估不同模型在各個方面的有效性,本文進行了實驗并呈現了比較結果。

用于圖像陰影檢測的深度模型

下表1展示了不同方法的基本屬性,為理解深度學習領域中圖像陰影檢測的全貌提供了便利的參考。最初,早期的深度學習方法使用深度卷積神經網絡根據輸入圖像預測陰影特征,包括陰影邊界和局部陰影塊。隨后,研究重點轉向專門設計的端到端深度神經網絡,這些網絡能夠直接從陰影圖像生成陰影 mask。另一種方法是采用多任務學習,其中模型被訓練以同時執行陰影檢測和陰影去除。之后,提出了基于半監督、自監督和大型視覺模型的方法,以進一步提高在各種場景下的性能。在接下來的小節中,本文將詳細描述每個類別中的方法。

圖片

組件學習

早期的方法主要采用卷積神經網絡(CNN)來生成陰影特征,然后使用統計建模方法(例如,條件隨機場(CRF))來獲得最終的陰影 mask。

  • CNN-CRF 采用多個CNN在超像素級別和物體邊界上學習特征,然后使用CRF模型生成平滑的陰影輪廓。
  • SCNN-LinearOpt 使用CNN捕捉陰影邊緣的局部結構及相關特征,然后制定最小二乘優化來預測陰影mask。
  • Stacked-CNN 使用全卷積神經網絡(FCN)輸出圖像級陰影先驗圖,隨后使用補丁CNN生成局部陰影mask。然后,使用加權平均融合多個預測結果。
  • Patched-CNN 首先采用支持向量機與統計特征來獲取陰影先驗圖,然后使用CNN預測補丁的陰影概率圖。

使用深度卷積神經網絡學習陰影特征僅在早期方法中采用。以下類別中的深度模型均為端到端訓練。

單任務學習

隨著深度神經網絡的發展,方法采用端到端的深度模型進行陰影檢測,通過直接從輸入的陰影圖像預測輸出的陰影 mask。

  • scGAN 是一種條件生成對抗網絡,具有可調的敏感性參數,用于調節預測陰影 mask 中陰影像素的數量。
  • DSC 構建了一個方向感知空間上下文(DSC)模塊,以方向感知的方式分析圖像上下文。該模塊在卷積神經網絡(CNN)中使用,生成多尺度陰影 mask ,并將其合并為最終的陰影 mask 。
  • DC-DSPF 堆疊多個并行融合分支以構建網絡,該網絡以深度監督的方式進行訓練,然后使用密集級聯學習方案對預測結果進行遞歸精煉。
  • CPNet 在 U-Net中添加了殘差連接來識別陰影區域。
  • A+D Net 使用一個衰減器(A-Net)生成具有衰減陰影的真實圖像,作為額外的困難訓練樣本,這些樣本與原始訓練數據一起用于訓練檢測器(D-Net)以預測陰影 mask 。值得注意的是,這是一個快速陰影檢測器,能夠實現實時性能。
  • BDRAR 引入了遞歸注意殘差模塊,以結合來自相鄰 CNN 層的特征,并學習一個注意力圖以遞歸選擇和精煉殘差上下文特征。此外,它開發了一個雙向特征金字塔網絡,以聚合來自不同 CNN 層的陰影特征。
  • DSDNet 設計了分心感知陰影(DS)模塊,通過明確預測假陽性和假陰性來學習分心感知和區分特征。值得注意的是,預測的假陽性和假陰性來自其基礎模型和其他陰影檢測器。
  • CPAdv-Net 在 U-Net 的編碼器層和解碼器層之間設計了一個跳躍連接中的映射方案。此外,它引入了兩個對抗樣本生成器,從原始圖像生成用于訓練的數據。
  • DSSDNet 采用編碼器-解碼器殘差結構和深度監督漸進融合模塊,以預測航空圖像上的陰影 mask 。
  • FSDNet 是一個快速陰影檢測網絡,采用 DSC 模塊來聚合全局特征,并構建一個細節增強模塊,以在低級特征圖中提取陰影細節。它使用 MobileNet V2 作為骨干網絡,以實現實時性能。
  • ECA 采用多種并行卷積,使用不同的卷積核來增強在適當尺度下的有效物體上下文。
  • RCMPNet 提出了相對置信度圖回歸的方法,利用一個預測網絡來評估陰影檢測方法的可靠性,并結合基于注意力的長短期記憶(LSTM)子模塊以增強置信度圖的預測。
  • SDCM 采用兩個并行分支,分別生成陰影和非陰影 mask ,利用它們的互補特性。在訓練過程中,通過使用負激活、身份重建損失和區分性損失來提升陰影檢測結果的準確性。
  • TransShadow 使用多級特征感知模塊,利用 Transformer 來區分陰影和非陰影區域,并結合漸進上采樣和跳躍連接以增強特征提取效果。

多任務學習

一些方法采用端到端的深度神經網絡,不僅執行 mask 預測任務,還執行其他任務,例如預測無陰影圖像以進行陰影去除。這些多任務方法受益于相互之間的改進或對陰影圖像的更好理解。

  • ST-CGAN 使用兩個順序的條件 GAN,其中第一個網絡預測陰影 mask ,第二個網絡通過將陰影圖像和陰影 mask 作為輸入來預測無陰影圖像。
  • ARGAN 開發了注意力遞歸生成對抗網絡,用于陰影檢測和去除。生成器生成陰影注意力圖,并通過多個逐步的粗到細的步驟恢復無陰影圖像。此外,ARGAN 可以使用未標記的數據以半監督的方式進行訓練,利用 GAN 中的對抗損失。
  • R2D 通過利用在陰影去除過程中學習到的陰影特征來增強陰影檢測性能。所提出的 FCSD-Net 架構集成到 R2D 框架中,重點通過特別設計的檢測器模塊提取細致的上下文特征。它使用假陽性和假陰性以及 DSDNet中的 DS 模塊。
  • LRA 和 LDRA 在堆疊范式中優化殘差,以同時解決陰影檢測和去除的挑戰,指導優先重建陰影區域,并對最終的混合/顏色校正做出貢獻,同時減少開銷并提高各種主干架構的準確性。它生成一個配對數據集,其中包含陰影圖像、無陰影圖像和陰影 mask ,以進行預訓練。
  • SDDNet 引入了樣式引導的雙層解耦網絡用于陰影檢測,利用特征分離和重組模塊通過差異化監督來分離陰影和背景層。同步聯合訓練確保了分離的可靠性,而陰影樣式過濾模塊引入了樣式約束(由 Gram 矩陣 表示),增強了特征解耦的質量。
  • Sun 等人 提出了自適應照明映射 (AIM) 模塊,該模塊將原始圖像轉換為具有不同強度的 sRGB 圖像,并配合利用多尺度對比信息的陰影檢測模塊。反饋機制指導 AIM 以陰影感知的方式渲染具有不同照明的 sRGB 圖像。

半監督學習

訓練深度模型進行陰影檢測需要標記的陰影 mask,因此有限的訓練數據量會影響深度模型在復雜情況下的性能。因此,提出了半監督陰影檢測器,以便在標記和未標記的陰影圖像上訓練模型。

  • ARGAN+SS 如前文所述。
  • MTMT-Net 是一種成功的半監督陰影檢測方法,它基于教師-學生(mean teacher)架構構建了一個多任務平均教師網絡進行半監督學習。教師和學生網絡以多任務學習的方式檢測陰影區域、陰影邊緣和陰影數量。
  • SDTR 和 SDTR+ 分別表示半監督和弱監督陰影檢測器。新陰影圖像的處理過程涉及通過可靠樣本選擇方案識別不可靠樣本。隨后,可以選擇重新訓練可靠樣本、重新推斷不可靠樣本以獲得精確的偽 mask,或采用靈活的注釋(例如,框、點、涂鴉),并獲得見解以提高深度模型的泛化能力。利用 MiT-B2 主干,SDTR 和 SDTR+ 都能實時運行。

自我監督學習

自監督學習利用數據本身作為監督信號來學習深度特征。這個理念可以在現有的訓練數據集上實現,也可以使用額外的數據。

  • FDRNet 設計了一種特征分解和重加權方案,以減輕深度陰影檢測器對強度線索的偏見。它首先采用兩個自監督任務,通過使用調整亮度的圖像作為監督來學習強度變化和強度不變的特征。然后,它使用累積學習對特征進行重加權。
  • SILT 構建了一個陰影感知迭代標簽調整框架,具有陰影感知的數據增強、用于 mask 預測的全局-局部融合、陰影感知的過濾,以及整合零標記的無陰影圖像以提高非陰影區域的識別能力。它收集了一些互聯網圖像(暗物體和無陰影圖像),進一步幫助訓練網絡以區分陰影和暗物體。該框架使用了多種基礎網絡作為主干,包括 U-Net、ResNeXt101、EfficientNet 和 PVT v2。

大型視覺模型

現代大型視覺模型在一般視覺任務中表現出色。例如,“任意分割”模型(SAM)在多種物體類別的圖像分割中展現了令人印象深刻的零樣本性能。然而,在復雜背景和復雜場景中處理陰影仍然很困難。為了提高SAM在陰影檢測方面的性能,許多方法旨在僅微調新添加的或部分結構。

  • SAM-Adapter 將SAM作為其骨干網絡,通過整合定制信息來增強性能。這涉及在SAM編碼器的每一層中集成兩個多層感知機(MLP)作為適配器,同時微調適配器和SAM mask 解碼器。
  • ShadowSAM 在多個SAM編碼器層中集成兩個MLP和一個GELU激活函數作為提示器。它使用非深度學習方法生成偽 mask ,并通過照明和紋理引導的更新策略來改善這些偽 mask。該方法包括用于增量課程學習的 mask 多樣性指標。ShadowSAM支持無監督(使用偽 mask)和監督模式的訓練。
  • AdapterShadow 將可訓練的適配器插入到SAM的凍結圖像編碼器中進行微調。此外,引入了一種網格采樣方法,以自動從預測的粗略陰影 mask 生成密集點提示。請注意,SAM的骨干網絡是ViT-H,輔助網絡的骨干是EfficientNet-B1。

用于視頻陰影檢測的深度模型

視頻陰影檢測處理動態場景,并在視頻幀中生成一致的陰影 mask 。學習導向的數據集和視頻陰影檢測方法由 TVSD-Net 制定。下表 2 總結了所調查論文的基本屬性。

圖片

  • TVSD-Net 作為基于深度學習的視頻陰影檢測的先驅,TVSD-Net 采用三重并行網絡協同工作,以在視頻內部和視頻間層面獲得區分性表示。該網絡包括一個雙門協同注意模塊,用于約束同一視頻中相鄰幀的特征,并引入輔助相似性損失,以捕捉不同視頻之間的語義信息。
  • Hu et al. 該方法采用基于光流的扭曲模塊對幀之間的特征進行對齊和組合,應用于多個深度網絡層,以提取相鄰幀的信息,涵蓋局部細節和高級語義信息。
  • STICT 該方法使用均值教師學習,結合標記圖像和未標記視頻幀,實現實時陰影檢測。它引入時空插值一致性訓練,以提高泛化能力和時間一致性。
  • SC-Cor 該方法采用對應學習以提高細粒度的像素級相似性,采用像素到集合的方式,精細化幀間陰影區域內的像素對齊。它增強了時間一致性,并無縫地作為現有陰影檢測器中的即插即用模塊,且沒有計算成本。
  • STF-Net 該方法使用 Res2Net50 作為骨干網絡,在實時視頻中高效檢測陰影,引入一個簡單而有效的時空融合模塊,以利用時間和空間信息。
  • SCOTCH 和 SODA 這兩個框架形成了一個視頻陰影檢測體系。SCOTCH 使用監督對比損失來增強陰影特征的區分能力,而 SODA 應用時空聚合機制來管理陰影變形。這種組合改善了特征學習和時空動態。
  • ShadowSAM 該方法對 SAM進行微調,以使用邊界框作為提示檢測第一幀中的陰影,并采用以 MobileNetV2 為骨干的長短期網絡在視頻中傳播 mask,利用長短期注意力提升性能。
  • RSM-Net 該方法引入了參考視頻陰影檢測任務,提出了一種參考陰影跟蹤記憶網絡,利用雙軌協同記憶和混合先驗陰影注意力,根據描述性自然語言提示在視頻中分割特定陰影。
  • TBGDiff 這是第一個用于視頻陰影檢測的擴散模型,通過提取時間引導和邊界信息,使用雙尺度聚合來處理時間信號,并通過時空編碼embedding進行邊界上下文提取和時間線時間引導。
  • Duan et al. 該方法使用兩階段訓練范式,首先使用預訓練的圖像域模型,并通過時間適應模塊和空間適應模塊將其調整為視頻域,以實現時間一致性,并整合高分辨率局部補丁與全局上下文特征。這兩個模塊采用類似 ControlNet的結構。

陰影檢測數據集

接下來,本文專門討論用于模型訓練和評估的廣泛使用的數據集,省略其他用于額外半監督/弱監督訓練的數據。

用于陰影檢測的圖像數據集

早期的數據集,例如UCF和UIUC,是為了使用手工特征訓練傳統機器學習方法而準備的。UCF包含245張圖像,其中117張是在多樣的戶外環境中拍攝的,包括校園和市區區域。剩余的圖像來自現有的數據集。每張圖像中的陰影都經過精細的像素級手動標注,并由兩個人進行了驗證。UIUC有108張陰影圖像,帶有標記的陰影 mask 和無陰影圖像,這是首次能夠在幾十張圖像上進行陰影去除的定量評估。

后來,收集了包含數千張陰影圖像的數據集,以訓練深度學習模型。

  • SBU 和 SBU-Refine: SBU是一個大規模的陰影數據集,包含4,087張訓練圖像和638張測試圖像,使用了一種懶惰標注方法,用戶最初粗略地標記陰影和非陰影區域,然后通過優化算法對這些標簽進行細化。SBU-Refine手動重新標記測試集,并通過算法細化訓練集中的噪聲標簽。
  • ISTD: 提供陰影圖像、無陰影圖像和陰影 mask,適用于陰影檢測和去除任務。包含1,330張訓練圖像和540張測試圖像,以及135個不同的背景場景。
  • CUHK-Shadow: 是一個大型數據集,包含10,500張陰影圖像,分為7,350張用于訓練,1,050張用于驗證,2,100張用于測試。它包括五個類別:ShadowADE、ShadowKITTI、Shadow-MAP、ShadowUSR和Shadow-WEB。
  • SynShadow: 是一個合成數據集,包含10,000組陰影/無陰影/遮罩圖像三元組。利用陰影照明模型和3D模型生成,適用于預訓練或零樣本學習。
  • SARA: 包含7,019張原始圖像及其陰影 mask ,分為6,143張用于訓練和876張用于測試,涵蓋17個類別和11個背景。

用于陰影檢測的視頻數據集

  • ViSha: 包含120個多樣化視頻,提供像素級陰影標注的二值 mask 。總計11,685幀,390秒的視頻,標準化為30幀每秒,訓練和測試集按5:7比例劃分。
  • RVSD: 從ViSha中選擇86個視頻,重新標注為單獨的陰影實例,并添加自然語言描述提示,通過驗證確保質量。
  • CVSD: 復雜視頻陰影數據集,包含196個視頻片段,涉及149個類別,具有多樣的陰影模式。包括278,504個標注的陰影區域和19,757幀的陰影 mask ,適用于復雜場景。

評估指標

圖像陰影檢測的評估指標

  • BER(平衡錯誤率)是一種常用的評估陰影檢測性能的指標。在這種評估中,陰影和非陰影區域的貢獻相等,無論它們的相對面積如何。BER的計算公式為:

圖片

其中,、、   分別表示真正例、真負例、假正例和假負例。為了計算這些值,首先將預測的陰影 mask 量化為二值 mask。當像素值超過0.5時設為1,否則設為0。然后將此二值 mask 與真實 mask 進行比較。BER值越低,檢測結果越有效。有時還會分別提供陰影和非陰影區域的BER值。

  • -measure 被提出用于評估陰影 mask 中的非二值預測值。該指標以加權方式計算精準率和召回率,較高的值表示更優的結果。

視頻陰影檢測的評估指標

視頻陰影檢測中使用深度學習的首篇論文采用平均絕對誤差(MAE)、F-測量()、交并比(IoU)和平衡錯誤率(BER)來評估性能。然而,評估僅限于單個圖像(幀級別),未能捕捉時間穩定性。Ding等人引入了時間穩定性指標。

時間穩定性(TS) 計算兩個相鄰幀的真實標簽之間的光流,記為和。雖然ARFlow最初用于光流計算,但本文采用了RAFT。這是因為陰影的運動在RGB幀中難以捕捉。定義為和之間的光流。然后,通過光流對進行變形得到的重建結果記為。是視頻幀的數量。接下來,視頻陰影檢測的時間穩定性基于相鄰幀之間的流變形交并比(IoU)進行測量:圖片

實驗結果

在已有方法的原始論文中報告的比較結果在輸入尺寸、評估指標、數據集和實現平臺上存在不一致。因此,本文標準化實驗設置,并在相同平臺上對各種方法進行實驗,以確保公平比較。此外,本文進一步在多個方面比較這些方法,包括模型的大小和速度,并進行跨數據集評估,以評價其泛化能力。

圖像陰影檢測

整體性能基準測試結果。本文使用 SBU-Refine和 CUHK-Shadow來評估各種方法的性能。SBU-Refine 通過糾正錯誤標記的 mask 提高了評估準確性,從而減少了比較方法中的過擬合問題。CUHK-Shadow 是最大的真實數據集,提供了多樣化的場景以進行全面測試。比較的方法列在下表 3 中,本文排除了那些沒有代碼可用的方法。除了 DSC(在 PyTorch 中使用 ResNeXt101 主干實現)外,本文使用原始源代碼重新訓練了這些方法。所有比較方法都省略了后處理,例如 CRF。先前的方法采用了不同的輸入尺寸。在本文中,本文將輸入尺寸設置為   ,以在兩種分辨率下呈現結果。本文采用平衡錯誤率(BER)作為評估指標,使用 Python 代碼計算。報告了陰影區域(BERS)和非陰影區域(BERNS)的 BER。為公平比較,評估時結果被調整到與真實值相同的分辨率。

圖片

上表 3 和下圖 1 展示了每種方法的準確性、運行時間和參數。本文可以觀察到:

  • 一些相對較舊的方法比最近的方法表現更好,表明在原始 SBU 數據集上存在過擬合問題;
  • FSDNet 是唯一一個開源(提供訓練和測試代碼)的實時陰影檢測器,具有較少的參數和快速的推理速度;
  • DSDNet 在其訓練過程中結合了 DSC和 BDRAR的結果,并在性能上與最近的方法 SDDNet相當;
  • 較大的輸入尺寸通常會帶來性能提升,但也需要更多時間;
  • CUHK-Shadow 比 SBU-Refine 更具挑戰性。FDRNet在檢測 CUHK-Shadow 中的陰影時對輸入分辨率特別敏感,其中包含復雜的陰影或更細的細節,這些在更高分辨率的輸入()下更有利。

圖片

跨數據集泛化評估。 為了評估陰影檢測方法的泛化能力,本文通過使用在 SBU-Refine 訓練集上訓練的模型,檢測 SRD 測試集上的陰影來進行跨數據集評估。由于 SRD 在背景特征的復雜性上與 SBU 相似,因此被使用。請注意,這是首次在大規模數據集上評估泛化能力。

上表 3 中最右邊的三列顯示了結果,其中性能顯著下降,尤其是在陰影區域。這突顯了跨數據集評估對于穩健陰影檢測的重要性。陰影區域的性能下降表明這些方法在應對 SRD 中存在的不同光照條件和復雜背景紋理時存在困難。未來的工作應著重于提高陰影檢測模型的穩健性,以更好地在不同數據集間泛化。

總結 實驗結果表明,如何開發一個高效且穩健的模型,以在復雜場景下實現高精度的圖像陰影檢測,仍然是一個具有挑戰性的問題。

視頻陰影檢測

ViSha 數據集用于評估視頻陰影檢測方法,輸入尺寸為 512×512,參考 [88], [92]。由于 SAM 預訓練模型的位置信息embedding,ShadowSAM 使用 1024×1024 的輸入尺寸。SC-Cor使用 DSDNet作為基礎網絡。STICT在訓練中使用了額外的 SBU 數據集圖像。除了常用的圖像級評估指標 BER 和 IoU,本文還采用了通常被忽略的時間穩定性(TS)。結果被調整為 512×512 用于 TS 的光流計算,并調整為真實分辨率用于其他指標。

下表 4 顯示了結果,揭示了視頻陰影檢測方法的顯著優勢和權衡。SCOTCH 和 SODA 展現了最佳的整體性能,具有最低的 BER 和最高的 AVG,而 ShadowSAM 雖然模型較大,但達到了最高的 IoU。STICT 因其最快的推理速度而突出,盡管 IoU 較低,但非常適合實時應用。SC-Cor 和 TVSD-Net 展示了平衡的性能,BER、IoU 和 TS 得分適中。

圖片

總結 實驗結果表明,在視頻陰影檢測中,如何在幀級準確性、時間穩定性、模型復雜性和推理速度之間實現最佳平衡仍然是一個具有挑戰性的問題。

實例陰影檢測

這一部分介紹了另一個任務,即實例陰影檢測,其目標是同時找到陰影及其關聯的物體。了解物體與其陰影之間的關系對許多圖像/視頻編輯應用大有裨益,因為這樣可以輕松地同時操作物體及其關聯的陰影。這個任務最初在圖像層面由[108]提出,隨后在視頻中由[111]擴展。下表5總結了所調查方法的基本特性。

圖片

用于圖像實例陰影檢測的深度模型

實例陰影檢測旨在檢測陰影實例及其投射每個陰影的相關物體實例。

  • LISA:首先生成可能包含陰影/物體實例及其關聯的區域建議。對于每個建議,它預測單個陰影/物體實例的邊界框和 mask ,生成陰影-物體關聯(對)的邊界框,并估計每個陰影-物體關聯的光照方向。最后通過將陰影和物體實例與其對應的陰影-物體關聯配對來完成過程。
  • SSIS:引入了一種單階段全卷積網絡架構,包含一個雙向關系學習模塊,用于直接端到端學習陰影和物體實例之間的關系。該模塊深入研究陰影-物體關聯對,學習從每個陰影實例中心到其關聯物體實例中心的偏移向量,反之亦然。
  • SSISv2:通過新技術擴展了SSIS,包括可變形的MaskIoU頭、陰影感知的復制粘貼數據增強策略和邊界損失,旨在增強陰影/物體實例和陰影-物體關聯的分割效果。

用于視頻實例陰影檢測的深度模型

視頻實例陰影檢測不僅涉及在視頻幀中識別陰影及其關聯的物體,還需要在整個視頻序列中持續跟蹤每個陰影、物體及其關聯,即使在關聯中陰影或物體部分暫時消失的情況下也要進行處理。

  • ViShadow 是一種半監督框架,訓練于標注的圖像數據和未標注的視頻序列上。初始訓練通過中心對比學習在不同圖像中配對陰影和物體。隨后,利用未標注視頻和相關的循環一致性損失來增強跟蹤。此外,它通過檢索機制解決了物體或陰影實例暫時消失的挑戰。

實例陰影檢測數據集

  • SOBA 是首個用于圖像實例陰影檢測的數據集,包含1,100張圖像和4,293個標注的陰影-物體關聯。最初,[108]收集了1,000張圖像,[110]又增加了100張具有挑戰性的陰影-物體對圖像用于專門測試。訓練集包括840張圖像和2,999個對。陰影實例、物體實例及其關聯的標簽使用Affinity Photo App和Apple Pencil進行了精細標注。
  • SOBA-VID 是為視頻實例陰影檢測設計的數據集,包含292個視頻,共7,045幀。數據集分為232個視頻(5,863幀)的訓練集和60個視頻(1,182幀)的測試集。值得注意的是,測試集為每個陰影和物體實例提供詳細的逐幀標注,而訓練集每四幀中標注一幀。

評估指標

  • SOAP (陰影-物體平均精度)通過計算交并比(IoU)的平均精度(AP)來評估圖像實例陰影檢測性能。它擴展了真正例的標準,要求預測和真實陰影實例、物體實例以及陰影-物體關聯的 IoU 閾值大于或等于 。評估時使用特定的  值 0.5(SOAP50)或 0.75(SOAP75),并在  從 0.5 到 0.95 以 0.05 為增量的范圍內計算平均值(SOAP)。
  • SOAP-VID 通過將 SOAP 中的 IoU 替換為時空 IoU 來評估視頻實例陰影檢測。

實驗結果

圖像實例陰影檢測評估

整體性能基準結果 使用SOAP作為數據集,SOBA作為評估指標。比較的方法列在下表6中。本文使用其原始代碼重新訓練這些方法,將輸入圖像的短邊在訓練期間調整為六個尺寸之一:640、672、704、736、768或800。在推理過程中,本文將短邊調整為800,確保長邊不超過1333。

圖片

上表6展示了每種方法的準確性、運行時間和參數數量,觀察到:(i) SSISv2達到最佳性能,但速度最慢;(ii) 所有方法在處理復雜場景時性能有限;(iii) 復雜場景中的更多實例顯著降低推理速度。

跨數據集泛化評估 為評估泛化能力,本文進行了跨數據集評估,將在SOBA訓練集上訓練的模型應用于SOBA-VID測試集的視頻幀中檢測圖像實例陰影/物體。注意,沒有進行時間一致性評估。下表7顯示了結果,觀察到:(i) 比較方法的趨勢與在SOBA測試集上觀察到的趨勢一致;(ii) 性能沒有顯著下降,展示了實例陰影檢測方法強大的泛化能力。

圖片

總結 實驗結果表明,如何開發一個高效的模型以準確分割陰影和物體實例仍然是一個具有挑戰性的問題。

視頻實例陰影檢測的評估 在此,本文展示ViShadow [111]在SOBA-VID測試集上的性能指標:SOAP-VID為39.6,關聯AP為61.5,實例AP為50.9。20幀的總推理時間為93.63秒,處理速度約為0.21幀每秒,模型參數為66.26M。

陰影去除

陰影去除旨在通過恢復陰影下的顏色生成無陰影的圖像或視頻幀。除了普通場景,文檔和面部陰影去除也是重要的特定應用。本小節全面概述了用于陰影去除的深度模型,并總結了評估陰影去除方法的常用數據集和指標。此外,為了評估各種方法的有效性,本文進行了實驗并展示了比較結果。

用于圖像陰影去除的深度模型

以下是下表 8 中關于圖像陰影去除的論文綜述。

圖片

按監督級別分類的方法:

監督學習。 監督通常基于以下兩種情況:

  1. 無陰影圖像
  2. 無陰影圖像和陰影 mask

(i)基于 CNN 的方法:

  • CNN-CRF: 使用多個 CNN 學習檢測陰影,并構建貝葉斯模型去除陰影。深度網絡僅用于檢測陰影。
  • DeshadowNet: 一種端到端網絡,包含三個子網絡,從全局視角提取圖像特征。
  • SP+M-Net: 將陰影圖像建模為無陰影圖像、陰影參數和陰影啞光的組合,然后使用兩個獨立的深度網絡預測陰影參數和陰影啞光。在測試中,使用預測的陰影 mask 作為額外輸入。
  • DSC: 引入方向感知空間上下文模塊分析具有方向感的圖像上下文。使用多個 DSC 模塊的 CNN 生成殘差,與輸入結合生成無陰影圖像。
  • DHAN+DA: 提出分層聚合注意力模型,結合多重上下文和來自陰影 mask 的注意力損失,使用 Shadow Matting GAN 網絡合成陰影圖像。
  • SP+M+I-Net: 擴展SP+M-Net,通過約束 SP-Net 和 M-Net 的搜索空間,添加半影重構損失幫助 M-Net 關注陰影半影區域,利用 I-Net 進行修復,并引入平滑損失以調節啞光層。可擴展用于基于補丁的弱監督陰影去除。
  • Auto: 匹配陰影區域與非陰影區域的顏色生成過曝圖像,通過陰影感知的 FusionNet 合并輸入,生成自適應內核權重圖。最后,邊界感知的 RefineNet 減少陰影邊界的半影效果。
  • CANet: 采用兩階段上下文感知方法:首先采用上下文補丁匹配模塊尋找潛在的陰影和非陰影補丁對,促進跨不同尺度的信息傳遞,并使用編碼器-解碼器進行細化和最終化。
  • EMDNet: 提出基于模型驅動的網絡進行陰影去除的迭代優化。每個階段更新變換圖和無陰影圖像。
  • BMNet: 雙射映射網絡,集成陰影去除和陰影生成共享參數。具有用于仿射變換的可逆塊,并包括利用 U-Net 派生的陰影不變顏色進行顏色恢復的陰影不變顏色指導模塊。
  • G2C-DeshadowNet: 兩階段陰影去除框架,首先從灰度圖像中去除陰影,然后利用修改的自注意力塊優化全局圖像信息進行上色。
  • SG-ShadowNet: 兩部分風格引導的陰影去除網絡:基于 U-Net 的粗略去陰影網絡進行初步陰影處理,風格引導的再去陰影網絡精細化結果,采用空間區域感知原型標準化層,將非陰影區域風格渲染到陰影區域。
  • MStructNet: 重建輸入圖像的結構信息以去除陰影,利用無陰影的結構先驗進行圖像級陰影消除,并結合多級結構洞察。
  • DNSR: 基于 U-Net 的架構,具有動態卷積、曝光調整和蒸餾階段以增強特征圖。集成通道注意力和融合池以改善特征融合。
  • PES: 使用金字塔輸入處理各種陰影大小和形狀,以 NAFNet為基礎框架。通過三階段訓練過程,改變輸入和裁剪大小、損失函數、批量大小和迭代次數,并通過模型湯精煉,在 NTIRE 2023 圖像陰影去除挑戰賽的 WSRD 中獲得最高 PSNR。
  • Inpaint4shadow: 通過在修復數據集上進行預訓練來減少陰影殘留,利用雙編碼器處理陰影和陰影 mask 圖像,使用加權融合模塊合并特征,并通過解碼器生成無陰影圖像。
  • LRA&LDRA: 通過優化堆疊框架 中的殘差來改進陰影檢測和去除。它通過混合和顏色校正重建陰影區域。研究表明,在包含配對陰影圖像、無陰影圖像和陰影 mask 的大規模合成數據集上進行預訓練顯著提高了性能。
  • SHARDS: 使用兩個網絡從高分辨率圖像中去除陰影:LSRNet 從陰影圖像及其 mask 生成低分辨率的無陰影圖像,而 DRNet 使用原始高分辨率陰影圖像細化細節。由于 LSRNet 在較低分辨率下處理主要的陰影去除工作,這一設計使 DRNet 保持輕量。
  • PRNet: 將通過淺層六塊 ResNet 的陰影特征提取與通過再集成模塊和基于 ConvGRU 的更新 [155] 的漸進陰影去除相結合。再集成模塊迭代增強輸出,更新模塊生成用于預測的陰影衰減特征。

(ii) 基于 GAN 的方法采用生成器預測無陰影圖像,判別器進行判斷。

  • ST-CGAN: 使用一個條件 GAN 檢測陰影,并利用另一個條件 GAN 去除陰影。
  • AngularGAN: 使用 GAN 端到端預測無陰影圖像。該網絡在合成配對數據上進行訓練。
  • ARGAN: 首先開發一個陰影注意力檢測器生成注意力圖以標記陰影,然后遞歸恢復較輕或無陰影的圖像。注意,它可以使用未標記數據和 GAN 中的對抗損失以半監督方式進行訓練。
  • RIS-GAN: 在編碼器-解碼器結構中采用四個生成器和三個判別器來生成負殘差圖像、中間陰影去除圖像、反向光照圖和精細化陰影去除圖像。
  • TBRNet: 是一個具有多任務協作的三分支網絡。它由三個專門分支組成:陰影圖像重建以保留輸入圖像細節;陰影遮罩估計以識別陰影位置并調整光照;陰影去除以對齊陰影區域與非陰影區域的光照,從而生成無陰影圖像。

(iii) 基于Transformer的方法通過自注意力機制更好地捕獲全局上下文信息。

  • CRFormer: 是一個混合CNN-Transformer框架,使用不對稱的CNN從陰影和非陰影區域提取特征,采用區域感知的交叉注意力機制聚合陰影區域特征,并使用U形網絡優化結果。
  • CNSNet: 采用雙重方法進行陰影去除,集成了面向陰影的自適應歸一化以保持陰影和非陰影區域之間的統計一致性,并使用Transformer進行陰影感知聚合以連接陰影和非陰影區域的像素。
  • ShadowFormer: 使用通道注意力編碼器-解碼器框架和陰影交互注意力機制,利用上下文信息分析陰影和非陰影塊之間的相關性。
  • SpA-Former: 由Transformer層、系列聯合傅里葉變換殘差塊和雙輪聯合空間注意力組成。雙輪聯合空間注意力與DSC相同,但使用陰影 mask 進行訓練。
  • TSRFormer: 是一個兩階段架構,采用不同的Transformer模型進行全局陰影去除和內容細化,有助于抑制殘留陰影并優化內容信息。SpA-Former和ShadowFormer是其骨干。
  • ShadowMaskFormer: 將Transformer模型與補丁embedding中的陰影 mask 集成,采用0/1和-1/+1二值化以增強陰影區域的像素。
  • ShadowRefiner: 使用基于ConvNeXt的U-Net提取空間和頻率表示,將受陰影影響的圖像映射到無陰影圖像。然后,它使用快速傅里葉注意力Transformer確保顏色和結構一致性。
  • HomoFormer: 是一個基于局部窗口的Transformer用于陰影去除,均勻化陰影退化。它使用隨機打亂操作及其逆操作來重新排列像素,使局部自注意力層能夠有效處理陰影并消除歸納偏差。新的深度卷積前饋網絡增強了位置建模并利用了圖像結構。

(iv) 基于擴散的方法有助于生成更具視覺吸引力的結果。

  • ShadowDiffusion(J): 使用分類器驅動的注意力進行陰影檢測,使用DINO-ViT特征的結構保留損失進行重建,并使用色度一致性損失確保無陰影區域的顏色均勻。
  • ShadowDiffusion(G): 通過退化和擴散生成先驗逐步優化輸出,并增強陰影 mask 估計的準確性,作為擴散生成器的輔助方面。
  • DeS3: 使用自適應注意力和ViT相似性機制去除硬陰影、軟陰影和自陰影。它采用DDIM作為生成模型,并利用自適應分類器驅動的注意力強調陰影區域,DINO-ViT損失作為推理過程中的停止準則。
  • Recasting: 包含兩個階段:陰影感知分解網絡使用自監督正則化分離反射率和照明,雙邊校正網絡使用局部照明校正模塊調整陰影區域的照明。然后,使用照明引導的紋理恢復模塊逐步恢復退化的紋理細節。
  • LFG-Diffusion: 訓練一個擴散網絡在無陰影圖像上,以在潛在特征空間中學習無陰影先驗。然后使用這些預訓練的權重進行高效的陰影去除,最小化編碼的無陰影圖像和帶有 mask 的陰影圖像之間的不變損失,同時增強潛在噪聲變量與擴散網絡之間的交互。
  • Diff-Shadow: 是一個全球引導的擴散模型,具有并行的 U-Nets:一個用于局部噪聲估計的分支和一個用于無陰影圖像恢復的全局分支。它使用重新加權的交叉注意力和全球引導采樣來探索非陰影區域的全局上下文,并確定補丁噪聲的融合權重,保持光照一致性。

無監督學習

這類方法在訓練深度網絡時不使用成對的陰影和無陰影圖像,因為這些圖像難以獲取。

  • Mask-ShadowGAN: 是第一個無監督陰影去除方法,它自動學習從輸入陰影圖像中生成陰影 mask ,并利用 mask 通過重新制定的循環一致性約束來指導陰影生成。該框架同時學習生成陰影 mask 和去除陰影。
  • PUL: 通過四個附加損失改進了 Mask-ShadowGAN:mask 損失(采樣和生成 mask 之間的  差異)、顏色損失(平滑圖像之間的均方誤差)、內容損失(來自 VGG-16 的特征損失)和風格損失(VGG-16 特征的 Gram 矩陣)。
  • DC-ShadowNet: 使用陰影/無陰影域分類器處理陰影區域。它通過熵最小化在對數色度空間中訓練一個基于物理的無陰影色度損失,以及使用預訓練的 VGG-16 的陰影魯棒感知特征損失、邊界平滑損失和一些類似于 Mask-ShadowGAN 的附加損失。
  • LG-ShadowNet: 使用一個亮度引導網絡改進了 Mask-ShadowGAN。在 Lab 顏色空間中,CNN 首先調整 L 通道中的亮度,然后另一個 CNN 使用這些特征在所有 Lab 通道中去除陰影。多層連接在雙流架構中融合亮度和陰影去除特征。
  • SG-GAN+DBRM: 包含兩個網絡。(i) SG-GAN 基于 Mask-ShadowGAN,產生粗略的陰影去除結果和合成的成對數據,由使用 CLIP的多模態語義提示器引導文本語義。(ii) DBRM 是一個擴散模型,精細化粗略結果,該模型在真實無陰影圖像和陰影去除圖像上訓練,去除前的陰影由 Mask-ShadowGAN 合成。

弱監督學習

這類方法僅使用陰影圖像和陰影 mask 訓練深度網絡。陰影 mask 可以通過陰影檢測方法預測。

  • Param+M+D-Net: 使用陰影分割 mask 作為監督在陰影圖像上訓練。它將圖像劃分為補丁,學習從陰影邊界補丁到非陰影補丁的映射,并應用基于物理陰影形成模型的約束。
  • G2R-ShadowNet: 包含三個子網絡:生成、去除和細化陰影。陰影生成網絡在非陰影區域創建偽陰影,與非陰影區域形成訓練對用于陰影去除網絡。細化階段確保顏色和光照一致性。陰影 mask 引導整個過程。
  • BCDiff: 是一個邊界感知條件擴散模型。通過迭代維護反射率來增強無條件擴散模型,支持陰影不變的內在分解模型,以保留陰影區域內的結構。它還應用光照一致性約束以實現均勻照明。基礎網絡使用 Uformer。

單圖像自監督學習

此任務通過在測試期間對圖像本身進行訓練來學習去除陰影,消除了對訓練數據的需求。然而,陰影 mask 是必需的。

  • Self-ShadowGAN: 采用陰影重光網絡作為陰影去除的生成器,由兩個判別器支持。重光網絡使用輕量級 MLPs 根據物理模型預測像素特定的陰影重光系數,參數由快速卷積網絡確定。它還包括一個基于直方圖的判別器,使用無陰影區域的直方圖作為參考來恢復陰影區域的光照,以及一個基于補丁的判別器來提高去陰影區域的紋理質量。

文檔陰影去除

去除文檔中的陰影可以提高數字副本的視覺質量和可讀性。一般的陰影去除方法在處理文檔時面臨挑戰,因為需要大量配對數據集,并且缺乏對特定文檔圖像屬性的考慮。下表9總結了用于此任務的深度模型。

圖片

BEDSR-Net: 是第一個專為文檔圖像陰影去除設計的深度網絡。它由兩個子網絡組成:

  • BE-Net 估計全局背景顏色并生成注意力圖。這些結果與輸入陰影圖像一起被 SR-Net 用來生成無陰影圖像。
  • BGShadowNet: 利用來自顏色感知背景提取網絡的背景進行陰影去除,采用兩階段過程。

第一階段:融合背景和圖像特征以生成逼真的初始結果。

第二階段:使用基于背景的注意力模塊校正光照和顏色不一致,并通過細節增強模塊(受圖像直方圖均衡化啟發)增強低級細節。

FSENet: 旨在通過首先將圖像分割為低頻和高頻分量來實現高分辨率文檔陰影去除。

  • 低頻部分 使用 Transformer 進行光照調整。
  • 高頻部分 使用級聯聚合和膨脹卷積來增強像素并恢復紋理。

面部陰影去除

面部陰影去除涉及消除外部陰影、柔化面部陰影以及平衡光照。上表9總結了深度模型。這一主題與面部重光照相關,因為準確的陰影處理對實現照片級真實效果至關重要。此外,去除陰影還能提高面部特征點檢測的魯棒性。

  • Zhang 等人提出了第一個針對面部圖像陰影去除的深度學習方法。該方法使用兩個獨立的深度模型:一個用于去除外部物體投射的外部陰影,另一個用于柔化面部陰影。這兩個模型都基于修改后的GridNet。
  • He 等人提出了第一個無監督的面部陰影去除方法,將其框定為圖像分解任務。該方法處理單個有陰影的肖像,生成無陰影圖像、全陰影圖像和陰影 mask ,使用預訓練的面部生成器如StyleGAN2和面部分割 mask 。
  • GS+C通過將陰影去除分為灰度處理和上色來實現。陰影在灰度中被識別和去除,然后通過修補恢復顏色。為了在視頻幀中保持一致性,它包含一個時間共享模塊,解決姿勢和表情變化。
  • Lyu 等人提出了一個兩階段模型,用于去除眼鏡及其陰影。第一階段使用跨域分割模塊預測 mask ,第二階段使用這些 mask 指導去陰影和去眼鏡網絡。該模型在合成數據上訓練,并使用域適應網絡處理真實圖像。
  • GraphFFNet是一個基于圖的特征融合網絡,用于去除面部圖像中的陰影。它使用多尺度編碼器提取局部特征,圖像翻轉器利用面部對稱性生成粗略的無陰影圖像,并使用基于圖的卷積編碼器識別全局關系。特征調制模塊結合這些全局和局部特征,融合解碼器生成無陰影圖像。

用于視頻陰影去除的深度模型

PSTNet 是一種用于視頻陰影去除的方法,結合了物理、空間和時間特征,并通過無陰影圖像和 mask 進行監督。它使用物理分支進行自適應曝光和監督注意力,空間和時間分支則用于提高分辨率和連貫性。特征融合模塊用于優化輸出,S2R策略使得在不重新訓練的情況下,將合成數據上訓練的模型適應于真實世界的應用。

GS+C 是一種用于視頻中面部陰影去除的方法。

陰影去除數據集

通用圖像陰影去除數據集

  • SRD: 是第一個大規模的陰影去除數據集,包含 3,088 對陰影和無陰影的圖像。該數據集的多樣性涵蓋四個維度:光照(硬陰影和軟陰影)、廣泛的場景(從公園到海灘)、在不同物體上投射陰影的反射率變化,以及使用不同形狀的遮擋物產生的多樣輪廓和半影寬度。SRD 的陰影 mask 由 Recasting 重新標注。
  • ISTD和 ISTD+: 兩者都包含陰影圖像、無陰影圖像和陰影 mask ,具有 1,330 張訓練圖像和 540 張來自 135 個獨特背景場景的測試圖像。ISTD 存在陰影和無陰影圖像之間的顏色和亮度不一致問題,ISTD+ 通過顏色補償機制修正了這一問題,以確保在真實圖像中像素顏色的一致性。
  • GTAV: 是一個合成數據集,包含 5,723 對陰影和無陰影圖像。這些場景由 Rockstar 的電子游戲 GTAV 渲染,描繪了兩種版本的真實世界場景:有陰影和無陰影。它包括 5,110 個標準日光場景和額外的 613 個室內和夜間場景。
  • USR: 旨在用于無配對陰影去除任務,包含 2,511 張帶陰影圖像和 1,772 張無陰影圖像。該數據集涵蓋了多種場景,展示了由各種物體投射的陰影。它跨越了超過一千個獨特場景,為陰影去除技術的研究提供了豐富的多樣性。
  • SFHQ: Shadow Food-HQ,包含 14,520 張高分辨率食物圖像(12MP),并附有標注的陰影 mask 。它包括在各種光照和視角下的多樣場景,分為 14,000 個訓練和 520 個測試三元組。
  • WSRD:  在一個受控的室內環境中創建,具有定向和漫射光照。它包含 1,200 對高分辨率(1920x1440)圖像:1,000 張用于訓練,100 張用于驗證,100 張用于測試。該數據集包括各種顏色、紋理和幾何形狀的表面,以及不同厚度、高度、深度和材料(包括不透明、半透明和透明類型)的物體。它被 19 個團隊用于 NTIRE23 圖像陰影去除挑戰。

通用視頻陰影去除數據集

  • SBU-Timelapse: 是一個視頻陰影去除數據集,包含50個靜態場景視頻,主要特征是只有陰影移動,沒有物體移動。每個視頻使用“max-min”技術生成一個偽無陰影幀。
  • SVSRD-85: 是一個來自 GTAV 的合成視頻陰影去除數據集,包含85個視頻,共4,250幀。通過切換陰影渲染器收集,涵蓋了各種對象類別和運動/光照條件,每幀都配有無陰影圖像。

文檔陰影去除數據集

  • SDSRD:這是一個用 Blender 創建的合成數據集,包含970張文檔圖像和8,309張在不同光照和遮擋條件下合成的陰影圖像。數據集有7,533個訓練三元組和776個測試三元組。
  • RDSRD:這是一個通過相機捕獲的真實數據集,包含540張圖像,涉及25個文檔,包括陰影圖像、無陰影圖像和陰影 mask 。該數據集僅用于評估。
  • RDD:使用了文檔背景如紙張、書籍和小冊子。包含4,916對圖像,每對圖像分別在有陰影和無陰影的情況下拍攝,通過放置和移除遮擋物獲得。其中4,371對用于訓練,545對用于測試。
  • SD7K:包含7,620對高分辨率的真實世界文檔圖像,有陰影和無陰影版本,并附有標注的陰影 mask 。涵蓋各種文檔類型(如漫畫、紙張、圖表),使用了30多種遮擋物和350多份文檔,在三種光照條件(冷光、暖光和日光)下拍攝。

Facial Shadow Removal Datasets

  • UCB: 包含合成的外部和面部陰影。外部陰影是通過在一個包含5,000張沒有外部陰影的人臉數據集上,使用陰影蒙版混合明亮和陰影圖像創建的;然而,眼鏡陰影被視為固有的。面部陰影是通過對85名受試者進行Light Stage 掃描生成的,涵蓋各種表情和姿勢,使用加權的一次一光組合。
  • SFW: 是為真實環境中的面部陰影去除而組裝的,包含來自20名受試者的280個視頻,大多數視頻以1080p分辨率錄制。提供了各種陰影蒙版的標簽,如投射陰影、自身陰影、明亮或飽和的面部區域,以及眼鏡,共440幀。
  • PSE: ,即帶眼鏡的肖像合成,是通過3D渲染生成的合成數據集。它通過節點注冊模擬3D眼鏡在面部掃描上的效果,并在各種光照條件下渲染,生成四種帶有蒙版的圖像類型。在438個身份中,選擇了73個,每個都有20個表情掃描,配有五種眼鏡樣式和四種HDR照明條件,生成了29,200個訓練樣本。

Evaluation Metrics

  • RMSE在LAB色彩空間中計算出地面真實無陰影圖像與恢復圖像之間的均方根誤差,確保局部感知的一致性。
  • LPIPS(Learned Perceptual Image Patch Similarity)評估圖像塊之間的感知距離,得分越高表示相似性越低,反之亦然。本文采用VGG作為LPIPS中的特征提取器。

SSIM(結構相似性指數)和PSNR(峰值信噪比)有時用于評估。

實驗結果

一般圖像陰影去除

整體性能基準測試結果。 采用了兩個廣泛使用的數據集,SRD 和 ISTD+,來評估陰影去除方法的性能。比較的方法列在下表10中,本文排除了那些代碼不可用的方法。使用原始代碼重新訓練了比較的方法,輸入尺寸設置為   ,以在兩個分辨率下報告結果。

圖片

對于 DSC,本文將代碼從 Caffe 轉換為 PyTorch,并使用 ResNeXt101 作為主干網絡。ShadowDiffusion(G)使用了預訓練的 Uformer權重進行 ISTD+ 推理。對于需要陰影 mask 作為輸入的方法,與之前一些在訓練期間使用預測陰影 mask 的方法不同,本文在 SRD 和 ISTD+ 中采用了標注良好的 mask 。與某些依賴于推理期間的真實 mask 的方法不同(可能導致數據泄漏),本文使用由 SDDNet 檢測器生成的陰影 mask 。該檢測器在  分辨率的 SBU 數據集上訓練,顯示出卓越的泛化能力,如上表3所示。使用的評估指標包括 RMSE、PSNR、SSIM 和 LPIPS。結果被調整為與真實分辨率匹配,以便進行公平比較。一些調整真實圖像尺寸的論文是錯誤的,因為這會扭曲細節,導致對圖像質量的評估偏差且不準確。上表10和下圖2總結了每種方法的準確性、運行時間和模型復雜性。關鍵見解包括:

  • (i)早期方法如 DSC 和 ST-CGAN 在多個評估指標上優于后來的方法;
  • (ii)無監督方法在 SRD 和 ISTD+ 上表現出與有監督方法相當的性能,可能是因為訓練集和測試集中的背景紋理相似,其中 Mask-ShadowGAN 在效果和效率之間提供了最佳平衡;
  • (iii)較小的模型如 BMNet (0.58M) 提供了具有競爭力的性能,而沒有顯著增加模型大小;
  • (iv)大多數方法在更高分辨率(如 )下顯示出改進的結果。

圖片

跨數據集泛化評估。 為了評估陰影去除方法的泛化能力,本文使用在 SRD 訓練集上訓練的模型進行跨數據集評估,以檢測 DESOBA訓練和測試集上的陰影。兩個數據集都包含戶外場景,但 SRD 缺乏投射陰影的遮擋物,而 DESOBA 則呈現出更復雜的環境。這標志著首次在如此具有挑戰性的數據集上進行的大規模泛化評估。請注意,DESOBA 僅標記投射陰影,本文在評估中將物體上的自陰影設為“不關心”。SSIM 和 LPIPS 被排除,因為 SSIM 依賴于圖像窗口,LPIPS 使用網絡激活,這兩者都與“不關心”政策相沖突。上表10中最右邊的兩列顯示,在像 SRD 和 ISTD+ 這樣的受控數據集上表現良好的模型在 DESOBA 的更復雜環境中表現不佳。這是因為 SRD 主要特征是簡單、局部場景中的投射陰影,陰影較軟且無遮擋物,而 DESOBA 則呈現出更復雜的場景,具有更硬的陰影和遮擋。這突出了需要多樣化的訓練數據和更能適應處理現實世界陰影場景的模型。

總結 實驗結果表明,如何開發一個穩健的模型并準備一個具有代表性的數據集,以在復雜場景中實現高性能的圖像陰影去除,仍然是一個具有挑戰性的問題。

文檔陰影去除

RDD 數據集用于訓練和評估文檔陰影去除方法,輸入尺寸為 。結果如下表 11 所示,本文觀察到 FSENet 在準確性和效率上顯著優于 BEDSR-Net,使其在所有指標上成為更好的方法。

圖片

陰影生成

陰影生成主要有三個目的:

  • (i)圖像合成,涉及為照片中的物體生成投影陰影,以便能夠插入或重新定位照片中的物體;
  • (ii)數據增強,旨在在圖像中創建投影陰影,以生成逼真的圖像來支持深度神經網絡的訓練;
  • (iii)素描,專注于為手繪草圖生成陰影,以加速繪圖過程。

圖像陰影生成的深度模型

圖像合成的陰影生成

  • ShadowGAN: 使用生成對抗網絡(GAN)為圖像中的虛擬物體生成逼真的陰影。它具有一個生成器和雙鑒別器,確保陰影的形狀和場景的整體光照相協調。
  • ARshadowGAN: 是一種GAN模型,在單光源條件下為增強現實中的虛擬物體添加陰影。它使用注意力機制,通過建模虛擬物體陰影與現實世界對手之間的關系來簡化陰影生成,無需估計光照或3D幾何。
  • SSN: 提供了一個實時交互系統,使用二維物體遮罩在照片中創建可控的柔和陰影。它使用動態陰影生成和環境光照圖來訓練其網絡,生成多樣化的柔和陰影數據。同時,它預測環境遮擋以增強真實性。
  • SSG: 引入了像素高度,一種新的幾何表示法,可以在圖像合成中精確控制陰影的方向和形狀。該方法使用投影幾何進行硬陰影計算,并包括一個訓練過的U-Net來為陰影添加柔和效果。
  • SGRNet: 是一個兩階段網絡,首先通過合并前景和背景的生成器創建陰影遮罩,然后預測陰影參數并填充陰影區域,生成具有逼真陰影的圖像。
  • Liu 等人 通過多尺度特征增強和多層次特征融合來增強圖像合成中的陰影生成。該方法提高了遮罩預測的準確性,并在陰影參數預測中最大限度地減少信息損失,從而增強了陰影的形狀和范圍。
  • PixHt-Lab: 將像素高度映射到三維空間,以創建逼真的光照效果,如陰影和反射。它通過重建剪切物體和背景的3D幾何,使用3D感知緩沖通道和神經渲染器來克服傳統2D限制,提高柔和陰影的質量。
  • HAU-Net & IFNet: 由兩個組件組成:層次注意力U-Net(HAU-Net)用于推斷背景光照并預測前景物體的陰影形狀;以及光照感知融合網絡(IFNet),使用增強的光照模型融合曝光不足的陰影區域,創造出更自然的陰影。
  • Valen?a 等人通過解決真實地面陰影與投影到虛擬實體的交互來增強照片編輯時的陰影整合。其生成器從虛擬陰影和場景圖像創建陰影增益圖和陰影遮罩,然后通過光照和相機參數進行后處理,實現無縫整合。
  • DMASNet: 是一種兩階段方法,用于生成逼真的陰影。第一階段將任務分解為盒子和形狀預測,以形成初始陰影遮罩,然后進行細化以增強細節。第二階段專注于填充陰影,調整局部光照變化以與背景無縫融合。
  • SGDiffusion: 使用穩定擴散模型,結合自然陰影圖像的知識,克服與精確陰影形狀和強度生成相關的困難。具體來說,它通過ControlNet適配和強度調制模塊增強陰影強度。

用于陰影消除的陰影生成

請參見前文中Mask-ShadowGAN、Shadow Matting GAN和G2R-ShadowNet。

草圖的陰影生成

  • 鄭等人利用指定的光照方向,從手繪草圖中創建詳細的藝術陰影。他們在潛在空間中構建了一個3D模型,并渲染與草圖線條和3D結構對齊的陰影,包括自陰影和邊緣光等藝術效果。
  • SmartShadow為數字藝術家提供了三個工具來為線條畫添加陰影:用于初始放置的陰影筆刷、用于邊緣精確控制的陰影邊界筆刷,以及用于保持陰影方向一致的全局陰影生成器。通過卷積神經網絡(CNN),它可以根據草圖輸入和用戶指導預測全局陰影方向和陰影圖。

影子生成數據集

用于圖像合成的陰影生成數據集

  • Shadow-AR: 是一個合成數據集,包含3,000個五元組,每個五元組包括一個帶有和不帶有渲染陰影的合成圖像、一個合成物體的二值 mask 、一個標注的真實世界陰影摳圖及其相關的標注遮擋物。
  • DESOBA: 是一個基于真實世界圖像的合成數據集,源自SOBA。陰影被去除以作為陰影生成的真實值。它包含840張訓練圖像和2,999對陰影-物體對,以及160張測試圖像和624對陰影-物體對。
  • RdSOBA: 是使用Unity游戲引擎創建的合成數據集。它包含30個3D場景和800個物體,總計114,350張圖像和28,000對陰影-物體對。
  • DESOBAv2: 是一個利用實例陰影檢測方法和修復方法構建的大型數據集。它包含21,575張圖像和28,573個陰影-物體關聯。

草圖陰影生成數據集

SmartShadow 提供了真實和合成數據,包括:

  1. 1,670 對由藝術家創作的線條藝術和陰影。
  2. 25,413 對由渲染引擎合成的陰影。
  3. 291,951 對從互聯網上的數字繪畫中提取的陰影。

討論

不同的方法由于其獨特的模型設計和應用,需要特定的訓練數據。例如,SGRNet 需要前景陰影 mask 和目標陰影圖像用于圖像合成。相比之下,Mask-ShadowGAN 只需要未配對的陰影和無陰影圖像用于陰影去除。ARShadowGAN 使用真實陰影及其遮擋物的二值圖進行訓練,以生成增強現實中的虛擬對象陰影。SmartShadow 利用藝術家提供的線條畫和陰影對來訓練深度網絡,以在線條畫上生成陰影。由于篇幅限制,本文建議讀者探索每個應用的結果,以了解方法的有效性和適用性。

然而,目前的陰影生成方法主要集中在圖像中的單個對象上,如何為視頻中的多個對象生成一致的陰影仍然是一個挑戰。此外,除了為缺乏陰影的對象生成陰影之外,通過調整光照方向來編輯各種對象的陰影提供了更多實際應用。

結論 & 未來方向

總結而言,本論文通過調查一百多種方法并標準化實驗設置,推進了深度學習時代的陰影檢測、去除和生成研究。本文探索了模型大小、速度和性能之間的關系,并通過跨數據集研究評估了模型的魯棒性。以下,本文進一步提出了開放問題和未來研究方向,強調AIGC和大模型對該領域學術研究和實際應用的推動作用。

一個集成陰影和物體檢測、去除及生成的全能模型是一個有前景的研究方向。目前大多數方法專注于某一特定任務——陰影的檢測、去除或生成。然而,所有與陰影相關的任務本質上是相關的,可以從共享的見解中受益,特別是考慮到物體與其陰影之間的幾何關系。開發一個統一的模型可以揭示底層關系,并最大化訓練數據的使用,從而增強模型的泛化能力。

在陰影分析中,物體的語義和幾何特征仍未被充分探索。現代大型視覺和視覺語言模型,配備了大量的網絡參數和龐大的訓練數據集,在分析圖像和視頻中的語義和幾何信息方面表現出色,且具備顯著的零樣本能力。例如,Segment Anything提供像素級分割標簽;Depth Anything估計任何圖像輸入的深度;ChatGPT-4o預測圖像和視頻幀的敘述。利用這些語義和幾何見解進行陰影感知,可以顯著增強陰影分析和編輯,甚至有助于分離重疊陰影。

陰影-物體關系有助于執行各種圖像和視頻編輯任務。實例陰影檢測生成物體和陰影實例的 mask,促進了如圖像修復、實例克隆和陰影修改等編輯任務。例如,通過實例陰影檢測分析觀察到的物體及其陰影,以估計未觀察到物體的布局,實現圖像擴展。將這些應用整合到手機中進行照片和視頻編輯既簡單又有益。鑒于現代手機配備了多個攝像頭和高動態范圍,探索如何利用這些攝像頭進行增強的陰影-物體編輯是一個新穎的研究方向。

陰影是區分AI生成視覺內容與真實內容的有效手段。AI生成內容(AIGC)的最新進展使得多樣化的圖像和視頻創作成為可能。然而,這些AI生成的內容常常忽視幾何方面,導致陰影屬性上的差異,破壞了3D感知。實例陰影檢測被用于分析物體-陰影關系,當光源對齊和物體幾何不一致時,揭示圖像的合成性質。AI生成的視頻(例如,Sora3)也需要遵循3D幾何關系。因此,探索未來研究方向,關注AI生成內容中的陰影一致性,并評估或定位潛在的不一致性,既重要又有趣。此外,陰影是一種自然且隱蔽的對抗攻擊,可以破壞機器學習模型。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2023-11-20 09:47:14

自動駕駛視覺

2024-03-04 09:48:26

3D自動駕駛

2024-02-06 09:43:57

3D視覺

2024-02-21 09:25:50

3D自動駕駛

2024-01-22 09:54:09

模型數據

2024-07-26 09:22:36

2023-12-12 10:09:33

3D框架模型

2023-10-07 09:29:09

2022-01-11 10:59:46

智能自動駕駛汽車

2024-03-20 15:53:28

模型技術

2024-01-19 09:31:04

自動駕駛方案

2024-04-16 09:50:23

點云跟蹤框架

2023-12-06 09:49:36

自動駕駛算法

2024-07-31 10:10:00

BEV感知算法

2024-03-06 09:29:13

BEV自動駕駛

2023-11-17 09:55:41

2024-02-01 09:41:01

AI算法

2022-11-16 09:27:58

flexbox左右布局均分布局

2024-10-05 13:00:00

模型優化訓練

2022-12-14 10:21:25

目標檢測框架
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲美女视频 | 婷婷开心激情综合五月天 | 久久人爽 | 成人精品视频 | 日本精品视频在线观看 | 黄色片视频 | 久久成人av电影 | 激情欧美一区二区三区 | 超碰人人爱| 日韩第一夜 | 男人天堂网站 | 拍拍无遮挡人做人爱视频免费观看 | 久久99久久 | 色永久 | 欧美福利专区 | 免费一区在线观看 | 久久久精品一区 | 伊人成人免费视频 | 成人影院一区二区三区 | www久久爱 | 中文精品视频 | 欧美日韩综合 | 久久久久久国产精品 | 亚洲综合二区 | 看a网站 | 国产一区视频在线 | 欧美日韩免费一区二区三区 | 国产高清在线精品一区二区三区 | 久久精品99| 青娱乐国产 | 一区二区视频免费观看 | 亚洲一区二区电影在线观看 | 天天综合国产 | 日批av | 成人在线免费 | 狠狠综合久久av一区二区小说 | 国产亚韩| 亚洲一二视频 | 亚洲一区中文字幕在线观看 | 91视视频在线观看入口直接观看 | 美女视频三区 |