都在談端到端的輸出,怎么提高端到端輸入的質量?
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
文章:RMFA-Net: A Neural ISP for Real RAW to RGB Image Reconstruction
鏈接:https://arxiv.org/abs/2406.11469
問題引出
圖像信號處理器(ISP)是一種專門設計的系統,用于從CMOS傳感器捕獲的原始數據重建RGB圖像。現有ISP系統是基于傳統算法的,依賴于對傳感器的深入理解和復雜的調試,這限制了它們在自動駕駛和機器人等領域的適用性。雖然在基于人眼視覺的標準下,傳統算法取得了較好的效果,但在視覺感知系統中無法很好適配。基于深度學習的ISP算法作為一種具有顯著潛力和多功能性的方法出現。近年來,越來越多的人對開發基于學習的算法以設計高效且高性能的ISP算法產生了興趣,這些算法可以針對特定領域的需求量身定制。
然而,現有算法并未充分考慮raw數據的特定特性,如黑電平和CFA,這可能會在處理不當時對紋理和顏色產生負面影響。此外,raw數據中的不均勻曝光也未被仔細考慮,導致對比度和亮度信息無法準確恢復。現有算法在數據處理的時候,破壞了原始數據中的高頻信息,導致高頻細節難以回復,同時會帶來模糊等問題。本文介紹了RMFA-Net以解決這些問題。我們進行顯示黑電平校正以減輕暗場景中的顏色偏移。為了保留高頻信息并防止錯位,我們提出了一種新的三通道分離模式。為了解決不均勻曝光的問題,我們個基于Retinex理論的設計了色調映射模塊,從而最終獲得更好的圖像效果。
框架介紹
Figure 1 RMFA-Net網絡結構
圖1(a)提供了本文所提出的深度學習架構的示意圖。該網絡分為三個主要部分:輸入模塊,RMFA模塊棧,以及輸出模塊。輸入模塊接受大小為256 × 256 × 3的圖像作為輸入,并將深度從3擴展到統一的寬度。在這一部分中,使用了兩個卷積層,卷積核大小為3 × 3。需要注意的是,tanh函數被用來將結果映射到區間(?1, 1) 。第二部分由多個RMFA模塊組成。第三部分是輸出模塊,其中使用一個卷積層,緊接著是sigmoid激活函數來生成輸出。
關鍵組件介紹
RMFA模塊
RMFA模塊是我們模型的基本構建塊,如圖1(b)所示。其包含幾個子模塊:
- 高頻信息提取分支:這個子分支專注于從輸入數據中提取高頻信息。它利用大小為1 × 1的卷積核來捕捉圖像中的細節。通過使用較小的卷積核,網絡能夠有效地捕捉高頻紋理并保留重建圖像中的復雜細節。
- 低頻分支:這個子分支負責捕獲輸入數據中的低頻信息。它利用大小為3×3的較大卷積核來捕捉更廣泛的特征并平滑圖像。較大的卷積核允許網絡捕獲低頻紋理,例如整體色彩和色調變化,并確保重建的圖像保持視覺上的美觀
- 色調映射模塊:模塊紋理模塊和色調映射模塊的輸出首先被連接在一起。隨后,使用一個卷積層將特征圖的數量映射到原始深度寬度。
- 注意力模塊。RMFA模塊的最后添加了channel attention和spatial attention模塊。同時添加了skip connection連接。
作為一個多功能的構建塊,RMFA模塊可以無縫地集成到各種架構中,增強我們模型的靈活性和適應性
通道模式
Figure 2:3通道模式
如圖2所示,在之前的工作中,通常的做法是將4通道模式,在這種模式下,綠色通道進一步分為Gr和Gb通道。這種額外的分離相當于對綠色通道進行下采樣,這會破壞raw數據中的高頻信息。
此外,4通道模式會引起像素錯位。如圖2(a)中的黑框所示,四個通道中相同位置的像素實際上對應于原始raw數據中的2×2鄰域。這種錯位可能導致模糊,影響圖像質量
本文設計了一種新方法,如圖2(c)所示。我們將Bayer raw數據分為三個通道(R、G、B),每個通道保留raw數據的大小。對于未采樣的像素,我們用1填充。因此,G通道的采樣率保持不變,盡可能保留高頻紋理信息。我們相信這種方法將更有助于網絡準確地重建高頻信息。
量化指標
我們在公開數據集上測試我們的效果,PSNR和SSIM兩個指標都超越了sota結果+1db。同時我們網絡參數也控制在較小的范圍內。如表1所示
Table 1:結果對比
總結
在本文中,我們提出了名為RMFA-Net的Neural ISP網絡,這是一種用于RAW到RGB圖像重建的新型深度學習模型。我們在公開數據集上證明了我們算法的有效性。其在PSNR和SSIM等圖像指標超過了sota結果1個Db。RMFA-Net在重建亮度、顏色、紋理和整體圖像細節方面有著更為出色的表現。
此外,我們還提供了一些額外的細節和結果,包括數據處理細節、網絡結構細節、各處理模塊作用對比分析等。這些額外信息進一步證明了我們方法的有效性和實用性。我們希望我們的工作能夠啟發未來關于Neural ISP系統的研究