阿里達摩院提出開源AI圖片上色模型DDColor:可以為黑白照片、人物、動漫風景等一鍵上色!
本文經AIGC Studio公眾號授權轉載,轉載請聯系出處。
DDColor 可以為歷史黑白老照片提供生動自然的著色。它甚至可以對動漫游戲中的風景進行著色/重新著色,將您的動畫風景轉變為逼真的現實生活風格!
相關鏈接
- 項目:github.com/piddnad/DDColor
- Demo:replicate.com/piddnad/ddcolor
- 論文:arxiv.org/abs/2212.11613
論文閱讀
摘要
圖像著色是一個具有挑戰性的問題,由于 多模態不確定性和高病態性。直接 訓練深度神經網絡通常會導致錯誤 語義色彩和色彩豐富度低。雖然基于轉換器的方法可以提供更好的結果,但它們經常依賴 在人工設計的先驗上,泛化能力差,而且會引入色差效應。
為了解決這些問題,我們提出了一個端到端 圖像著色用雙解碼器方法。我們的方法包括一個像素解碼器和一個基于查詢的顏色 譯碼器。前者恢復圖像的空間分辨率 而后者則利用豐富的視覺特征進行細化 顏色查詢,從而避免手工制作的先驗
我們兩個解碼器一起工作,以建立之間的相關性 通過交叉注意進行顏色和多尺度語義表征,顯著緩解了顏色出血效應。此外,還引入了一種簡單而有效的色彩損失來增強色彩的豐富度。大量的實驗表明,DDColor在數量上都比現有的最先進的作品具有優越的性能 和定性。
方法
視覺對比。新的著色方法DDColor,能夠產生更自然的著色效果 與現有方法相比,在包含多個對象和不同背景的復雜場景中進行生動的著色。
方法概述
我們提出的模型DDColor以端到端的方式對灰度圖像xL進行著色。我們首先使用骨干網絡提取其特征,然后將其輸入到像素解碼器中以恢復空間結構 圖像的。同時,顏色解碼器對不同尺度的視覺特征進行顏色查詢,學習語義感知的顏色表示
結構
彩色解碼器塊。以圖像特征和顏色查詢作為輸入,顏色解碼器塊建立相關性 通過交叉注意、自我注意和前饋操作在語義和顏色表征之間進行。
簡而言之,DDColor使用多尺度視覺特征來優化可學習的顏色標記(即顏色查詢),并在自動圖像著色上實現最先進的性能。
實驗
DDColor可以為歷史黑白老照片提供生動自然的著色。
它甚至可以對動畫游戲中的風景進行著色/重新著色,將您的動畫風景轉變為現實生活中的風格!
總結
在這項工作中,我們提出了一種端到端圖像著色方法。DDColor的關鍵在于兩個解碼器的設計:顏色解碼器,它通過使用基于查詢的轉換器來學習語義感知的顏色查詢產生多尺度視覺特征以優化顏色查詢。我們的方法在這兩方面都超越了以前的方法性能和生成現實和語義一致的著色的能力。