圖像超分辨新SOTA!南洋理工提出InvSR,利用大模型圖像先驗提高SR性能,登上Huggingface熱門項目
南洋理工大學的研究者們提出了一種基于擴散反演的新型圖像超分辨率 (SR) 技術,可以利用大型預訓練擴散模型中蘊含的豐富圖像先驗來提高 SR 性能。
該方法的核心是一個深度噪聲預測器,用于估計前向擴散過程的最佳噪聲圖。一旦訓練完成,這個噪聲預測器就可以用來初始化沿擴散軌跡的部分采樣過程,從而生成理想的高分辨率結果。
相關鏈接
- 論文:https://arxiv.org/pdf/2412.09013
- 代碼:https://github.com/zsyOAOA/InvSR
- 主頁:https://replicate.com/zsyoaoa/invsr
- 試用:https://huggingface.co/spaces/OAOA/InvSR
論文介紹
在兩個真實示例中,論文提出的方法與最近最先進的基于擴散的方法進行了定性比較,其中采樣步驟數以“方法名稱-步驟”格式注釋。在第一個示例的子標題中以紅色突出顯示了運行時間(以毫秒為單位),該示例在 A100 GPU 上的 ×4(128 → 512)SR 任務上進行了測試。該方法提供了一種高效靈活的采樣機制,允許用戶根據降級類型或其特定要求自由調整采樣步驟數。在第一個示例中,主要因模糊而降級,多步采樣優于單步采樣,因為它可以逐步恢復更精細的細節。相反,在第二個具有嚴重噪聲的示例中,單個采樣步驟足以獲得令人滿意的結果,而額外的步驟可能會放大噪聲并引入不必要的偽影。
方法介紹
提出的方法的推理流程,其中 {τi}Si=1表示反演時間步長。請注意,預測的噪聲圖zτS 與 LR 圖像表現出明顯的相關性,表明其統計分布具有非零均值特性。
效果展示
真實世界圖像超分辨率
AIGC 圖像增強
不同方法對 RealSet80 數據集中兩個典型真實示例的視覺結果。為了清晰比較,對于基于擴散的方法,采樣步驟數以“方法名稱-步驟”格式注釋。
限制
InvSR 需要進行平鋪操作來生成高分辨率圖像,這將大大增加推理時間。 由于 InvSR 的生成特性,有時無法保持 100% 的保真度。 InvSR 有時無法在復雜的現實場景下生成完美的細節。
結論
論文提出了一種基于擴散反演的新型 SR 方法 InvSR。該方法引入了一個噪聲預測網絡,旨在估計最佳噪聲圖,從而能夠構建預訓練擴散模型的中間狀態作為起始采樣點。這種設計在兩個方面很有吸引力:首先,InvSR 可以充分利用預訓練擴散模型中封裝的先驗知識,從而促進 SR 性能。其次,InvSR 提供了一種靈活的采樣策略,能夠通過結合噪聲預測器的時間相關架構從擴散模型的各種中間狀態開始。這種靈活性允許用戶根據退化類型或其特定要求自由調整采樣步驟。即使將采樣步驟減少到只有一個,InvSR 仍然表現出比最近的一步基于擴散的方法顯著的優勢,表明其有效性和效率。