ICCV 2025 | 圖像變形新魔法,速度碾壓傳統10-50倍!FreeMorph:任意兩張圖絲滑變身!
論文鏈接:https://arxiv.org/pdf/2507.01953
項目鏈接:https://yukangcao.github.io/FreeMorph/
亮點直擊
- 本FreeMorph—— 一種無需調參、即可實現圖像間方向性和真實過渡的新方法。引入了兩個關鍵創新組件:1)感知引導的球面插值;2)基于步長的變化趨勢。該方法融合兩個分別來源于輸入圖像的自注意力模塊,使過渡過程可控且一致,尊重兩個輸入的特征。
- 設計了一種改進的反向去噪與正向擴散流程,將上述創新組件無縫整合進原始的 DDIM 框架中。
- 構建了一個新的評估數據集,包含四組不同類型的圖像對,按語義和布局相似度分類。FreeMorph 在保持高保真度、生成平滑連貫圖像序列方面顯著優于現有方法,可在30秒內完成圖像變形過程,比 IMPUS 快 50 倍,比DiffMorpher快 10 倍。
效果展示
總結速覽
解決的問題
- 不同語義或布局的圖像難以變形:傳統圖像變形方法在處理語義差異大或布局不同的圖像時效果不佳,難以生成自然、平滑的過渡圖像。
- 現有基于擴散模型的方法依賴微調,成本高:如 IMPUS 和 DiffMorpher 等方法需要對每對圖像進行微調訓練,耗時長(約 30 分鐘),效率低,限制了其實用性。
- 無需調參方法存在質量挑戰:
- 非方向性過渡:傳統球面插值方法在多步去噪過程中容易產生過渡不一致的問題。
- 身份信息丟失:預訓練擴散模型中的偏差會導致生成圖像無法保持輸入圖像的身份特征。
- 缺乏變化趨勢建模:擴散模型本身缺乏表示圖像變化方向的機制,難以實現一致性過渡。
提出的方案
為解決上述問題,提出了 FreeMorph —— 首個無需調參即可實現高質量圖像變形的方法,包含兩個關鍵創新模塊:
- 感知引導的球面插值(Guidance-aware Spherical Interpolation):
- 修改擴散模型中的自注意力模塊,引入輸入圖像的顯式引導信息;
- 聚合來自兩個輸入圖像的 Key 和 Value 特征,確保過渡方向明確;
- 引入先驗驅動的自注意力機制,保留輸入圖像的身份特征,緩解身份丟失問題。
- 基于步長的變化趨勢建模(Step-oriented Variation Trend):
- 在每一步生成過程中,融合兩個輸入圖像的自注意力模塊;
- 建模逐步變化趨勢,實現可控且一致的圖像過渡,尊重兩個輸入的語義和布局特征。
- 改進的去噪與擴散流程:
- 將上述兩個模塊無縫集成進 DDIM 框架中,提升生成質量與效率。
應用的技術
- 擴散模型(Diffusion Models):以 DDIM 為基礎的生成框架;
- 自注意力機制(Self-attention):用于引導圖像特征的融合與身份保持;
- 球面插值(Spherical Interpolation):在潛在空間中實現圖像特征的平滑過渡;
- 先驗驅動注意力(Prior-guided Attention):增強模型對輸入圖像身份的建模能力;
- 無需微調(Tuning-free):避免對每對圖像進行單獨訓練,提升效率與泛化能力。
達到的效果
- 高保真圖像變形:生成圖像在視覺質量、身份保持、語義一致性等方面顯著優于現有方法。
- 顯著提升效率:
- 比 IMPUS 快50倍;
- 比 DiffMorpher 快10倍;
- 每次圖像變形僅需30秒,無需訓練或調參。
- 適應性強:能夠處理語義或布局相似與差異較大的圖像對,適用于多種實際場景。
- 建立新SOTA:在多個評估數據集上實現了當前圖像變形領域的最先進性能(state-of-the-art)。
方法論
在接下來的內容中,首先介紹支撐本文方法的預備知識。隨后,詳細描述 FreeMorph 框架。該框架包含三個主要組成部分:
- 感知引導的球面插值,包括本文提出的球面特征聚合和先驗驅動的自注意力機制;
- 基于步長的變化趨勢,用于實現可控且一致的圖像變形;
- 改進的正向擴散與反向去噪過程。
預備知識
相反,通過對上述公式進行反轉,本文可以推導出正向擴散過程,該過程逐步向圖像中添加噪聲以預測其噪聲狀態:
隱空間擴散模型(LDM)。在 DDIM 的基礎上,隱空間擴散模型(LDM)是一種改進的擴散模型變體,能夠在圖像質量與去噪效率之間實現有效平衡。具體而言,LDM 利用預訓練的變分自編碼器(VAE)將圖像映射到隱空間中,并在該空間內訓練擴散模型。此外,LDM 通過引入自注意力模塊、交叉注意力層和殘差塊來增強 UNet 架構,以在圖像生成過程中整合文本提示作為條件輸入。LDM 中 UNet 的注意力機制可表示為:
本文的方法基于由 StabilityAI 開發的預訓練 LDM —— Stable Diffusion 模型,并使用視覺-語言模型(VLM)LLaVA 為輸入圖像生成描述。
感知引導的球面插值
先驗驅動的自注意力機制。雖然本文的特征融合技術在圖像變形中顯著提升了身份保持,但本文發現,在正向擴散和反向去噪階段統一使用該方法,可能會導致圖像序列變化極小,無法準確表現輸入圖像(見下圖 6)。這一結果是預期中的,因為潛在噪聲在反向去噪過程中會產生較大影響,如下圖 3 所示。因此,應用本文在公式 5 中描述的特征融合方法時,會引入模糊性,因為來自輸入圖像的一致且強約束導致每個潛在噪聲 顯得相似,從而限制了過渡效果的表現力。
為了解決這一問題,本文進一步提出了一種先驗驅動的自注意力機制,該機制優先利用球面插值得到的潛在特征,以確保潛在噪聲中的平滑過渡,同時強調輸入圖像以在后續階段保持身份信息。具體而言,在反向去噪階段,本文使用公式 5 中描述的方法,而在正向擴散步驟中,本文通過修改自注意力模塊,采用如下不同的注意力機制:
詳見下文關于該設計的消融實驗。
面向步驟的變化趨勢
正向擴散與反向去噪過程
實驗
本文在多種場景下評估了 FreeMorph 的性能,將其與最先進的圖像變形技術進行比較,并通過消融實驗突出本文提出組件的有效性。
評估數據集。 DiffMorpher 引入了 MorphBench,其中包含 24 對動畫和 66 對圖像,主要是具有相似語義或布局的圖像。為補充該數據集并減輕潛在偏差,本文引入了 Morph4Data,這是一組新策劃的評估數據集,包含四個類別:
- Class-A:包含 25 對圖像,具有相似布局但語義不同,來源于 Wang 和 Golland;
- Class-B:包含具有相似布局和語義的圖像對,包括來自 CelebA-HQ 的 11 對人臉和 10 對不同類型的汽車;
- Class-C:包含 15 對從 ImageNet-1K 隨機采樣的圖像對,無語義或布局相似性;
- Class-D:包含 15 對從網絡上隨機采樣的狗和貓圖像。
定量評估
按照 IMPUS 和 DiffMorpher 的方法,本文使用以下指標進行了定量比較:
- Frechet Inception Distance (FID),用于評估輸入圖像與生成圖像分布之間的相似性;
- Perceptual Path Length (PPL),計算相鄰圖像之間的 PPL 損失之和;
- Learned Perceptual Image Patch Similarity (LPIPS),本文也對相鄰圖像之間的值求和,以評估生成過渡的平滑性和連貫性。
結果詳見下表 1,顯示本文的方法在兩個數據集上均表現出更高的保真度、平滑性和直接性。
用戶研究 為了通過引入人類偏好增強本文的對比分析,進行了用戶研究。招募了30名志愿者,包括動畫師、AI專家和年齡在20至35歲之間的游戲愛好者,來選擇他們偏好的結果。每位參與者被展示了50對隨機的對比結果。這些結果展示在下表2中,表明本文提出方法的主觀有效性。需要注意的是,slerp 表示僅應用球面插值的方法。
定性評估*
定性結果。 在上圖1和上圖4中,展示了由 FreeMorph 生成的廣泛結果,這些結果持續展示了其生成高質量和平滑過渡的能力。FreeMorph 在多種場景中表現出色,能夠處理語義和布局不同的圖像,以及具有相似特征的圖像。FreeMorph 還能夠有效處理細微變化,例如顏色不同的蛋糕和表情不同的人物。
定性對比。 在下圖5中提供了與現有圖像變形方法的定性對比。一個有效的圖像變形結果應當展現從源圖像(左)到目標圖像(右)的漸進過渡,同時保留原始身份。基于這一標準,可以得出以下幾點觀察:
- 在處理語義和布局差異較大的圖像時,IMPUS 表現出身份丟失和不平滑的過渡。例如,在圖5的第二個例子中,IMPUS 展現出 (i) 身份丟失,即第三張生成圖像偏離了原始身份,以及 (ii) 第三張和第四張生成圖像之間的突變過渡。
- 盡管 DiffMorpher 相較于 IMPUS 實現了更平滑的過渡,其結果常常表現出模糊和整體質量較低的問題(見圖5第一個例子);
- 本文還評估了一個基線方法“Slerp”,該方法僅應用球面插值和 DDIM 過程。可視化結果表明該基線方法存在以下問題:(i) 由于缺乏顯式引導,難以準確解釋輸入圖像,(ii) 圖像質量不佳,(iii) 過渡突兀。
相比之下,本文方法始終表現出更優的性能,特點是更平滑的過渡和更高的圖像質量。
進一步分析
引導感知球面插值分析。 在上圖6中,本文進行消融實驗以評估所提出的球面特征聚合(公式 5)和先驗驅動的自注意力機制(公式 6)的效果。結果表明,僅使用其中任何一個組件都會導致次優結果。具體來說:
這兩個組件的結合使得 FreeMorph 能夠在有效保持身份的同時生成平滑過渡。通過對比圖6中最后兩行,本文展示了面向步驟的變化趨勢以及特別設計的反向與正向過程的重要性。
反向與正向過程分析。 在下圖7中,本文將本文的方法與兩個變體進行比較:(i) “Ours (Var-A)”,省略原始注意力機制,(ii) “Ours (Var-B)”,在反向與正向過程中交換引導感知球面插值與面向步驟變化趨勢的應用步驟。將這些變體與本文的最終設計進行比較表明:
(i) 原始注意力機制對于實現高保真結果至關重要;
(ii) 本文最終設計中反向與正向過程的特定配置實現了最優性能。
高頻噪聲注入分析。 本文隨后禁用高頻噪聲注入,并在圖8中展示相應的消融研究。結果表明,引入所提出的高頻噪聲注入增強了模型的靈活性,并有助于實現更平滑的過渡。
結論
FreeMorph,一種無需調參的新型流程,能夠在30秒內生成兩個輸入圖像之間的平滑高質量過渡。具體而言,本文通過修改自注意力模塊來引入來自輸入圖像的顯式引導。這是通過兩個新組件實現的:球面特征聚合和先驗驅動的自注意力機制。此外,本文引入了面向步驟的變化趨勢,以確保與兩個輸入圖像一致的方向性過渡。本文還設計了改進的正向擴散和反向去噪過程,以將本文提出的模塊集成到原始的 DDIM 框架中。大量實驗表明,FreeMorph 在各種場景中提供了高保真度的結果,顯著優于現有的圖像變形技術。
本文轉自AI生成未來 ,作者:AI生成未來
