10×加速!DCM顯著提升視頻擴(kuò)散模型推理效率!HunyuanVideo13B推理時(shí)間從1500秒縮短至120秒!
本文由南京大學(xué),香港大學(xué),上海人工智能實(shí)驗(yàn)室,中國(guó)科學(xué)院大學(xué)與南洋理工大學(xué) S-Lab 聯(lián)合完成。
擴(kuò)散模型在視頻合成任務(wù)中取得了顯著成果,但其依賴(lài)迭代去噪過(guò)程,帶來(lái)了巨大的計(jì)算開(kāi)銷(xiāo)。盡管一致性模型(Consistency Models)在加速擴(kuò)散模型方面取得了重要進(jìn)展,直接將其應(yīng)用于視頻擴(kuò)散模型卻常常導(dǎo)致時(shí)序一致性和外觀細(xì)節(jié)的明顯退化。
本文通過(guò)分析一致性模型的訓(xùn)練動(dòng)態(tài),發(fā)現(xiàn)蒸餾過(guò)程中存在一個(gè)關(guān)鍵的沖突性學(xué)習(xí)機(jī)制:在不同噪聲水平的樣本上,優(yōu)化梯度和損失貢獻(xiàn)存在顯著差異。這種差異使得蒸餾得到的學(xué)生模型難以達(dá)到最優(yōu)狀態(tài),最終導(dǎo)致時(shí)序一致性受損、畫(huà)面細(xì)節(jié)下降。
為解決這一問(wèn)題,本文提出了一種參數(shù)高效的雙專(zhuān)家一致性模型(Dual-Expert Consistency Model, DCM):其中 Semantic Expert 負(fù)責(zé)學(xué)習(xí)語(yǔ)義布局和運(yùn)動(dòng)信息,Detail Expert 則專(zhuān)注于細(xì)節(jié)的合成。此外,引入了 Temporal Coherence Loss 以增強(qiáng)語(yǔ)義專(zhuān)家的運(yùn)動(dòng)一致性,并引入 GAN Loss 與 Feature Matching Loss 以提升細(xì)節(jié)專(zhuān)家的合成質(zhì)量。
DCM 在顯著減少采樣步數(shù)的同時(shí),仍能達(dá)到當(dāng)前相當(dāng)?shù)囊曈X(jué)質(zhì)量,驗(yàn)證了雙專(zhuān)家機(jī)制在視頻擴(kuò)散模型蒸餾中的有效性。
- 論文標(biāo)題:DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
- 論文地址:https://arxiv.org/pdf/2506.03123
- 代碼地址:https://github.com/Vchitect/DCM
- 項(xiàng)目主頁(yè):https://vchitect.github.io/DCM
為什么一致性蒸餾在視頻生成上表現(xiàn)不佳?
擴(kuò)散模型在圖像和視頻生成中表現(xiàn)出令人印象深刻的性能。然而,擴(kuò)散模型迭代采樣的性質(zhì)和規(guī)模逐漸增長(zhǎng)的去噪 transformer 網(wǎng)絡(luò),給推理過(guò)程帶來(lái)了繁重的計(jì)算代價(jià)。
為了緩解這個(gè)問(wèn)題,一致性蒸餾通過(guò)減少采樣步數(shù),降低推理時(shí)延。它通過(guò)訓(xùn)練一個(gè) student 模型學(xué)習(xí)直接映射采樣軌跡上任意一個(gè)點(diǎn)到相同的解點(diǎn),以滿足 self-consistency 性質(zhì),進(jìn)而提升少步推理結(jié)果的視覺(jué)質(zhì)量。盡管支持少步采樣,它在復(fù)雜的視頻合成中往往難以保證視覺(jué)質(zhì)量,容易出現(xiàn)布局錯(cuò)亂、運(yùn)動(dòng)不自然以及細(xì)節(jié)降質(zhì)等問(wèn)題。
通過(guò)對(duì)推理過(guò)程的分析可以發(fā)現(xiàn),相鄰時(shí)間步的去噪結(jié)果在推理早期差異顯著,而在后期變得更加緩慢和平滑。這是因?yàn)橥评碓缙谥饕P(guān)注于合成語(yǔ)義,布局和運(yùn)動(dòng)這些相對(duì)低頻的特征成分,而在推理后期更加強(qiáng)調(diào)細(xì)節(jié)的合成。
這表明,在蒸餾過(guò)程中,student 模型在高噪聲和低噪聲訓(xùn)練樣本中學(xué)習(xí)不同的模式,可能表現(xiàn)出不同的 learning dynamics。通過(guò)可視化蒸餾過(guò)程中一致性損失和損失梯度在高噪聲樣本和低噪聲樣本上的趨勢(shì)變化,可以看到,它們表現(xiàn)出顯著的差異,這表明聯(lián)合蒸餾一個(gè) student 模型可能會(huì)引入優(yōu)化的干擾,從而導(dǎo)致次優(yōu)的視覺(jué)質(zhì)量。
Dual-Expert 一致性模型:優(yōu)化解耦與輕量高效設(shè)計(jì)
為了解耦蒸餾過(guò)程,本文首先根據(jù)推理過(guò)程中的去噪結(jié)果的變化趨勢(shì)將 ODE 解軌跡分為兩段:語(yǔ)義合成階段和細(xì)節(jié)合成階段。然后分別為兩個(gè)階段訓(xùn)練兩個(gè) Expert Denoiser,SemE 和 DetE,以滿足對(duì)應(yīng)階段的 self-consistency 性質(zhì)。在推理時(shí),基于樣本的噪聲水平動(dòng)態(tài)地選擇 SemE 或者 DetE 作為去噪網(wǎng)絡(luò)。這種方式雖然獲得了更好的視覺(jué)質(zhì)量,但是也帶來(lái)了雙倍的參數(shù)代價(jià),更大的內(nèi)存消耗。
為了提升參數(shù)效率,進(jìn)一步分析了兩個(gè) Expert Denoisers 之間的參數(shù)差異,發(fā)現(xiàn)它們主要存在于 embedding layers 和 attention layers 中。基于此,本文設(shè)計(jì)了一種參數(shù)高效的 Dual-Expert 一致性模型,具體來(lái)說(shuō),首先在語(yǔ)義合成軌跡上訓(xùn)練語(yǔ)義合成專(zhuān)家 SemE,然后凍結(jié)它,并引入一套新的 embedding layers 和一個(gè) LoRA。在細(xì)節(jié)合成軌跡上微調(diào)和更新這些新添加的參數(shù)。通過(guò)這種方式,解耦了兩個(gè) Expert Denoisers 的優(yōu)化過(guò)程,并且僅僅引入了少量的額外參數(shù),實(shí)現(xiàn)了相當(dāng)?shù)囊曈X(jué)質(zhì)量。
此外,考慮到兩個(gè) Expert Denoisers 不同的 training dynamics,在一致性損失的基礎(chǔ)上,為語(yǔ)義合成專(zhuān)家 SemE 額外引入了 Temporal Coherence 損失,以捕獲幀間運(yùn)動(dòng)變化。為了增強(qiáng) DetE 的細(xì)節(jié)合成質(zhì)量,為 DetE 引入了生成對(duì)抗損失和 Feature Matching 損失。
DCM 性能表現(xiàn):10x 加速,相當(dāng)視覺(jué)質(zhì)量
為了驗(yàn)證 DCM 的有效性,本文在 HunyuanVideo,CogVideoX 和 WAN2.1 上進(jìn)行了實(shí)驗(yàn)。如下表所示,在 4 步生成下,DCM 在實(shí)現(xiàn)了超過(guò) 10x 加速 (1504.5→121.52) 的同時(shí),獲得了與原始 50 步采樣相當(dāng)?shù)?Vbench 得分(83.83%→83.86%),顯著超過(guò) LCM 和 PCM 的表現(xiàn)。
下圖展示了 DCM 與原始模型、LCM 和 PCM 生成視頻的對(duì)比。可以看到,在減少推理步數(shù)的同時(shí),DCM 依然能夠保持較高的語(yǔ)義質(zhì)量和細(xì)節(jié)質(zhì)量。
結(jié)語(yǔ)
本文指出,當(dāng)前視頻合成中的一致性蒸餾存在一個(gè)關(guān)鍵的優(yōu)化沖突:在不同噪聲水平的訓(xùn)練樣本上,優(yōu)化梯度和損失貢獻(xiàn)存在顯著差異。將整個(gè) ODE 軌跡壓縮到一個(gè)單一的學(xué)生模型中,會(huì)導(dǎo)致這些因素難以平衡,從而造成生成結(jié)果的降質(zhì)。為了解決這一問(wèn)題,本文提出了一種參數(shù)高效的雙專(zhuān)家蒸餾框架(Dual-Expert Distillation Framework),通過(guò)將語(yǔ)義學(xué)習(xí)與細(xì)節(jié)精修解耦,實(shí)現(xiàn)更合理的建模。此外,引入了 Temporal Coherence Loss 來(lái)增強(qiáng)語(yǔ)義專(zhuān)家的運(yùn)動(dòng)一致性,并為細(xì)節(jié)專(zhuān)家引入 GAN Loss 和 Feature Matching Loss,以提升細(xì)節(jié)合成質(zhì)量。DCM 在顯著減少采樣步數(shù)的同時(shí),仍能達(dá)到當(dāng)前相當(dāng)?shù)囊曈X(jué)效果,展現(xiàn)了專(zhuān)家分工機(jī)制在視頻擴(kuò)散模型蒸餾中的有效性。