擴散模型去偽求真,Straightness Is Not Your Need?!
23年以來,基于rectified flow[1]和flow-matching[2]的擴散模型在生成領域大展異彩,許多基于flow-matching的模型和文章如雨后春筍般涌現,仿佛“直線”已經成為一種政治正確。
該blog的動機,是源于網絡平臺,諸如知乎,小紅書,乃至許多論文中都出現了很多對于rectified flow (flow-matching) 的錯誤理解和解讀。本文希望能夠提供一個相對合理的視角來重新思考關于rectified flow相關的話題, 拋磚引玉。
該blog基于最近的論文:
Rectified Diffusion: Straightness is Not Your Need
單位: MMLab-CUHK, Peking University, Princeton University
https://arxiv.org/pdf/2410.07303
https://github.com/G-U-N/Rectified-Diffusion/tree/master
https://huggingface.co/wangfuyun/Rectified-Diffusion
直觀對比,FMs和一般的DMs有本質區別嗎?
以這種視角我們看到,flow-matching,它只是general 擴散模型表達式的一種特例,他并不比其他的形式包括VP, VE, Sub-VP更加特殊。要說為什么有很多文章諸如sd3,flow-matching等文章中的效果要比其他form好,我個人認為更多是超參數導致的問題,例如如何分配時間的采樣,時間t的weigthing,還有prediction type的差異等等。論文中通常為了表現自己方法的優越性,都會對自己的方法進行比較精細的超參數搜索。而對于一種diffusion form的最優超參數設置,未必適用于其他的diffusion forms。
FMs的軌跡真的直嗎?
Rectified Flow是怎么讓軌跡變直的?
通讀rectified flow[1] [8] [9]的相關文章,我們可以看到rectified flow相較于一般的DDPM,主要有三點核心的觀點:
Rectified flow的采樣軌跡,只有在執行了多次(一次)的rectification的操作之后,才會慢慢的變為直線,這也正是rectified flow中實現單步生成的重要操作。
Rectified flow包括后續的諸多工作,都強調Rectification這個操作,僅適用于flow-matching形式的diffusion模型。也就是說他們認為前兩點~(1和2)是采用Rectification并實現采樣加速的的基礎,并強調修正過程(Rectification)將ODE路徑“拉直”。如果是其他的diffusion forms,如VP, VE, sub-VP[6]等,則無法采用rectification的操作來實現加速。
這就導致,在InstaFlow[10]中 (Rectified Flow的后續工作,其作者嘗試將rectified flow拓展到stable diffusion上的文生圖任務),rectified flow的作者使用stable diffusion的原始權重初始化,但是將SD轉變為flow-matching的form,并采用v-prediction來進行重新訓練。
所以,rectified flow中的這種觀點真的正確嗎?在加速sd的過程中,真的有必要首先將其轉化為flow-matching的形式和v-prediction嗎? Flow-matching的diffusion form真的顯著比別的形式好嗎?
Recfified Diffusion: 本質是使用配對的噪聲樣本對重訓練。
Flow-matching Training是標準diffusion training的子集。此外,算法2 可視化了更一般的擴散模型的訓練過程,與算法1的差異以藍色和橙色標出。值得注意的是,流匹配是我們討論的擴散形式的一個特殊情況。從算法中可以看出,它們之間的唯一區別在于擴散形式和預測類型。因此,流匹配訓練只是特定擴散形式和預測類型下的標準擴散訓練的特殊情況。
通過比較算法2 和算法3 與算法1,可以自然而然的推導出算法4。本質上,通過引入預訓練模型來收集噪聲-樣本對,并在標準的擴散訓練中用這些預先收集的配對替換隨機采樣的噪聲和真實樣本,我們就得到了Rectified Diffusion的訓練算法。
訓練目標是軌跡一階化
一階ODE與預定義擴散形式具有相同的形式
一階化軌跡可能是彎曲的
實驗驗證
我們進行了廣泛的實驗驗證和方法對比,我們的方法取得了一致超越rectified flow相關方法的性能,并且與最先進的蒸餾加速算法[11] [12]也取得了comparable的結果。
最后歡迎大家關注我們的論文: