擴散模型去偽求真，Straightness Is Not Your Need？！

作者：思悥 2024-10-16 10:20:00

這篇文章探討了基于rectified flow和flow-matching的擴散模型在生成領域的應用，并指出了對這些模型的常見誤解。文章通過對比不同的擴散模型形式，如variance preserving (VP)、variance exploding (VE)和flow-matching，闡明了flow-matching只是一般擴散模型的一個特例，并非本質上更優越。

23年以來，基于rectified flow[1]和flow-matching[2]的擴散模型在生成領域大展異彩，許多基于flow-matching的模型和文章如雨后春筍般涌現，仿佛“直線”已經成為一種政治正確。

該blog的動機，是源于網絡平臺，諸如知乎，小紅書，乃至許多論文中都出現了很多對于rectified flow (flow-matching) 的錯誤理解和解讀。本文希望能夠提供一個相對合理的視角來重新思考關于rectified flow相關的話題，拋磚引玉。

該blog基于最近的論文：

Rectified Diffusion: Straightness is Not Your Need

單位: MMLab-CUHK, Peking University, Princeton University

https://arxiv.org/pdf/2410.07303

https://github.com/G-U-N/Rectified-Diffusion/tree/master

https://huggingface.co/wangfuyun/Rectified-Diffusion

直觀對比，FMs和一般的DMs有本質區別嗎？

以這種視角我們看到，flow-matching，它只是general 擴散模型表達式的一種特例，他并不比其他的形式包括VP, VE, Sub-VP更加特殊。要說為什么有很多文章諸如sd3，flow-matching等文章中的效果要比其他form好，我個人認為更多是超參數導致的問題，例如如何分配時間的采樣，時間t的weigthing，還有prediction type的差異等等。論文中通常為了表現自己方法的優越性，都會對自己的方法進行比較精細的超參數搜索。而對于一種diffusion form的最優超參數設置，未必適用于其他的diffusion forms。

FMs的軌跡真的直嗎？

Rectified Flow是怎么讓軌跡變直的？

通讀rectified flow[1] [8] [9]的相關文章，我們可以看到rectified flow相較于一般的DDPM，主要有三點核心的觀點：

Rectified flow的采樣軌跡，只有在執行了多次（一次）的rectification的操作之后，才會慢慢的變為直線，這也正是rectified flow中實現單步生成的重要操作。

Rectified flow包括后續的諸多工作，都強調Rectification這個操作，僅適用于flow-matching形式的diffusion模型。也就是說他們認為前兩點~(1和2)是采用Rectification并實現采樣加速的的基礎，并強調修正過程（Rectification）將ODE路徑“拉直”。如果是其他的diffusion forms，如VP, VE, sub-VP[6]等，則無法采用rectification的操作來實現加速。

這就導致，在InstaFlow[10]中 (Rectified Flow的后續工作，其作者嘗試將rectified flow拓展到stable diffusion上的文生圖任務)，rectified flow的作者使用stable diffusion的原始權重初始化，但是將SD轉變為flow-matching的form，并采用v-prediction來進行重新訓練。

所以，rectified flow中的這種觀點真的正確嗎？在加速sd的過程中，真的有必要首先將其轉化為flow-matching的形式和v-prediction嗎? Flow-matching的diffusion form真的顯著比別的形式好嗎？

Recfified Diffusion: 本質是使用配對的噪聲樣本對重訓練。

Flow-matching Training是標準diffusion training的子集。此外，算法2 可視化了更一般的擴散模型的訓練過程，與算法1的差異以藍色和橙色標出。值得注意的是，流匹配是我們討論的擴散形式的一個特殊情況。從算法中可以看出，它們之間的唯一區別在于擴散形式和預測類型。因此，流匹配訓練只是特定擴散形式和預測類型下的標準擴散訓練的特殊情況。

通過比較算法2 和算法3 與算法1，可以自然而然的推導出算法4。本質上，通過引入預訓練模型來收集噪聲-樣本對，并在標準的擴散訓練中用這些預先收集的配對替換隨機采樣的噪聲和真實樣本，我們就得到了Rectified Diffusion的訓練算法。