何愷明團隊又發新作： MeanFlow單步圖像生成SOTA，提升達50%

2025-05-21 13:53:49

本文提出了一種名為 MeanFlow 的理論框架，用于實現單步生成任務。其核心思想是引入一個新的 ground-truth 場來表示平均速度，而不是流匹配中常用的瞬時速度。

這段時間，大神何愷明真是接連不斷地發布新研究。

這不，5 月 19 日，他又放出一篇新作！作者團隊來自 CMU 以及 MIT。

論文標題：Mean Flows for One-step Generative Modeling
論文地址：https://arxiv.org/pdf/2505.13447v1

文章提出了一種名為 MeanFlow 的單步生成建模框架，通過引入平均速度（average velocity）的概念來改進現有的流匹配方法，并在 ImageNet 256×256 數據集上取得了顯著優于以往單步擴散 / 流模型的結果，FID 分數達到 3.43，且無需預訓練、蒸餾或課程學習。

生成模型旨在將先驗分布轉換為數據分布。流匹配提供了一個直觀且概念簡單的框架，用于構建將一個分布傳輸到另一個分布的流路徑。流匹配與擴散模型密切相關，但關注的是引導模型訓練的速度場。自引入以來，流匹配已在現代生成模型中得到廣泛應用。

文章提出使用平均速度（在時間間隔內的位移與時間的比值）來代替流匹配中通常建模的瞬時速度。然后本文推導出平均速度與瞬時速度之間存在一個內在的關系，從而作為指導網絡訓練的原則性基礎。

基于這一基本概念，本文訓練了一個神經網絡來直接建模平均速度場，并引入損失函數來獎勵網絡滿足平均速度和瞬時速度之間的內在關系。

本文進一步證明，該框架可以自然地整合無分類器引導（CFG），并且在采樣時無需額外成本。

MeanFlow 在單步生成建模中表現出了強大的性能。在 ImageNet 256×256 數據集上，僅使用 1-NFE（Number of Function Evaluations）就達到了 3.43 的 FID 分數。這一結果顯著優于之前同類方法的最佳水平，相對性能提升達到 50% 到 70%（見圖 1）。