1步碾壓250步!何愷明新作祭出MeanFlow,一行公式讓 FID 狂降近 70%
2025 年 5 月的一篇論文中,何愷明與 CMU、MIT 聯(lián)合團(tuán)隊(duì)提出了一種全新的一步生成框架 MeanFlow。
圖片
論文標(biāo)題是:《Mean Flows for One-step Generative Modeling》。從論文的實(shí)驗(yàn)曲線來看,只跑1 步,圖像質(zhì)量居然能甩開跑 250 步的老牌擴(kuò)散模型(2021 年前后的經(jīng)典擴(kuò)散模型,如 ADM)。
這篇論文給一度陷入瓶頸的“一步生成”領(lǐng)域重新點(diǎn)燃了希望:作者們將傳統(tǒng) Flow Matching 中“瞬時(shí)速度”視角,替換成“平均速度”視角,一舉把 ImageNet 256×256 的單次前向生成 FID 做到 3.43,較此前最佳 Shortcut-XL 的 10.60 提升近 70% 。
忍不住感嘆:從 ResNet 到 Faster R-CNN,再到今天的 MeanFlow,何愷明這位「卷王」依舊在用最底層的思路改寫上層玩法。
1.一條隱藏多年的“支流”
2015 年,GAN 讓“自動(dòng)造圖”第一次進(jìn)入公眾視野,但訓(xùn)練不穩(wěn)定,像一條湍急的河。2020 年,DDPM 把隨機(jī)噪聲反推回清晰圖像,用上百步“蹚河”,穩(wěn),卻慢。2023 年,Consistency Model 把河道分成十幾段,研究員們開始想:能不能一步就上岸?
問題卡在“速度場(chǎng)”——以往 Flow Matching 追的是瞬時(shí)速度,像每一幀都按下快門;Consistency 強(qiáng)行讓不同時(shí)間的輸出對(duì)齊,訓(xùn)練要靠“小步→大步”。
平均流的靈感很樸素:真正決定終點(diǎn)的,是位移而不是瞬時(shí)速度。
論文用一道看似中學(xué)物理的恒等式把“平均速度—瞬時(shí)速度—時(shí)間導(dǎo)數(shù)”連在一起,給網(wǎng)絡(luò)一個(gè)可微、閉合的目標(biāo)。
回到連續(xù)動(dòng)力系統(tǒng)視角,數(shù)據(jù)分布與先驗(yàn)噪聲之間存在一條流場(chǎng) v(z,t) (瞬時(shí)速度);而從時(shí)刻 r 走到 t 的平均速度可寫為:
圖片
作者推導(dǎo)出一個(gè)MeanFlow 恒等式:
圖片
對(duì)等式兩邊關(guān)于 t 求導(dǎo),并將 r視為與 t 無關(guān)的量,從而得到:
圖片
其中,左邊的運(yùn)算使用了乘積法則,而右邊則運(yùn)用了微積分基本定理。整理各項(xiàng)后,我們得到以下恒等式:
圖片
這條恒等式把可積分但難顯式計(jì)算的平均速度,轉(zhuǎn)換成了“瞬時(shí)速度 + 一階導(dǎo)數(shù)”這樣的可監(jiān)督目標(biāo),從而擺脫了課程學(xué)習(xí)和蒸餾。于是, MeanFlow 在 ImageNet 256 × 256 上用 1-NFE 拿到 3.43 FID,直接把最佳記錄砍掉近七成。
圖注:MeanFlow:訓(xùn)練流程
2.為什么只改“一行公式”,就能把整條河道打直?
如果把 DDPM 的 250 步想象成在激流里踩 250 塊石頭,MeanFlow 的做法是:直接把河底拓平,然后告訴你水面在哪——一步就能蹚過去。這聽上去像魔法,可推導(dǎo)其實(shí)就三件事:
第一,承認(rèn)“平均速度”才是終點(diǎn)位移的真正代言人;第二,用那條中學(xué)物理恒等式,把平均速度拆解成“瞬時(shí)速度+一階導(dǎo)數(shù)”;第三,把一階導(dǎo)數(shù)塞進(jìn) Jacobian-vector-product,反向傳播只比普通卷積慢 20%。
訓(xùn)練端多掏 20% 計(jì)算,推斷端卻省下 249 次前向。更妙的是,恒等式天生閉合,不需要 Consistency Model 那種“小步→大步”的課程學(xué)習(xí),也省掉了蒸餾的大模型教師。網(wǎng)絡(luò)一旦收斂,就等于把整條時(shí)間軸折疊進(jìn)了權(quán)重里。
實(shí)驗(yàn)階段,論文作者把 Base、Large、XL 三個(gè)尺寸統(tǒng)統(tǒng)跑了一遍:
- Base/2 版只用 12 B 參數(shù),1-NFE 就把 FID 打到 5.1,比同級(jí)的 Consistency 好一個(gè)身位;
- 換成 XL/2,跑 240 epoch 后,F(xiàn)ID 滑到 3.43;
- 把 NFE 開到 2 并把訓(xùn)練拉滿 1000 epoch,成績(jī)甚至追平了 DiT-XL 在 250-step 時(shí)的 2.27。
圖注:MeanFlow模型在ImageNet 256×256數(shù)據(jù)集上的可擴(kuò)展性表現(xiàn)。
把文中的公開數(shù)據(jù)拉出來橫向算一遍,會(huì)發(fā)現(xiàn):在 1-NFE 場(chǎng)景里,把模型從 B/2 升級(jí)到 XL/2 往往比把同一尺寸的步數(shù)從 1 增加到 2 帶來的收益更大;而長(zhǎng)訓(xùn)版 XL/2+ 的 2-NFE FID 2.20 已經(jīng)略低于 DiT-XL 在 250-step 時(shí)的 2.27。結(jié)論還不算板上釘釘,但至少說明:在端側(cè)部署的硬算力預(yù)算里,“堆參數(shù)”有時(shí)比“堆步數(shù)”見效更快。
當(dāng)然,MeanFlow 也沒到“一統(tǒng)江湖”的時(shí)刻。最大的問題有三樁:
- 骨干挑食:論文全程抱著 DiT-style ViT 不放,UNet 在高分辨率下會(huì)不會(huì)“找不到河道”還沒人驗(yàn)證;
- 軌跡彎曲:如果數(shù)據(jù)流形像阿爾卑斯山脈一樣迂回,一步把山脈攤平成平原也許會(huì)扭曲細(xì)節(jié),adaptive-NFE 該怎么做還是空白;
- VAE 依賴:高分辨率生成目前得先把圖像壓進(jìn) latent,再解碼回來,這條“先壓后打”的管道仍舊是瓶頸。
但就像 2015 年沒人敢想 GAN 能畫 4K,2025 年的“一步生成”也剛剛發(fā)軔。平均速度這條支流,一旦被捅開,就很難再被堵回去。接下來你大概率會(huì)看到兩股風(fēng)潮:
一是 “快速物理”。氣候模擬、湍流預(yù)測(cè)都在求一條從噪聲到穩(wěn)態(tài)的最短路徑,MeanFlow 的數(shù)學(xué)骨骼天然契合;
二是 “巴掌模型”。有人已經(jīng)在把平均速度塞進(jìn) LoRA、Adapter 里,試圖用十幾個(gè) million 的參數(shù)卷出可商用的端側(cè)版本。
論文:https://arxiv.org/abs/2505.13447https://mlg.eng.cam.ac.uk/blog/2024/01/20/flow-matching.html