成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

南洋理工&普渡大學提出CFG-Zero*:在Flow Matching模型中實現更穩健的無分類器引導方法

人工智能 新聞
南洋理工大學 S-Lab 與普渡大學的研究者聯合提出了創新方法——CFG-Zero*,針對傳統 CFG 在 Flow Matching 框架下的結構性誤差進行了理論分析,并設計了兩項輕量級但效果顯著的改進機制,使生成圖像/視頻在細節保真度、文本對齊性與穩定性上全面提升。

本篇論文是由南洋理工大學 S-Lab 與普渡大學提出的無分類引導新范式,支持所有 Flow Matching 的生成模型。目前已被集成至 Diffusers 與 ComfyUI。


隨著生成式 AI 的快速發展,文本生成圖像與視頻的擴散模型(Diffusion Models)已成為計算機視覺領域的研究與應用熱點。

近年來,Flow Matching 作為一種更具可解釋性、收斂速度更快的生成范式,正在逐步取代傳統的基于隨機微分方程(SDE)的擴散方法,成為主流模型(如 Lumina-Next、Stable Diffusion 3/3.5、Wan2.1 等)中的核心方案。

然而,在這一技術迭代過程中,一個關鍵問題依然存在:如何在推理階段更好地引導生成過程,使模型輸出更加符合用戶提供的文本描述。

Classifier-Free Guidance(CFG)是當前廣泛采用的引導策略,但其引導路徑在模型尚未充分訓練或估計誤差較大時,容易導致樣本偏離真實分布,甚至引入不必要的偽影或結構崩塌。

對此,南洋理工大學 S-Lab 與普渡大學的研究者聯合提出了創新方法——CFG-Zero*,針對傳統 CFG 在 Flow Matching 框架下的結構性誤差進行了理論分析,并設計了兩項輕量級但效果顯著的改進機制,使生成圖像/視頻在細節保真度、文本對齊性與穩定性上全面提升。

圖片

研究動機:CFG 為何失效?

傳統的 CFG 策略通過對有條件與無條件預測結果進行插值來實現引導。然而在 Flow Matching 模型中,推理過程是通過解常微分方程(ODE)進行的,其每一步依賴于前一步的速度估計。

當模型訓練不足時,初始階段的速度往往較為不準確,而 CFG 此時的引導反而會將樣本推向錯誤軌跡。研究者在高斯混合分布的可控實驗中發現,CFG 在初始步的引導效果甚至不如「靜止不動」,即設速度為 0。

方法介紹

研究者提出了 CFG-Zero*,并引入以下兩項關鍵創新:

圖片

1.優化縮放因子(Optimized Scale):在每個時間步中動態計算有條件速度與無條件速度的內積比值,從而調整 CFG 中無條件項的強度,避免「過度引導」導致的誤差。

2.零初始化(Zero-init):將 ODE 求解器的前 K 步速度置為零(默認 K=1),跳過模型最不可靠的預測階段,有效降低初始誤差傳播。

這兩項策略可無縫集成至現有的 CFG 推理流程中,幾乎不引入額外計算開銷。下面我們具體介紹該方法的細節:

優化縮放因子

首先,CFG 的目標是能夠估計出一個修正的速度,能夠盡可能接近真實速度:

圖片

為了提升引導的精度,研究者引入了一個修正因子 s:

圖片

基于此可以建立優化的目標:

圖片

代入化簡可以得到:

圖片

求解最優值為:

圖片

因此新的 CFG 形式為:

圖片

零初始化

研究者在 2D 多元高斯分布上進行進一步定量分析,可以求解得到擴散過程中每一步的最優速度的 closed-form:

圖片

基于此,他們在訓練了一個模型,并分析訓練不同輪數下模型的誤差,如下圖所示。

圖片

研究者發現在訓練早期階段,無分類引導得到的速度誤差較大,甚至不如將速度設置為 0:

圖片

他們進一步在高維情況下驗證了這一觀察,如下圖所示。

圖片

研究者對比原始 CFG 與僅使用零初始化的 CFG,發現隨著模型的收斂,零初始化的收益逐漸變小,在 160 輪訓練后出現拐點,與多元高斯實驗結果吻合。

實驗結果

研究者在多個任務與主流模型上驗證了 CFG-Zero* 的有效性,涵蓋了文本生成圖像(Text-to-Image)與文本生成視頻(Text-to-Video)兩大方向。

在圖像生成任務中,研究團隊選用了 Lumina-Next、SD3、SD3.5、Flux 等當前 SOTA 模型進行對比實驗,結果顯示 CFG-Zero* 在 Aesthetic Score 與 CLIP Score 兩項核心指標上均優于原始 CFG。

例如在 Stable Diffusion 3.5 上,美學分有明顯提高,不僅圖像美感更強,而且語義一致性更好。在 T2I-CompBench 評測中,CFG-Zero* 在色彩、紋理、形狀等多個維度均取得更優表現,特別適用于需要精準表達復雜語義的生成任務。

在視頻生成任務中,研究者將 CFG-Zero* 集成到 Wan2.1 模型中,評估標準采用 VBench 基準套件。結果表明,改進后的模型在 Aesthetic Quality、Imaging Quality、Motion Smoothness 等方面均有所提升,呈現出更連貫、結構更穩定的視頻內容。CFG-Zero* 有效減少了圖像跳變與不自然的位移問題。

圖片

實際測試

CFG-Zero* 在開源社區中實現了快速落地。目前,該方法已正式集成至 ComfyUI 與 Diffusers 官方庫,并被納入視頻生成模型 Wan2.1GP 的推理流程。借助這些集成,普通開發者與創作者也能輕松體驗該方法帶來的畫質與文本對齊提升。

圖片

該方法可以用于圖生視頻。我們使用官方的 repo 用這張測試圖:

輸入 prompt:「Summer beach vacation style. A white cat wearing sunglasses lounges confidently on a surfboard, gently bobbing with the ocean waves under the bright sun. The cat exudes a cool, laid-back attitude. After a moment, it casually reaches into a small bag, pulls out a cigarette, and lights it. A thin stream of smoke drifts into the salty breeze as the cat takes a slow drag, maintaining its nonchalant pose beneath the clear blue sky.」

得到的視頻如下:(第一個為原始 CFG 生成的,第二個為 CFG-Zero* 生成的),效果還是比較明顯,值得嘗試。

圖片

圖片

該方法對 Wan2.1 文生視頻同樣適用:(圖 1 為原始 CFG,圖 2 為 CFG-Zero*)

圖片

圖片

使用的 Prompt:「A cat walks on the grass, realistic.」

該方法同時兼容 LoRA: 

使用的 LoRA 為:https://civitai.com/models/46080?modelVersinotallow=1473682

Prompt:「Death Stranding Style. A solitary figure in a futuristic suit with a large, intricate backpack stands on a grassy cliff, gazing at a vast, mist-covered landscape composed of rugged mountains and low valleys beneath a rainy, overcast sky. Raindrops streak softly through the air, and puddles glisten on the uneven ground. Above the horizon, an ethereal, upside-down rainbow arcs downward through the gray clouds — its surreal, inverted shape adding an otherworldly touch to the haunting scene. A soft glow from distant structures illuminates the depth of the valley, enhancing the mysterious atmosphere. The contrast between the rain-soaked greenery and jagged rocky terrain adds texture and detail, amplifying the sense of solitude, exploration, and the anticipation of unknown adventures beyond the horizon.」

圖片

該方法對最強文生圖模型 Flux 同樣支持:

圖片

使用的 Prompt:「a tiny astronaut hatching from an egg on the moon.」

該方法實現也比較簡單,作者在附錄中直接附上了代碼,如下圖:

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-04-07 07:00:00

模型研究

2025-05-29 09:14:00

AI模型訓練

2013-10-22 10:23:13

Course Sign普渡大學

2024-10-30 09:35:10

自動駕駛模型

2023-10-12 17:27:21

算法AI

2025-02-10 08:40:00

訓練數據模型

2025-01-06 07:15:00

深度學習動態圖異常檢測人工智能

2021-10-12 06:46:12

黑客攻擊信息安全

2024-06-28 18:18:22

2024-02-26 13:51:00

框架Talk2Drive云端

2012-03-20 21:19:50

Android

2025-03-20 10:25:50

2024-11-20 10:00:00

2022-03-18 15:31:29

神經網絡機器學習谷歌

2024-12-19 14:30:00

訓練模型研究

2025-06-03 08:20:00

2024-07-12 12:50:46

2023-04-10 16:34:46

模型文本

2025-02-19 14:10:00

AI3D生成
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品精品久久久久久 | 欧美在线观看免费观看视频 | 国产2区 | 黄色精品 | 国产精品美女久久久久久久久久久 | 奇米久久| 久久久区| 日韩视频―中文字幕 | 麻豆精品久久 | 亚洲一二三区精品 | 久久一区二区三区四区 | 国内精品在线视频 | 久久中文免费视频 | 久久福利电影 | 中文字幕 在线观看 | 国产亚洲一区在线 | 中文字幕a√ | 精品久久久久久亚洲综合网站 | 国产成人综合在线 | 久久国产免费 | 欧美日韩一区二区在线 | 亚洲综合无码一区二区 | 欧美一级观看 | 中文一区 | 久久久视频在线 | 成人在线精品视频 | 日韩美av | 日韩在线| 欧美在线视频网站 | 亚洲视频在线一区 | 久久久久国产精品 | 97国产精品视频人人做人人爱 | 91亚洲国产成人久久精品网站 | 中文字幕av在线 | 全免费a级毛片免费看视频免费下 | 日韩欧美一区二区三区在线播放 | 日韩中文在线视频 | 国产精品高| 成人精品国产 | 日韩激情在线 | 久久久久久国产精品免费免费狐狸 |