OpenAI上新sCM!生成速度提升50倍,Scaling Law 再創奇跡:兩步采樣就出圖,實時視頻時代或將開啟! 原創
傳統擴散模型要過時了?OpenAI找到一種新方法,直接把生成速度提高50倍!
擴散模型在生成式 AI 領域的重要性不言而喻,把生成逼真的圖像、3D 模型、音頻和視頻變為了現實。
但是,擴散模型依然有個致命bug——采樣速度太慢。
OpenAI研究的新方法,被稱為 sCM(連續時間一致性模型)。
sCM 在僅使用兩個采樣步驟的情況下,實現了與領先擴散模型相當的樣本質量。
來感受下 sCM 的速度:
那么sCM為什么這么快呢,我們一起看看。
1.提速50倍:Scaling Law 再次出奇跡
在剛才的實例里,右側蝴蝶逐步清晰,展示了當前擴散模型的能力。
該方法的采樣通常需要數十到數百個連續步驟來生成單個樣本,這限制了它們在實時應用中的效率和可擴展性。
雖然,此前已經開發了各種蒸餾技術來加速采樣,但它們往往伴隨著一些限制,例如高計算成本、復雜的訓練過程和降低的樣本質量。
而sCM則不同,在此前一致性模型的研究基礎上,OpenAI簡化了公式,并進一步穩定了連續時間一致性模型的訓練過程。
不得不說,Scaling Law 還是大力出奇跡。
這個方法一下使得OpenAI研究人員能將連續時間一致性模型的訓練擴展到前所未有的規模!
具體有多大呢?——在 ImageNet 數據集上以 512×512 分辨率處理 15 億參數的模型。
sCM 僅使用兩個采樣步驟就能生成與擴散模型相當的樣本質量,實現了大約 50 倍的時間加速。例如,OpenAI的最大模型(15 億參數)在一塊 A100 GPU 上只需 0.11 秒即可生成一個樣本,而無需任何推理優化。
OpenAI這波太牛了,通過系統優化,這個提速來得迅猛又輕松,感覺再升級的DALL-E 4已經不遠了!
報告還提到,為了進行嚴格的評估,OpenAI研究者通過比較樣本質量(使用標準的 FID 得分,分數越低越好)和有效采樣計算(估算生成每個樣本所需的總計算成本)來對 sCM 與其他最先進的生成模型進行了基準測試。
結果如下所示,兩步 sCM 生成的樣本質量可與最佳的先前方法相媲美,而其有效采樣計算成本不到 10%,大大加快了采樣過程。
圖片
2.工作原理揭秘:為什么一致性模型能提速?
一致性模型與擴散模型不同:擴散模型需要通過大量去噪步驟逐步生成樣本;而一致性模型的目標是在一步中將噪聲直接轉換為無噪聲的樣本。
看圖表會更加直觀,下圖中:藍線代表擴散模型逐步采樣的過程,而紅線則展示了一致性模型更直接、加速的采樣路徑。
通過使用一致性訓練或一致性蒸餾等技術,一致性模型可以被訓練成在顯著減少步驟的情況下生成高質量樣本,這使它們在需要快速生成的實際應用中極具吸引力。
圖片
在研究中,OpenAI團隊在ImageNet 512x512上訓練了一個具有15億參數的連續時間一致性模型,以下是一些兩步采樣結果。
圖片
sCM的訓練方式也很有趣,——偷師擴散模型,即通過從一個預訓練的擴散模型中提取知識得以訓練。
一個重要的發現是,隨著sCM和教師擴散模型的共同擴展,sCM的性能按比例提高。具體來說,樣本質量的相對差異(通過FID分數比率來衡量)在不同規模的模型中保持一致,這導致樣本質量的絕對差異在模型擴展時逐漸減小。此外,增加sCM的采樣步驟進一步縮小了質量差距。值得注意的是,sCM的兩步采樣已經與教師擴散模型的采樣質量相當(相對差異不到10%),而教師擴散模型需要數百步才能生成樣本。
圖片
3.寫在最后:仍有缺陷,仍需探索
從上圖也可以看出,目前最好的sCM仍然依賴于預訓練的擴散模型進行初始化和蒸餾,因此與教師擴散模型相比,樣本質量仍存在小而持續的差距。
此外,報告中寫道,FID作為衡量樣本質量的指標本身也有局限性;接近的FID分數并不總是反映實際的樣本質量,反之亦然。因此,sCM的質量可能需要根據特定應用的需求以不同方式進行評估。
OpenAI表示,將繼續致力于開發具有更快推理速度和更高樣本質量的生成模型,相信這些進展將為實時、高質量生成式AI在廣泛領域中的應用開啟新的可能性。
本文轉載自??51CTO技術棧??????
