成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一秒十圖!英偉達(dá)MIT聯(lián)手刷新SOTA,一步擴(kuò)散解鎖實(shí)時(shí)高質(zhì)量可控圖像生成

人工智能
SANA-Sprint是一個(gè)高效的蒸餾擴(kuò)散模型,專為超快速文本到圖像生成而設(shè)計(jì)。通過(guò)結(jié)合連續(xù)時(shí)間一致性蒸餾(sCM)和潛空間對(duì)抗蒸餾(LADD)的混合蒸餾策略,SANA-Sprint在一步內(nèi)實(shí)現(xiàn)了7.59 FID和0.74 GenEval的最先進(jìn)性能。SANA-Sprint僅需0.1秒即可在H100上生成高質(zhì)量的1024x1024圖像,在速度和質(zhì)量的權(quán)衡方面樹(shù)立了新的標(biāo)桿。

擴(kuò)散生成模型通常需要50-100次迭代去噪步驟,效率很低,時(shí)間步蒸餾技術(shù)可以極大提高推理效率,「基于分布的蒸餾」方法,如生成對(duì)抗網(wǎng)絡(luò)GAN及其變分分?jǐn)?shù)蒸餾VSD變體,以及「基于軌跡的蒸餾方法」(如直接蒸餾、漸進(jìn)蒸餾、一致性模型)可以實(shí)現(xiàn)10-100倍的圖像生成加速效果。

但仍然存在一些關(guān)鍵難點(diǎn),比如基于GAN的方法由于對(duì)抗動(dòng)態(tài)的振蕩特性和模式坍塌問(wèn)題,訓(xùn)練過(guò)程不穩(wěn)定;基于VSD的方法需要聯(lián)合訓(xùn)練一個(gè)額外的擴(kuò)散模型,增加了計(jì)算開(kāi)銷;一致性模型雖然穩(wěn)定,但在極少數(shù)步驟(例如少于4步)的情況下,生成質(zhì)量會(huì)下降。

如何開(kāi)發(fā)一個(gè)能夠兼顧效率、靈活性和質(zhì)量的蒸餾框架成了模型部署的關(guān)鍵。

圖片圖片

論文地址:https://arxiv.org/pdf/2503.09641

項(xiàng)目主頁(yè):https://nvlabs.github.io/Sana/Sprint/

基于OpenAI提出的連續(xù)時(shí)間一致性模型(sCM)的方法,研究人員提出SANA-Sprint,進(jìn)一步結(jié)合了LADD的對(duì)抗蒸餾技術(shù),幫助模型在蒸餾過(guò)程中更好地保留細(xì)節(jié)信息,從而實(shí)現(xiàn)超快速且高質(zhì)量的文本到圖像生成,同時(shí)避免了離散化帶來(lái)的誤差,保留了傳統(tǒng)一致性模型的優(yōu)勢(shì)。

SANA-Sprint的核心在于其創(chuàng)新的混合蒸餾框架和對(duì)ControlNet的集成,主要貢獻(xiàn)包括:

1.混合蒸餾框架:設(shè)計(jì)了一種新穎的混合蒸餾框架,將預(yù)訓(xùn)練的流匹配模型無(wú)縫轉(zhuǎn)換為TrigFlow模型,集成了連續(xù)時(shí)間一致性模型(sCM)和潛在對(duì)抗擴(kuò)散蒸餾(LADD)。

sCM確保了模型與教師模型的一致性和多樣性保留,而LADD則增強(qiáng)了單步生成的保真度,從而實(shí)現(xiàn)了統(tǒng)一的步長(zhǎng)自適應(yīng)采樣。

圖片圖片

2.卓越的速度/質(zhì)量權(quán)衡:SANA-Sprint僅需1-4步即可實(shí)現(xiàn)卓越的性能。在H100上,SANA-Sprint僅需0.10-0.18秒即可生成1024x1024的圖像,在MJHQ-30K數(shù)據(jù)集上實(shí)現(xiàn)了7.59的FID和0.74的GenEval分?jǐn)?shù),超越了FLUX-schnell(7.94FID/0.71GenEval),速度提升了10倍。

圖片圖片

3.實(shí)時(shí)交互式生成:通過(guò)將ControlNet與SANA-Sprint集成,實(shí)現(xiàn)了在H100上僅需0.25秒的實(shí)時(shí)交互式圖像生成。這為需要即時(shí)視覺(jué)反饋的應(yīng)用(如ControlNet引導(dǎo)的圖像生成/編輯)提供了可能,實(shí)現(xiàn)了更好的人機(jī)交互。

圖片圖片

SANA-Sprint不僅在速度和性能上表現(xiàn)出色,生成的圖像質(zhì)量也非常高。

圖片圖片

SANA-Sprint

SANA-Sprint方法主要包括以下四個(gè)關(guān)鍵步驟:

1. 無(wú)訓(xùn)練轉(zhuǎn)換到TrigFlow

研究人員提出了一種簡(jiǎn)單的方法,通過(guò)直接的數(shù)學(xué)輸入和輸出轉(zhuǎn)換,將預(yù)訓(xùn)練的流匹配模型轉(zhuǎn)換為TrigFlow模型。這使得可以直接使用已有的預(yù)訓(xùn)練模型,無(wú)需額外的TrigFlow模型的訓(xùn)練。

動(dòng)機(jī)是,雖然sCM使用TrigFlow公式簡(jiǎn)化了連續(xù)時(shí)間一致性模型的訓(xùn)練,但大多數(shù)基于分?jǐn)?shù)的生成模型(如擴(kuò)散模型和流匹配模型)并不直接支持TrigFlow。

為了克服這一挑戰(zhàn),SANA-Sprint提出了一種無(wú)需重新訓(xùn)練的轉(zhuǎn)換方法,通過(guò)數(shù)學(xué)變換將流匹配模型轉(zhuǎn)換TrigFlow模型,從而避免了復(fù)雜的額外算法設(shè)計(jì)和額外的計(jì)算成本。

圖片

2. 混合蒸餾策略

混合蒸餾策略結(jié)合了sCM和LADD兩種蒸餾方法。sCM利用TrigFlow的公式簡(jiǎn)化了連續(xù)時(shí)間一致性模型的訓(xùn)練,而LADD則通過(guò)對(duì)抗訓(xùn)練在潛在空間中直接進(jìn)行判別,進(jìn)一步提升了生成質(zhì)量。

3. 穩(wěn)定訓(xùn)練的關(guān)鍵技術(shù)

  • 密集時(shí)間嵌入(Dense Time-Embedding):為了穩(wěn)定連續(xù)時(shí)間一致性模型的訓(xùn)練,SANA-Sprint采用了密集時(shí)間嵌入設(shè)計(jì)。通過(guò)將噪聲系數(shù)圖片調(diào)整為圖片
  • Query-Key歸一化(QK-Normalization):在Transformer模型的自注意力和交叉注意力機(jī)制中引入了RMS歸一化,進(jìn)一步穩(wěn)定了訓(xùn)練過(guò)程,尤其是在大模型和高分辨率場(chǎng)景下。

4. 集成ControlNet

將SANA-Sprint的訓(xùn)練流程應(yīng)用于ControlNet任務(wù),利用圖像和文本提示作為條件,實(shí)現(xiàn)了SANA-ControlNet模型,并通過(guò)蒸餾得到SANA-Sprint-ControlNet,支持實(shí)時(shí)的圖像編輯和生成。

實(shí)驗(yàn)結(jié)果

研究人員采用了兩階段的訓(xùn)練策略,詳細(xì)的設(shè)置和評(píng)估協(xié)議在論文附錄中進(jìn)行了概述。

教師模型通過(guò)剪枝和微調(diào)SANA-1.5 4.8B模型得到,然后使用文中提出的訓(xùn)練范式進(jìn)行蒸餾,使用包括FID、MJHQ-30K上的CLIP Score和GenEval在內(nèi)的指標(biāo)評(píng)估性能。

實(shí)驗(yàn)結(jié)果表明,SANA-Sprint在速度和質(zhì)量方面均達(dá)到了最先進(jìn)的水平。

  • 效率與性能對(duì)比:在4步推理下,SANA-Sprint 0.6B實(shí)現(xiàn)了5.34個(gè)樣本/秒的吞吐量和0.32秒的延遲,F(xiàn)ID為6.48,GenEval為0.76;SANA-Sprint 1.6B 的吞吐量略低(5.20個(gè)樣本/秒),但GenEval提升至0.77,優(yōu)于更大的模型如FLUX-schnell 12B,其吞吐量?jī)H為0.5個(gè)樣本/秒,延遲為2.10秒。
  • 單步生成性能:SANA-Sprint在單步生成方面也表現(xiàn)出色,實(shí)現(xiàn)了7.59的FID和0.74的GenEval分?jǐn)?shù),超越了其他單步生成方法。
  • 實(shí)時(shí)交互式生成:集成ControlNet的SANA-Sprint模型在H100上實(shí)現(xiàn)了約200毫秒的推理速度,支持近乎實(shí)時(shí)的交互。

結(jié)論與展望

SANA-Sprint是一款高效的擴(kuò)散模型,用于超快速的單步文本到圖像生成,同時(shí)保留了多步采樣的靈活性。通過(guò)采用結(jié)合了連續(xù)時(shí)間一致性蒸餾(sCM)和潛在對(duì)抗蒸餾(LADD)的混合蒸餾策略,SANA-Sprint在一步內(nèi)實(shí)現(xiàn)了7.59的FID和0.74的GenEval分?jǐn)?shù),無(wú)需針對(duì)特定步驟進(jìn)行訓(xùn)練。

該統(tǒng)一的步長(zhǎng)自適應(yīng)模型僅需0.1秒即可在H100上生成高質(zhì)量的1024x1024圖像,在速度和質(zhì)量的權(quán)衡方面樹(shù)立了新的標(biāo)桿。

展望未來(lái),SANA-Sprint的即時(shí)反饋特性將為實(shí)時(shí)交互應(yīng)用(如響應(yīng)迅速的創(chuàng)意工具和AIPC)開(kāi)啟新的可能性。

參考資料:

https://nvlabs.github.io/Sana/Sprint/

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2023-11-20 12:49:01

2025-02-07 14:01:20

2023-08-28 13:06:47

2024-12-31 07:15:00

2017-09-28 09:40:36

圖像分類準(zhǔn)確率

2023-11-30 13:04:56

LCM圖像

2024-10-17 13:50:00

英偉達(dá)AI

2024-06-26 14:50:52

2023-04-13 15:55:00

AI開(kāi)源

2011-05-31 13:43:46

外鏈

2017-07-14 09:54:47

代碼函數(shù)程序

2023-10-11 09:53:27

人工智能AI 圖像

2024-11-25 14:30:00

2023-10-31 16:22:31

代碼質(zhì)量軟件開(kāi)發(fā)Java

2023-05-12 16:10:13

數(shù)字經(jīng)濟(jì)

2023-10-04 09:56:33

圖片AI

2025-04-27 08:30:00

2022-08-29 15:19:09

CSS煙花動(dòng)畫(huà)

2009-07-06 19:29:37

云計(jì)算私有云服務(wù)器虛擬化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日韩电影免费在线观看中文字幕 | 九一视频在线观看 | 91porn在线| 91精品久久久久久久久中文字幕 | 蜜桃在线一区二区三区 | 亚洲国产精品久久久 | 久久视频一区 | 国产精品欧美一区二区三区不卡 | 精品日本久久久久久久久久 | 视频一区二区在线观看 | 精品久久久久一区二区国产 | 综合精品在线 | 久久天堂网 | 国产成人精品高清久久 | 久久久久久久91 | 国产精品jizz在线观看老狼 | 免费一级毛片 | 国产精品视频在线免费观看 | 日韩中文字幕一区 | 91久久国产综合久久91精品网站 | 一级毛片中国 | 欧美性精品 | www国产成人免费观看视频,深夜成人网 | 在线观看国产网站 | 老司机免费视频 | 亚洲性视频 | 二区在线观看 | 欧美一区二区三区视频 | 中文字幕11页 | 国产黄色大片 | 爱综合| 毛片高清| 免费观看一级特黄欧美大片 | 草久网| 国产91在线播放 | 殴美成人在线视频 | 国产精品日韩一区二区 | 久久久久国产精品 | 亚洲一区日韩 | 中文字幕伊人 | 亚洲精品www|