成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

單GPU搞定高清長(zhǎng)視頻生成,效率×10!引入Mamba機(jī)制突破DiT瓶頸 | 普林斯頓&Meta

人工智能 新聞
普林斯頓大學(xué)和Meta聯(lián)合推出的新框架LinGen,以MATE線性復(fù)雜度塊取代傳統(tǒng)自注意力,將視頻生成從像素?cái)?shù)的平方復(fù)雜度壓到線性復(fù)雜度,使單張GPU就能在分鐘級(jí)長(zhǎng)度下生成高質(zhì)量視頻,大幅提高了模型的可擴(kuò)展性和生成效率。

視頻生成模型太貴太慢怎么辦?

普林斯頓大學(xué)和Meta聯(lián)合推出的新框架LinGen,以MATE線性復(fù)雜度塊取代傳統(tǒng)自注意力,將視頻生成從像素?cái)?shù)的平方復(fù)雜度壓到線性復(fù)雜度,使單張GPU就能在分鐘級(jí)長(zhǎng)度下生成高質(zhì)量視頻,大幅提高了模型的可擴(kuò)展性和生成效率。

圖片

實(shí)驗(yàn)結(jié)果表明,LinGen在視頻質(zhì)量上優(yōu)于DiT(勝率達(dá)75.6%),并且最高可減少15×(11.5×)FLOPs(延遲)。此外,自動(dòng)指標(biāo)和人工評(píng)估均顯示,LinGen-4B在視頻質(zhì)量上與最先進(jìn)模型相當(dāng)(分別以50.5%、52.1%、49.1%的勝率優(yōu)于Gen-3、Luma Labs和Kling)。

圖片

方法:線性復(fù)雜度的MATE模塊

LinGen維持Diffusion Transformer(DiT)中的其他結(jié)構(gòu)不變,而將其計(jì)算瓶頸——平方復(fù)雜度的自注意力模塊替換為線性復(fù)雜度的MATE模塊,它由MA分支和TE分支組成。

圖片

其中,MA分支包含一個(gè)雙向的Mamba2模塊。

Mamba2作為State Space Model(SSM)的變體,善于處理超長(zhǎng)的token序列,同時(shí)又對(duì)硬件非常友好,可以使用attention的各種硬件加速核,如xformers,F(xiàn)lashAttention等。但是Mamba系列模型在語(yǔ)言任務(wù)上的優(yōu)秀表現(xiàn)難以直接遷移到大型視覺(jué)任務(wù)上,生成的高分辨率視頻往往一致性很差、質(zhì)量不高。

一些特殊的scan方法嘗試解決這一問(wèn)題,如Zigzag scan,Hilbert scan,但它們都要求對(duì)序列做復(fù)雜的順序變換,而這個(gè)操作對(duì)硬件極其不友好。在處理高分辨率、長(zhǎng)視頻時(shí),會(huì)帶來(lái)顯著的額外延遲。

針對(duì)于此,LinGen提出Rotary Major Scan(RMS),相鄰層中四種scan方式交替切換。

圖片

以上圖的方式為例,W,H和T分別在展開時(shí)有第一、第二和第三優(yōu)先級(jí),通過(guò)交換展開的優(yōu)先級(jí),就可以實(shí)現(xiàn)不同的scan方式。

相比于已有方法,該方法最大的好處是對(duì)硬件非常友好、可以通過(guò)簡(jiǎn)單的tensor reshaping實(shí)現(xiàn),因此也幾乎沒(méi)有額外開銷,同時(shí)還把scan后原相鄰token的平均距離降到了和已有特殊scan方式相同的水平。

然而,所有這些特殊的scan方式仍然不足以完全解決Mamba的臨近信息丟失問(wèn)題,因?yàn)樵谀P偷娜我庖粚又校粫?huì)有一種scan方式被應(yīng)用,如果不考慮跨層交流,大量臨近信息在單層中依舊有損失。

針對(duì)于此,LinGen在TE分支中應(yīng)用了TEmporal Swin Attention(TESA):它是一種特殊的3D window attention,窗口范圍在不同層中會(huì)滑動(dòng),每一個(gè)窗口都很小,并且窗口大小不隨視頻分辨率和長(zhǎng)度(即3D tensor的大小)的變化而變化。

圖片

這是因?yàn)門ESA僅用來(lái)處理最臨近的信息,這一固定的窗口大小也使得TESA實(shí)現(xiàn)了相對(duì)3D tensor中token數(shù)的線性復(fù)雜度

作為額外的補(bǔ)充,LinGen還在MA分支中引入了review tokens。它被用以增強(qiáng)視頻中極長(zhǎng)程的一致性,例如在60秒視頻的結(jié)尾復(fù)現(xiàn)視頻前幾秒消失的人。它把待處理video tensor的概覽提前寫入Mamba的hidden state memory中,為后續(xù)的視頻處理提供幫助。

評(píng)估:遠(yuǎn)超基線,對(duì)標(biāo)SOTA

從人類評(píng)測(cè)和模型自動(dòng)評(píng)測(cè)兩個(gè)角度將LinGen與已有的先進(jìn)視頻生成模型、以及DiT baseline進(jìn)行比較。

圖片

無(wú)論是人類評(píng)測(cè)的結(jié)果,還是在VBench上的自動(dòng)評(píng)測(cè)的結(jié)果,都顯示LinGen與先進(jìn)的商業(yè)模型Kling、Runway Gen-3生成的視頻質(zhì)量接近,并且遠(yuǎn)勝于OpenSora v1.2。

圖片

可以看到,在FLOPs方面,當(dāng)生成17秒、34秒和68秒長(zhǎng)度的512p視頻時(shí),LinGen-4B相對(duì)于DiT-4B分別實(shí)現(xiàn)了5×、8×和15×的加速;

在延遲方面,當(dāng)在單個(gè)H100上生成512p和768p的17秒視頻時(shí),LinGen-4B相對(duì)于DiT-4B分別實(shí)現(xiàn)了2.0×和3.6×的加速;

當(dāng)生成17秒、34秒和68秒長(zhǎng)度的512p視頻時(shí),LinGen-4B相對(duì)于DiT-4B分別實(shí)現(xiàn)了2.0×、3.9×和11.5×的延遲加速。

這說(shuō)明LinGen具有線性復(fù)雜度,可以在單卡上實(shí)現(xiàn)分鐘級(jí)視頻生成,速度遠(yuǎn)快于DiT。與相同大小的DiT相比,LinGen可實(shí)現(xiàn)推理速度11倍以上的提升。

圖片

另外,LinGen和相同大小、在相同數(shù)據(jù)集上以相同training recipe訓(xùn)練的DiT baseline相比,在視頻質(zhì)量和文字-視頻一致性上取得全面領(lǐng)先。相比起DiT,LinGen可以更快地適應(yīng)更長(zhǎng)的token序列。

通常認(rèn)為自注意力模塊的線性替代是對(duì)完整自注意力的近似,雖然在速度上有顯著優(yōu)勢(shì),但在模型性能上往往略遜一籌,而LinGen打破了這個(gè)慣有的看法。

圖片

在整個(gè)預(yù)訓(xùn)練過(guò)程中,模型從低分辨率圖像生成開始,學(xué)習(xí)低分辨率視頻生成,再不斷增加所生成視頻的分辨率和長(zhǎng)度,所處理的token數(shù)增長(zhǎng)了上千倍。

而在從少token數(shù)的任務(wù)遷移到多token數(shù)的任務(wù)時(shí),LinGen的適應(yīng)性遠(yuǎn)強(qiáng)于DiT(a圖中是從256x256分辨率視頻生成遷移到512x512分辨率視頻生成任務(wù)時(shí)的loss curve),這可能是受益于Mamba對(duì)于長(zhǎng)序列的高適應(yīng)性,這一特征已經(jīng)在語(yǔ)言任務(wù)上被觀察到。

為了進(jìn)一步驗(yàn)證這里推理,選取這一預(yù)訓(xùn)練階段的早期checkpoint進(jìn)行比較,發(fā)現(xiàn)LinGen比DiT的win rate優(yōu)勢(shì)變得更加顯著。這暗示了雖然LinGen在任務(wù)遷移的早期能大幅領(lǐng)先DiT,但是這種優(yōu)勢(shì)隨著預(yù)訓(xùn)練的進(jìn)行,在不斷減小。

盡管如此,在訓(xùn)練資源有限的情況下,LinGen在預(yù)訓(xùn)練的極長(zhǎng)一段時(shí)間內(nèi)仍舊能對(duì)DiT保持優(yōu)勢(shì)。

項(xiàng)目主頁(yè):https://lineargen.github.io/

論文鏈接:https://arxiv.org/abs/2412.09856

項(xiàng)目代碼:https://github.com/jha-lab/LinGen

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2012-08-02 16:18:10

普林斯頓結(jié)構(gòu)哈佛結(jié)構(gòu)架構(gòu)

2024-05-20 15:19:25

訓(xùn)練模型

2011-04-22 10:14:34

無(wú)線網(wǎng)絡(luò)DHCPAndroid

2022-07-26 09:56:48

模型AI

2024-11-08 09:30:00

2023-12-05 13:25:00

數(shù)據(jù)訓(xùn)練

2025-03-03 08:32:00

模型AI訓(xùn)練

2024-09-05 12:27:17

2025-03-27 12:20:25

2024-10-28 22:14:05

2025-03-25 09:50:23

2020-12-02 10:05:26

AI 數(shù)據(jù)人工智能

2024-06-04 14:06:00

2024-09-23 08:24:06

CoT解密技術(shù)

2023-08-05 13:56:03

數(shù)據(jù)音樂(lè)

2021-11-09 09:52:57

神經(jīng)網(wǎng)絡(luò)AI算法

2023-06-19 19:22:50

AI場(chǎng)景隨機(jī)數(shù)學(xué)

2025-06-11 09:12:00

視頻生成AI

2024-01-02 13:18:00

數(shù)據(jù)視頻

2025-02-13 08:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 一区二区久久精品 | 五月天激情电影 | 91伊人| 国产精品毛片一区二区在线看 | 久久精品国产清自在天天线 | 很很干很很日 | 成人av免费 | 高清一区二区三区 | 久久精品亚洲一区二区三区浴池 | 亚洲激情一级片 | 精品久久久久久久人人人人传媒 | 人人鲁人人莫人人爱精品 | 国产精品揄拍一区二区 | 国产综合精品 | av免费观看网站 | www国产成人免费观看视频,深夜成人网 | 18性欧美| 黄色成人在线观看 | 久久亚洲一区二区三区四区 | 中文字幕免费在线 | 成人在线观看免费 | 亚洲一区二区视频 | 亚洲精品免费视频 | 午夜天堂精品久久久久 | 中文字幕一区二区三区精彩视频 | 亚洲视频在线看 | 在线观看中文字幕 | 91欧美| www国产成人免费观看视频,深夜成人网 | 亚洲欧美在线观看 | 观看av| 午夜寂寞影院列表 | 成人免费在线观看视频 | 9999在线视频 | 午夜视频在线观看视频 | 91在线视频免费观看 | 欧美久久精品一级c片 | a视频在线观看 | 日韩图区 | 91在线精品视频 | 欧美一区二区三区视频在线观看 |