成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<button id="eqssc"><tbody id="eqssc"></tbody></button>

<rt id="eqssc"><delect id="eqssc"></delect></rt>

<rt id="eqssc"></rt>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

圖像生成模型王牌——Diffusion Transformers系列工作梳理

發(fā)布于 2024-5-7 11:12

瀏覽

0收藏

圖像生成模型是目前業(yè)內(nèi)研究的焦點(diǎn)，而目前諸如Sora等前沿生成模型，其所基于的主體架構(gòu)都是Diffusion Transformers（DiT）。Diffusion Transformers（DiT）是論文Scalable Diffusion Models with Transformers（ICCV 2023）中提出的，是擴(kuò)散模型和Transformer的結(jié)合，也是Sora使用的底層生成模型架構(gòu)，將Diffusion Transformers從圖像生成擴(kuò)展到了視頻生成。這篇文章給大家總結(jié)了目前主要的幾個(gè)DiT模型結(jié)構(gòu)，帶大家梳理DiT系列模型的核心。?

更加完整的多模態(tài)生成模型技術(shù)總結(jié)，可以加入我的星球【圓圓的算法筆記】，獲取Sora底層原理解析專欄。

1.DiT

在之前的圖像生成擴(kuò)散模型中，底層的網(wǎng)絡(luò)結(jié)構(gòu)一般都是U-Net。而本文基于Vision Transformer（ViT）中的Transformer圖像分類模型結(jié)構(gòu)，替代擴(kuò)散模型中的U-Net，得到DiT模型，實(shí)現(xiàn)了更優(yōu)的生成效果。

在輸入部分，基本采用了和ViT相同的方法。對(duì)輸入的圖像分成多個(gè)patch，并轉(zhuǎn)換成一個(gè)token序列，每個(gè)token拼接上相應(yīng)的position embedding。這個(gè)底層的embedding序列作為后續(xù)DiT模塊的輸入。

圖像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社區(qū)

在擴(kuò)散模型中，Transformer除了像ViT那樣輸入圖像patch token序列，往往還要輸入一些額外的信息，包括擴(kuò)散模型中當(dāng)前的生成時(shí)間步、文本信息的輸入等，如何將這些信息輸入到DiT中，文中嘗試了幾種方案。最簡(jiǎn)單的方法是將這些額外的embedding直接拼接到原始的序列上。第二種是將外部的embedding單獨(dú)拼接成一個(gè)序列，和原始的圖像patch序列額外做一個(gè)cross attention。第三種方法是修改Transformer中的layer normalization模塊，將其替換成adaptive layer normalization，LN的均值和方差由外部embedding的加和生成。第四種是在第三種的基礎(chǔ)上，引入了基于外部embedding生成的縮放因子，對(duì)multi-head attention的輸出進(jìn)行縮放。

圖像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社區(qū)

在經(jīng)過多層的DiT模型后，需要將預(yù)測(cè)的噪聲結(jié)果還原出來，這里使用一個(gè)MLP作為Decoder，將DiT生成的結(jié)果映射到噪聲預(yù)測(cè)結(jié)果。

上述就是DiT的整體結(jié)構(gòu)，主要還是Vision Transformer。用這個(gè)DiT結(jié)構(gòu)，替代擴(kuò)散模型中的去噪模塊，也就是噪聲預(yù)測(cè)網(wǎng)絡(luò)，就是DiT模型

從實(shí)驗(yàn)對(duì)比中可以看出，DiT的生成效果是超過基于U-Net等之前的SOTA模型的。

圖像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社區(qū)

圖像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社區(qū)

2.U-ViT

U-ViT是另一個(gè)基于ViT的擴(kuò)散模型網(wǎng)絡(luò)。U-ViT也是將擴(kuò)散模型中的噪聲預(yù)測(cè)網(wǎng)絡(luò)替換成Transformer結(jié)構(gòu)，并且借鑒了U-Net等傳統(tǒng)CV模型中的殘差網(wǎng)絡(luò)思路，每一層的輸出都會(huì)通過龍skip connection加到更深層的網(wǎng)絡(luò)中。此外，文中對(duì)一些模型結(jié)構(gòu)也進(jìn)行了嘗試，包括殘差網(wǎng)絡(luò)怎么加，是直接拼接到深層+MLP還是add到生成；擴(kuò)散步驟embedding怎么加入到U-ViT中；以及Transformer之后的卷積網(wǎng)絡(luò)怎么加。

圖像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社區(qū)

3.MDT

MDT發(fā)表于論文Masked diffusion transformer is a strong image synthesizer（ICCV 2023），在DiT的基礎(chǔ)上，引入了mask latent modeling，進(jìn)一步提升了DiT的收斂速度和生成效果。

文中分析發(fā)現(xiàn)，DiT在學(xué)習(xí)過程中，并不能很好的學(xué)習(xí)各個(gè)語義單元之間的關(guān)系。為了解決這個(gè)問題，MDT引入了一個(gè)重構(gòu)任務(wù)，對(duì)輸入的圖像的部分patch進(jìn)行mask，然后使用一個(gè)Transformer模型在生成過程中，對(duì)這部分被mask掉的patch進(jìn)行還原。在擴(kuò)散模型中，每一層MDT輸入被mask掉一部分的token序列，只根據(jù)這部分序列進(jìn)行噪聲預(yù)測(cè)。同時(shí)，使用一個(gè)Transformer網(wǎng)絡(luò)來還原被mask掉的部分。通過這種方式，讓模型在學(xué)習(xí)過程中強(qiáng)行學(xué)習(xí)patch之間的關(guān)系。同時(shí)通過position embedding的引入提升對(duì)mask token的還原能力。

由于在生成階段，decoder在處理token的時(shí)候都是沒有mask的，訓(xùn)練的時(shí)候是mask的，這種不一致會(huì)影響效果。因此文中采用side-interpolater，對(duì)被mask掉的部分使用side-interpolater的預(yù)測(cè)結(jié)果，融合上沒被mask的結(jié)果，保證訓(xùn)練和預(yù)測(cè)階段decoder的輸入都是沒有mask掉的。

圖像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社區(qū)

4.Diffit

Diffit是英偉達(dá)發(fā)表于論文Diffit: Diffusion vision transformers for image generation（2023）中的一種方法，也是Diffusion Transformer的一個(gè)變體，在模型結(jié)構(gòu)上進(jìn)行了改進(jìn)。整體的結(jié)構(gòu)類似于U-Net和Transformer的結(jié)合，通過增加downsample和upsample實(shí)現(xiàn)層次性的建模。

圖像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社區(qū)

Diffit在引入擴(kuò)散步驟embedding的時(shí)候，采用了一種Time-dependent Self-Attention的方式，即將步驟embedding直接加入到輸入token序列上，讓self-attention在計(jì)算的過程中就考慮到擴(kuò)散步驟的信息。在模型結(jié)構(gòu)上，采用U-Shape的形式，Encoder部分每一層Transformer后做downsample，來提取不同分辨率下的圖像信息，Decoder部分再逐漸upsample。

圖像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社區(qū)

本文轉(zhuǎn)載自 ??圓圓的算法筆記??，作者： Fareise

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

圖像生成里程碑！VAR:自回歸模型首超Diffusion Transformer！（北大&字節(jié)）

angel ? 1.3w瀏覽 ? 0回復(fù)
如何正確使用Stable Diffusion？文本到圖像擴(kuò)散模型中記憶化實(shí)用分析（浙大）

angel ? 3680瀏覽 ? 0回復(fù)
深度學(xué)習(xí)中生成模型的工作原理：解析用于數(shù)據(jù)增強(qiáng)的生成模型

51CTO內(nèi)容精選 ? 3961瀏覽 ? 0回復(fù)
MUMU：用文本、圖像引導(dǎo)，多模態(tài)圖像生成模型

Aceryt ? 2778瀏覽 ? 0回復(fù)
Stable Diffusion這樣的文本-圖像生成模型有記憶嗎？

angel ? 2437瀏覽 ? 0回復(fù)
一文梳理Transformer在時(shí)間序列預(yù)測(cè)中的發(fā)展歷程代表工作

海因斯DK ? 7635瀏覽 ? 0回復(fù)
大模型之視頻圖像生成之工作流——ComfyUI和AI煉丹師

AI探索時(shí)代 ? 4715瀏覽 ? 0回復(fù)
【大模型】圖解Transformers Encoder

魚蟲子 ? 2651瀏覽 ? 0回復(fù)
【大模型】圖解Transformers Decoder

魚蟲子 ? 2955瀏覽 ? 0回復(fù)
《解讀論文：Scaling Laws For Diffusion Transformers》

智能交互引擎 ? 2454瀏覽 ? 0回復(fù)
一文梳理大語言模型編程框架

AIGC最前線 ? 2598瀏覽 ? 0回復(fù)
大模型圖像處理技術(shù)之?dāng)U散模型——Diffusion Model

AI探索時(shí)代 ? 3099瀏覽 ? 0回復(fù)
如何使用BART模型和Hugging Face Transformers總結(jié)文本？

51CTO內(nèi)容精選 ? 2997瀏覽 ? 0回復(fù)
生成式模型實(shí)現(xiàn)的區(qū)別——VAE、GAN、Diffusion和transformer

AI探索時(shí)代 ? 3996瀏覽 ? 0回復(fù)
高分辨率3D人生成超簡(jiǎn)單!Pippo:Meta最新工作首次完成1K分辨率一致多視角人物圖像生成

angel ? 2711瀏覽 ? 0回復(fù)
大模型系列：一文帶你梳理Large Language Model發(fā)展歷程

海因斯DK ? 2270瀏覽 ? 0回復(fù)
Dify從入門到高階系列一：詳解各種工作流節(jié)點(diǎn)，如何降低LLM開發(fā)門檻？

AI博物院 ? 6143瀏覽 ? 1回復(fù)
大模型系列：一文匯總16個(gè)深度語言模型代表工作

海因斯DK ? 1398瀏覽 ? 0回復(fù)
TransDiff--最簡(jiǎn)潔的AR Transformer + Diffusion圖像生成方法

NLP工作站 ? 97瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

ICML'25 | 兼容不同數(shù)據(jù)源周期性差異的時(shí)間序列基礎(chǔ)模型 2天前發(fā)布
中科大&騰訊：通過提升各個(gè)專家網(wǎng)絡(luò)差異性提升基于MoE的CTR預(yù)估效果 2天前發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當(dāng)，實(shí)測(cè)來了 0回復(fù)

上一篇：動(dòng)態(tài)可擴(kuò)展的時(shí)間序列Patch劃分方法

下一篇： TFB：2024最新時(shí)間序列預(yù)測(cè)Benchmark

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：天堂中文资源在线 | 欧美日本在线观看 | 日韩精品一区二区三区免费视频 | 久久人体 | 国产在线精品免费 | 免费黄网站在线观看 | 久久精品91| 亚洲国产精品精华素 | 女同av亚洲女人天堂 | 国产一区影院 | 国产精品av久久久久久久久久 | 国产精品永久久久久久久www | 一区二区免费在线观看 | 日韩高清中文字幕 | 国产视频h| 日本成人二区 | 欧美一区二区三区,视频 | 黑人精品| 久久51| 欧美久久久久久久久 | 麻豆一区二区三区精品视频 | 国产丝袜一区二区三区免费视频 | 欧美一区二区三区视频在线观看 | 日韩一区精品 | 亚洲国产激情 | 亚洲欧美一区二区三区在线 | 国产精品毛片av一区 | 欧美日韩亚洲一区 | 欧美美女爱爱 | 野狼在线社区2017入口 | 久久久久久久久久久久久九 | 九色网址| 国产精品视频999 | 午夜激情在线 | 亚洲一区 | 国产成人亚洲精品自产在线 | 成人日b视频 | 午夜日韩| 国产99久久精品一区二区永久免费 | 四虎最新视频 | 亚洲精品国产电影 |

<rt id="6myy2"></rt>

<li id="6myy2"><source id="6myy2"></source></li>

<button id="6myy2"><input id="6myy2"></input></button>

<li id="6myy2"><source id="6myy2"></source></li>

<code id="6myy2"><wbr id="6myy2"></wbr></code><button id="6myy2"></button>

<rt id="6myy2"></rt>