成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Diffusion Mamba:用線性計算打造高效高分辨率圖像生成新范式

人工智能
目前的擴散模型主要依賴U-Net或Vision Transformer(ViT)作為骨干架構。然而,Transformer 的計算復雜度隨 token 數量呈二次增長,使得高分辨率圖像生成變得極為昂貴。如何在保證生成質量的前提下,提高推理效率,降低計算成本??這是 DiM 試圖解決的核心問題。

一眼概覽

Diffusion Mamba (DiM) 是一種結合狀態空間模型(SSM)和擴散模型的新架構,旨在實現高效的高分辨率圖像生成。相比于基于 Transformer 的擴散模型,DiM 具有更優的計算效率,特別是在超高分辨率圖像(1024×1024 及以上)生成任務中表現突出。

核心問題

目前的擴散模型主要依賴U-NetVision Transformer(ViT)作為骨干架構。然而,Transformer 的計算復雜度隨 token 數量呈二次增長,使得高分辨率圖像生成變得極為昂貴。如何在保證生成質量的前提下,提高推理效率,降低計算成本? 這是 DiM 試圖解決的核心問題。

技術亮點

1. Mamba 適配 2D 圖像建模

? 采用 多方向掃描,避免單向序列建模的局限性;

? 引入 可學習填充 token,在行列轉換時保留空間連續性;

? 結合 輕量級局部特征增強模塊,彌補 SSM 對局部結構的捕捉能力不足。

2. 高效訓練策略

    ? 采用 “弱到強”訓練策略,先在低分辨率(256×256)上訓練,再遷移至高分辨率(512×512),減少計算成本;

     ? 無訓練超分辨率(training-free upsampling) 方案,使模型可直接生成 1024×1024 和 1536×1536 級別的圖像。

     3. 計算復雜度優化

? 采用 Mamba 替代 Transformer 的自注意力機制,使計算復雜度由 O(n2) 降至 O(n),在超高分辨率場景下更具優勢;

    ? 在 1280×1280 及以上分辨率下,推理速度比 Transformer 快 2.2 倍

方法框架

圖片圖片

DiM 采用 Mamba 作為擴散模型的骨干架構,其關鍵步驟如下:

1. 圖像 Token 化

? 輸入噪聲圖像/潛變量,拆分為2D patch,并加入時間步、類別信息;

? 通過 3×3 深度可分卷積 進行局部特征增強。

2. Mamba 序列建模

     ? 采用 四種掃描模式(行優先、列優先、反向行優先、反向列優先),使 token 擁有全局感受野;

     ? 在行末、列末插入可學習填充 token,保持空間連續性;

     ? 通過長跳躍連接(long skip connections)提升多尺度特征融合。

     3. 訓練與推理

     ? 低分辨率預訓練(256×256),再微調至 512×512;

     ? 采用 無訓練超分辨率,可在 512×512 訓練后,直接生成 1024×1024 及以上分辨率圖像。

實驗結果速覽

1. 圖像質量(FID 指標)

  ? CIFAR-10 數據集:DiM-Small 取得 FID = 2.92,優于 U-ViT-S(FID = 3.11)。

  ? ImageNet 256×256 訓練

a.DiM-Huge 在 319M 訓練樣本下 FID = 2.40

b.進一步訓練到 480M 樣本后,超越 DiffuSSM-XL,取得 FID = 2.21

  ? ImageNet 512×512 訓練

      ? 僅使用 15M 高分辨率訓練樣本,DiM-Huge 取得 FID = 3.94

      ? 進一步訓練至 110K 迭代,FID 降至 3.78

2. 推理效率

     ? DiM 在 1280×1280 及以上分辨率,比 Transformer 快 2.2 倍

     ? 比 Mamba 原生模型僅慢 1.4 倍,證明其設計在計算效率上幾乎無額外損耗。

   3. 超高分辨率生成

      ? 無訓練超分辨率 方案可在 512×512 訓練后直接生成 1024×1024 和 1536×1536 級別圖像;

      ? 但仍存在細節塌縮、重復模式的問題,特別是人臉細節易失真。

實用價值與應用

DiM 作為一種高效的高分辨率圖像生成模型,適用于多個場景:

藝術創作 & 設計:高質量圖像合成,提高生產力;

自動駕駛 & 監控:高效解析高分辨率視覺數據;

生物醫學影像:低成本生成高質量醫學圖像;

游戲 & 元宇宙:低延遲、高質量的虛擬場景生成。

開放問題

1. 如何改進無訓練超分辨率策略,減少高分辨率圖像的細節塌縮?

2. DiM 結構能否適用于視頻生成,替代 Transformer 作為 backbone?

3. Mamba 的線性復雜度特性,是否可以應用于其他生成任務,如 3D 生成或文本生成?

責任編輯:武曉燕 來源: 萍哥學AI
相關推薦

2012-01-05 16:08:57

佳能激光打印機

2023-02-16 07:30:55

圖形編輯器屏幕開發

2011-11-14 13:30:27

惠普掃描儀

2020-09-21 16:11:04

Adobe 軟件平臺

2012-11-02 13:18:11

筆記本

2022-12-05 15:27:52

VR技術

2025-02-26 13:23:08

2023-10-27 08:30:52

傳輸接口刷新率

2024-06-05 09:26:50

2011-10-31 17:12:42

激光打印機評測

2012-01-17 10:35:31

惠普掃描儀

2018-11-16 09:50:46

Windows 10高分辨率屏幕截圖

2011-10-28 15:52:22

激光打印機評測

2022-03-23 10:44:02

圖像訓練框架

2020-06-30 14:08:57

算法模型deepfake

2022-11-01 08:00:00

2025-01-21 09:50:00

模型生成AI

2018-07-19 15:00:41

衛星圖像

2025-02-26 11:14:10

2011-04-28 13:09:49

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美性高潮 | 黄色一级大片在线免费看产 | 91亚洲精品国偷拍自产在线观看 | 成人在线播放 | 国产福利在线视频 | 人人干天天干 | 欧美一级黄色片在线观看 | aaa在线观看 | 麻豆视频在线免费看 | 欧美久久一级 | 国产精品亚洲欧美日韩一区在线 | 欧美一区二区另类 | 日韩中文字幕一区 | 国产亚洲精品一区二区三区 | 国产高清精品在线 | 色婷婷一区 | 99久久久无码国产精品 | 久久久久国产精品 | 成人精品鲁一区一区二区 | 亚洲交性| 亚洲一区国产 | 91视频在线 | 国产精品a久久久久 | 一区二区三区四区在线 | 插插宗合网 | 久久精品男人的天堂 | 一本久久a久久精品亚洲 | 欧美a在线看| 亚洲成人蜜桃 | 99精品视频免费在线观看 | 久久午夜电影 | 欧美成人精品在线观看 | 国产精品久久久久久久模特 | 久久久成人一区二区免费影院 | 日韩一区二区三区在线视频 | 国产a爽一区二区久久久 | 亚洲欧美日韩精品久久亚洲区 | 久久精品国产亚洲a | 国产偷录叫床高潮录音 | 亚洲精品视 | 伊人网站在线观看 |