成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！精華

發布于 2024-12-16 13:41

瀏覽

0收藏

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

文章鏈接：https://arxiv.org/pdf/2412.09626
項目鏈接：http://haonanqiu.com/projects/FreeScale.html

亮點直擊

提出了FreeScale，一種無需微調的推理范式，通過融合不同尺度的信息，使預訓練的擴散模型能夠生成生動的高分辨率結果。
在文本生成圖像模型和文本生成視頻模型上對該方法進行了實證評估，證明了其有效性。
首次實現了8K分辨率圖像的生成。與其他最新的無需微調方法相比，FreeScale 以更少的推理時間獲得了更高質量的視覺效果。

總結速覽

解決的問題

當前的視覺擴散模型由于高分辨率數據缺乏和計算資源限制，僅能在有限分辨率下訓練，難以生成高保真圖像或視頻。在生成高于訓練分辨率的內容時，模型容易引入高頻信息，導致重復模式和低質量內容。

提出的方案

FreeScale 是一種無需微調（tuning-free）的推理范式，通過尺度融合（scale fusion）實現高分辨率視覺內容生成。它通過處理不同感受野尺度的信息，并提取所需的頻率成分進行融合，從而克服高頻信息引發的重復模式問題。

應用的技術

多尺度信息處理：對不同感受的尺度信息進行提取和處理。
頻率成分提取與融合：提取并融合目標頻率成分，優化高分辨率生成質量。

達到的效果

在圖像和視頻生成任務中顯著擴展了高分辨率生成的能力。
首次實現了8K分辨率圖像的生成，相較于現有最優方法表現更優。
通過無調參方式解決了高分辨率生成中的重復模式問題，提升了生成內容的質量與保真度。

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

8K效果

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

方法

定制化的自級聯超分辨率

直接生成高分辨率結果容易導致重復對象的出現，破壞原本良好的視覺結構。為了解決這一問題，采用了來自先前研究[13, 14]的自級聯超分辨率框架，該框架通過逐步增加生成結果的分辨率來實現高質量的視覺輸出。

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

細節級別的靈活控制

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

受約束的膨脹卷積

ScaleCrafter 發現，導致對象重復問題的主要原因是卷積感受野的限制，并提出使用膨脹卷積來解決該問題。

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

為了避免災難性的質量下降，ScaleCrafter僅將膨脹卷積應用于 UNet 的部分層，仍保留了多個上采樣塊（up-blocks）。然而，在上采樣塊的層中使用膨脹卷積會導致生成許多混亂的紋理。因此，與以往的工作不同，僅在下采樣塊（down-blocks）和中間塊（mid-blocks）的層中應用膨脹卷積。此外，在最后幾個時間步中，結果的細節被渲染，而視覺結構幾乎固定。因此，在最后幾個時間步中使用原始卷積。

尺度融合

雖然定制化的自級聯超分辨率和受約束的膨脹卷積能夠保持粗略的視覺結構，并有效生成4X分辨率的圖像，但生成16X分辨率的圖像仍會出現偽影，例如局部重復（如額外的眼睛或鼻子）。這一問題的根源在于膨脹卷積削弱了對局部特征的關注。DemoFusion通過使用局部塊操作增強局部關注解決了這個問題。然而，盡管局部塊操作緩解了局部重復問題，卻在全局范圍內引入了小對象的重復。

為結合兩種策略的優勢，本文設計了尺度融合（Scale Fusion），通過融合不同感受野尺度的信息，實現局部和全局細節的平衡增強。

對于全局信息的提取，采用了全局自注意力特征。原因在于，自注意力層基于相似性增強了塊信息，使后續的交叉注意力層更容易將語義聚合成完整的對象。這可以表述為：

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

關于局部信息的提取

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

實驗

實驗設置

實驗條件

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

在 LAION-5B 數據集中隨機抽取 1024 條描述語句來評估圖像生成性能。為了更貼近人類的審美偏好，我們從 LAION-Aesthetics-V2-6.5plus 數據集中隨機選擇提示語進行圖像生成評估。LAION-Aesthetics-V2-6.5plus 是 LAION-5B 的一個子集，包含高視覺質量的圖像，這些圖像在美學預測模型中的評分達到 6.5 或更高。
在視頻生成評估中，從 WebVid-10M 數據集中隨機抽取 512 條描述語句。

評價指標
由于高分辨率推理方法旨在保持原始分辨率輸出的質量，我們計算了原始低分辨率圖像/視頻與對應高分辨率輸出之間的所有指標。

圖像質量評估：我們報告了 **Frechet Image Distance (FID)**和 **Kernel Image Distance (KID)**。FID 和 KID 在比較之前需要將圖像調整到299x299的尺寸，這一操作可能會導致高分辨率圖像的質量損失。因此，受前人研究 [8] 啟發，我們使用裁剪的局部區域計算這些指標，稱為FIDc和KIDc。
視頻質量評估：我們使用Frechet Video Distance (FVD)來評估視頻生成的質量。
動態性和美學質量：從VBench中測試了動態程度和美學質量，用以評估視頻的動態性和視覺吸引力。

高分辨率圖像生成

將 FreeScale 與其他高分辨率圖像生成方法進行了對比，包括：

SDXL直接推理 (SDXL-DI)
ScaleCrafter
DemoFusion
FouriScale

若兼容，采用 FreeU 作為后處理方法。

定性比較

定性比較結果如下圖 3 所示。觀察到以下現象：

直接生成（SDXL-DI）通常會導致多個重復對象，并且原始視覺結構丟失。
ScaleCrafter容易產生局部重復現象。
DemoFusion生成的畫面中常伴有孤立的小物體。
FouriScale對于某些描述，會大幅改變生成圖像的風格。

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

相比之下，FreeScale 能夠生成高質量圖像，避免任何意外的重復現象。

定量比較

定量結果進一步證實了 FreeScale 的優越性。如下表 1 所示：

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

SDXL-DI在FIDc和KIDc指標上表現最佳。這是因為 SDXL-DI 傾向于生成多個重復對象，并且裁剪區域可能更接近參考圖像。然而，這種行為會犧牲視覺結構的完整性，因此在分辨率為的場景下，SDXL-DI 在FID和KID指標上表現最差。
總體上，FreeScale在所有與質量相關的指標上都取得了最佳或次優成績，并且額外的時間成本可以忽略不計。

靈活細節控制

此外，FreeScale 提供了對生成結果中細節級別的靈活控制。下圖 4 展示了對不同語義區域調整細節級別的示例。

在獲得放大后的 1× 結果后，我們可以輕松計算語義mask，并在公式 4 中為每個區域分配不同的值。如下圖 4 所示，在 Griffons 區域增加權重系數，而在其他區域降低權重系數時，生成結果會更加優異。

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

高分辨率視頻生成

將 FreeScale 與其他無需調優的高分辨率視頻生成方法進行了對比，包括：

VideoCrafter2直接推理 (VC2-DI)
ScaleCrafter
DemoFusion

由于 FouriScale 結合的 FreeU 在視頻生成中表現不佳，因此未進行評估。

如下圖 5 所示，VC2-DI 和 ScaleCrafter 的行為與它們在圖像生成中的表現相似，分別傾向于生成重復的完整對象和局部部分。然而，DemoFusion 在視頻生成中表現完全不可預期。其 Dilated Sampling 機制導致所有幀中出現奇怪的圖案，而 Skip Residual 操作則使整個視頻模糊不清。相比之下，FreeScale 能有效生成高分辨率的視頻，且保真度高。下表 3 顯示，我們的方法在推理時間較短的情況下取得了最佳的 FVD 分數。更多定量評估可以參考補充材料。

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

消融實驗

FreeScale 主要由三個組件組成：

定制自級聯上采樣
限制性膨脹卷積
尺度融合

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區

結論

FreeScale，一種無需調優的推理范式，旨在增強預訓練擴散模型在高分辨率生成中的能力。通過利用多尺度融合和選擇性頻率提取，FreeScale 有效解決了高分辨率生成中常見的問題，如重復模式和質量退化。實驗結果表明，FreeScale 在圖像和視頻生成中都表現出色，超越了現有方法的視覺質量，同時在推理時間上也具有顯著優勢。與以前的方法相比，FreeScale 不僅消除了各種形式的視覺重復，而且確保了生成圖像中的細節清晰和結構一致性。最終，FreeScale 實現了前所未有的8k 分辨率圖像生成。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/s6bI7joHzfECP14fRsueNQ??

標簽

贊 1

收藏

回復

舉報

回復

相關推薦

無需訓練，這個新方法實現了生成圖像尺寸、分辨率自由

輕薄滴假象 ? 2687瀏覽 ? 0回復
超10秒高分辨率，北大Open Sora視頻生成更強了，還支持華為芯片

輕薄滴假象 ? 2776瀏覽 ? 0回復
8倍于SOTA模型發布，超分辨率細節還原度逆天，終于可以看清楚蜘蛛網絲了！

51CTO技術棧 ? 4024瀏覽 ? 0回復
高分辨率圖像生成擴散外推方法CutDiffusion發布！

angel ? 4443瀏覽 ? 0回復
Adobe推出超分辨率，細節豐富視頻模型VideoGigaGAN

Aceryt ? 2743瀏覽 ? 0回復
CVPR 2024｜讓圖像擴散模型生成高質量360度場景，只需要一個語言模型

輕薄滴假象 ? 3474瀏覽 ? 0回復
在圖像生成領域，自回歸可以打敗擴散模型嗎？

angel ? 3879瀏覽 ? 0回復
4K4D:實時4K分辨率4D視圖合成

angel ? 2883瀏覽 ? 0回復
上海交大等聯合發布MegaFusion：無須微調的高效高分辨率圖像生成方法

angel ? 2876瀏覽 ? 0回復
ACM MM24 | Hi3D: 3D生成領域再突破！新視角生成和高分辨率生成雙SOTA(復旦&智象等)

angel ? 2806瀏覽 ? 0回復
蘋果開源高清擴散模型MDM，能在多個分辨率下同時去噪

Aceryt ? 2456瀏覽 ? 0回復
蘋果重磅開源俄羅斯套娃擴散模型！MDM：多任務高分辨率生成又快又好！

angel ? 2324瀏覽 ? 0回復
首次超越擴散模型和非自回歸Transformer模型！字節開源RAR：自回歸生成最新SOTA！

angel ? 2536瀏覽 ? 0回復
從低清到4K的魔法：FlashVideo突破高分辨率視頻生成計算瓶頸(港大&港中文&字節)

angel ? 2122瀏覽 ? 0回復
高分辨率3D人生成超簡單!Pippo:Meta最新工作首次完成1K分辨率一致多視角人物圖像生成

angel ? 2725瀏覽 ? 0回復
何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現高分辨率逐像素生成

Crystalcxt ? 1860瀏覽 ? 0回復
長視頻生成新突破！FAR模型+FlexRoPE讓16倍時長創作更高效

AIPaperDaily ? 1552瀏覽 ? 0回復
統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架

AI研究前瞻 ? 976瀏覽 ? 0回復
通向高分辨率VLM (11): VILA-HD

kede96 ? 1125瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

多領域SOTA誕生！Vid2World：打通視頻擴散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發布
多模態終極大一統！字節開源BAGEL爆火：圖文生成理解雙冠王，竟能預測未來畫面？ 2025-05-22 09:33:05發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：擊敗擴散和非擴散奪得SOTA！FLOAT：基于流匹配的音頻驅動說話者頭像生成模型

下一篇：圖像修復和編輯大一統 | 騰訊&北大等聯合提出BrushEdit：BrushNet進階版來了

社區精華內容

目錄

主站蜘蛛池模板：免费观看成人av | 毛色毛片免费看 | 国产精品国产三级国产aⅴ中文 | 亚洲欧美综合精品久久成人 | 免费激情网站 | 日韩精品一区二区三区高清免费 | 国产精品99久久久精品免费观看 | 国产成人在线一区二区 | 精品日韩在线 | 国产精品永久久久久 | 日韩精品久久久久 | 国产成人精品久久二区二区 | 成人免费区一区二区三区 | 中文字幕日韩一区 | 久久er99热精品一区二区 | 成人午夜视频在线观看 | 国产乱精品一区二区三区 | 亚洲精品乱码久久久久久按摩观 | 久久亚洲视频 | 日韩成人免费视频 | 亚洲欧美激情精品一区二区 | 97人人澡人人爽91综合色 | 99久久99 | 一区二区三区国产 | 国产精品福利网 | 精品亚洲一区二区 | 免费一区| 国产一区 | 日日夜夜精品免费视频 | 日韩在线免费视频 | 成人中文字幕在线观看 | 国产一区二区在线免费 | 日本天天操 | 色屁屁在线观看 | 国产农村一级片 | 一区二区三区在线免费观看 | 欧美日韩在线一区二区 | 91精品国产91久久综合桃花 | 男人天堂视频在线观看 | 日本成人在线网址 | 欧美成人一区二免费视频软件 |