成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst

發(fā)布于 2024-7-22 07:26
瀏覽
0收藏

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2407.11394
github鏈接:https://dream-catalyst.github.io/

亮點(diǎn)直擊:

  • 本文通過將DDS解釋為SDEdit過程,提出了一種3D編輯的一般公式,并提出了一種用于快速編輯和質(zhì)量改進(jìn)的專門公式。
  • 在一般的3D編輯任務(wù)中采用了遞減時(shí)間步采樣,這是一種在3D生成任務(wù)中常用的加速訓(xùn)練速度的采樣算法,解決了以往工作中面臨的挑戰(zhàn)。
  • 首次引入FreeU用于3D編輯,以增強(qiáng)可編輯性,克服重新加權(quán)編輯目標(biāo)公式中固有的權(quán)衡。
  • 編輯的速度和質(zhì)量優(yōu)于當(dāng)前最先進(jìn)的NeRF編輯方法。

得分蒸餾采樣(SDS)因其固有的3D一致性,在文本驅(qū)動(dòng)的3D編輯任務(wù)中已成為一種有效的框架。然而,現(xiàn)有基于SDS的3D編輯方法由于偏離擴(kuò)散模型的采樣動(dòng)態(tài),導(dǎo)致訓(xùn)練時(shí)間過長且結(jié)果質(zhì)量低下。在本文中,本文提出了DreamCatalyst,這是一種將基于SDS的編輯解釋為擴(kuò)散反向過程的新穎框架。本文的目標(biāo)函數(shù)考慮了采樣動(dòng)態(tài),因此使DreamCatalyst的優(yōu)化過程成為編輯任務(wù)中擴(kuò)散反向過程的近似。


DreamCatalyst旨在減少訓(xùn)練時(shí)間并提高編輯質(zhì)量。DreamCatalyst提供了兩種模式:

  • 快速模式,僅需約25分鐘即可編輯NeRF場景;
  • 高質(zhì)量模式,在不到70分鐘內(nèi)產(chǎn)生優(yōu)質(zhì)結(jié)果。具體來說,本文的高質(zhì)量模式在速度和質(zhì)量方面均優(yōu)于當(dāng)前最先進(jìn)的NeRF編輯方法。

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

DREAMCATALYST

動(dòng)機(jī)

本文旨在設(shè)計(jì)一個(gè)目標(biāo)函數(shù),類似于PDS(Perceptual Diffusion Sampling),包含一個(gè)顯式的強(qiáng)身份保留項(xiàng),同時(shí)與擴(kuò)散時(shí)間步的作用對(duì)齊,并允許應(yīng)用遞減時(shí)間步采樣。為了實(shí)現(xiàn)這一目標(biāo),必須在大噪聲擾動(dòng)中強(qiáng)調(diào)身份保留,并通過重新加權(quán)公式12中的每一項(xiàng),在小擾動(dòng)水平上不發(fā)生偏離。然而,隨機(jī)潛在匹配的公式本質(zhì)上隱含了一個(gè)身份保留項(xiàng)和DDS(Diffusion-Denoising Score Matching)損失的梯度,使其無法直接調(diào)整系數(shù)。因此,本文提供了DDS的新解釋,并通過這一視角引入PDS的一般公式來重新加權(quán)這些項(xiàng)。

此外,本文提出了一種專門的公式,與擴(kuò)散時(shí)間步的角色對(duì)齊,并支持遞減時(shí)間步采樣。這種專門的公式主要有兩個(gè)優(yōu)點(diǎn):

  • 通過考慮擴(kuò)散時(shí)間步的作用,本文的公式可以生成細(xì)節(jié)豐富的3D編輯結(jié)果;
  • 通過擴(kuò)散友好的采樣,遞減時(shí)間步采樣極大地減少了訓(xùn)練時(shí)間。

PDS 的一般公式

本文揭示了反向SDEdit過程和DDS(Diffusion-Denoising Score Matching)之間的關(guān)系。DreamCatalyst的關(guān)鍵見解是,DDS的目標(biāo)等同于基于單步DDIM(Denoising Diffusion Implicit Models)的SDEdit采樣。

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

上述公式通過解決隨機(jī)采樣噪聲的隨機(jī)微分方程(SDEs)實(shí)現(xiàn)隨機(jī)編輯。然而,最近的編輯研究利用DDIM反演來保留源身份。通過結(jié)合SDEdit和DDIM調(diào)度來保留源身份,基于DDIM的SDEdit采樣定義為:

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

盡管SDEdit的單步去噪過程在擴(kuò)散過程中通過公式13已經(jīng)很清楚,但受到Dreamsampler(Kim等人,2024年)的啟發(fā),本文可以將該過程解釋為如下的優(yōu)化問題:

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

其中:

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

基于 SDS 的擴(kuò)散友好編輯

在本節(jié)中,本文提出了一個(gè)專門的公式(公式18),該公式考慮了擴(kuò)散時(shí)間步的作用以及與遞減時(shí)間步采樣的對(duì)齊問題。DreamCatalyst中的公式設(shè)計(jì)旨在滿足兩個(gè)條件:

  • 在高時(shí)間步中強(qiáng)身份保留
  • 在低時(shí)間步中減少身份保留。

第一個(gè)條件是,在高時(shí)間步中強(qiáng)身份保留,可以減少源特征在高噪聲擾動(dòng)水平下的信息丟失。這個(gè)條件使得可以利用遞減時(shí)間步采樣。第二個(gè)條件是,在低時(shí)間步中弱身份保留,這有助于在擴(kuò)散過程中合成細(xì)節(jié)。滿足這兩個(gè)條件的DreamCatalyst專門公式如下:

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

其中,

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

本文注意到,滿足兩個(gè)條件能夠?qū)崿F(xiàn)有效的3D編輯,如上圖1所示。本文將更優(yōu)設(shè)計(jì)選擇的探索留給未來的工作。

使用 FREEU 增強(qiáng)可編輯性

盡管使用所提出的損失函數(shù)的SDEdit過程改善了編輯質(zhì)量,但目標(biāo)函數(shù)的設(shè)計(jì)因固有的權(quán)衡而僅能帶來有限的改進(jìn)。在編輯任務(wù)中,可編輯性和身份保留是眾所周知的權(quán)衡。修改模型架構(gòu)提供了一種替代方法來增強(qiáng)編輯質(zhì)量,帶來了僅通過損失函數(shù)設(shè)計(jì)無法實(shí)現(xiàn)的性能提升。

本文引入了在3D編輯中使用FreeU,以在不增加額外內(nèi)存使用和計(jì)算成本的情況下增強(qiáng)可編輯性。FreeU通過放大包含大量低頻信息的骨干特征來抑制高頻特征。放大骨干特征強(qiáng)調(diào)了低頻特征,從而相對(duì)減少了高頻特征的影響。結(jié)果,通過抑制高頻特征,提高了可編輯性,因?yàn)楦哳l特征的銳利特性被平滑處理,邊緣特征被削弱。此外,身份保留對(duì)應(yīng)于低頻域,通過放大骨干特征得以維持。綜上所述,F(xiàn)reeU在不犧牲身份保留的情況下增強(qiáng)了可編輯性。

REAMCATALYST 中的文本指導(dǎo)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

定性評(píng)估

在下圖 4 中,本文展示了與基線方法的定性比較。雖然基線方法產(chǎn)生的背景模糊且過度飽和,但 DreamCatalyst 很好地保留了源場景的背景。此外,與基線方法相比,DreamCatalyst 合成了更詳細(xì)、更逼真的編輯結(jié)果(例如,基線方法生成的郁金香模糊且缺乏細(xì)節(jié))。PDS 似乎可以很好地編輯主體,但其結(jié)果往往過度飽和且不夠逼真,背景更容易模糊或改變顏色。因此,DreamCatalyst 在保持源場景身份的同時(shí),具有更優(yōu)越的可編輯性,超越了其他基線。

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

定量評(píng)估

本文使用 CLIP 方向相似度、CLIP 圖像相似度和美學(xué)評(píng)分來評(píng)估 DreamCatalyst 和基線方法。CLIP 方向相似度衡量圖像與文本的對(duì)齊程度,CLIP 圖像相似度評(píng)估身份保留的水平,美學(xué)評(píng)分則表示編輯質(zhì)量。如下表 1 和下圖 5 所示,DreamCatalyst 在所有指標(biāo)上均獲得最高分。此外,本文還測量了每種方法的編輯時(shí)間。為了公平比較,本文將所有方法的分辨率設(shè)置為相同。DreamCatalyst 的快速模式比最新的基于 SDS 的編輯方法 PDS 快約 23 倍,高質(zhì)量模式則比 PDS 快約 8 倍。盡管 IN2N 在二維空間中進(jìn)行編輯,比直接的三維編輯方法所需時(shí)間更少,但即使在高質(zhì)量模式下,DreamCatalyst 仍比 IN2N 快 1.85 倍。

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

用戶研究

本文進(jìn)行了用戶研究,如下表 2 所示,因?yàn)閷iT用于評(píng)估 2D 圖像的指標(biāo)不足以評(píng)估 3D 場景。對(duì)于每個(gè)問題,參與者被要求從基線方法和 DreamCatalyst 的結(jié)果中選擇最佳視頻。本文選擇了 15 個(gè)文本提示來評(píng)估三個(gè)標(biāo)準(zhǔn):(1)提示對(duì)齊,(2)整體質(zhì)量和(3)身份保留。每個(gè)標(biāo)準(zhǔn)的問題如下:(1)“在編輯視頻時(shí),哪個(gè)視頻最符合文本提示并展示高質(zhì)量?”(2)“在編輯視頻時(shí),哪個(gè)視頻展示了最佳的編輯質(zhì)量?”和(3)“在編輯源視頻時(shí),哪個(gè)編輯過的視頻最好地保留了源視頻的背景和身份?”為了收集人類偏好數(shù)據(jù),本文利用亞馬遜 Mechanical Turk 對(duì) 50 名參與者進(jìn)行了調(diào)查。結(jié)果表明,DreamCatalyst 在所有標(biāo)準(zhǔn)上都比基線方法更受歡迎,優(yōu)勢明顯。

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

消融實(shí)驗(yàn)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法!快速和高質(zhì)量的3D編輯和身份保持新策略:DreamCatalyst-AI.x社區(qū)

減少時(shí)間步采樣。 在本節(jié)中,本文展示了減少時(shí)間步采樣的有效性。為了公平比較,實(shí)驗(yàn)設(shè)置相同,每次使用 500 次迭代,除了時(shí)間步采樣算法外。如上圖 6 所示,減少時(shí)間步采樣的編輯結(jié)果收斂到細(xì)節(jié)豐富的結(jié)果,而隨機(jī)時(shí)間步采樣的結(jié)果則表現(xiàn)出過飽和的顏色,并且在相同編輯時(shí)間內(nèi)未能保持背景一致性。因此,減少時(shí)間步采樣可以更快地收斂。

結(jié)論

本文提出了一種用于3D編輯的通用公式,通過揭示反向SDEdit過程和DDS之間的關(guān)系。基于這一公式,本文引入了DreamCatalyst,它考慮了擴(kuò)散過程的動(dòng)態(tài)性,通過基于SDS的方法作為反向SDEdit過程來編輯3D場景。此外,本文建議在分?jǐn)?shù)蒸餾中使用FreeU,以克服公式中固有的可編輯性和身份保留之間的權(quán)衡。結(jié)果表明,DreamCatalyst實(shí)現(xiàn)了快速且高質(zhì)量的3D編輯。通過比較分析和用戶研究,本文證明了DreamCatalyst在性能和編輯速度上均超越了最先進(jìn)的方法。


本文轉(zhuǎn)自 AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/e7rLes_M8mLic1q30PjY1A??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 三级成人片| 超碰美女在线 | 精品婷婷| 中文字幕一区二区三区日韩精品 | www.天天干.com| 成人自拍av | 99免费在线观看视频 | 婷婷精品| 欧美精品网 | 综合色在线| 亚洲精品久久久久久首妖 | 中文字幕第90页 | 国产在线精品一区二区三区 | 欧美偷偷| 欧美一级在线 | 午夜性色a√在线视频观看9 | 亚洲一区成人 | 国产成人精品视频在线观看 | 天天夜夜操 | 久久综合久久自在自线精品自 | 免费观看一级毛片 | 亚洲午夜网| 日日操操 | 亚洲 欧美 日韩在线 | 国产一级免费视频 | 国产精品久久久久久久久久免费看 | 欧美成人精品一区二区男人看 | 精品乱码一区二区三四区视频 | 精品九九 | 国产永久免费 | 国产成人高清 | 337p日本欧洲亚洲大胆精蜜臀 | 久久亚洲一区二区三区四区 | 国产999精品久久久 午夜天堂精品久久久久 | 日本久草视频 | 国产一区二区三区四区三区四 | 精品国产乱码久久久久久闺蜜 | 亚洲免费在线 | 午夜网站视频 | 在线一区视频 | 国产成人福利 |