北大團(tuán)隊(duì)用Diffusion升級DragGAN,泛化更強(qiáng)生成質(zhì)量更高,點(diǎn)一點(diǎn)「大山拔地而起」
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
北大團(tuán)隊(duì)最新工作,用擴(kuò)散模型也能實(shí)現(xiàn)拖拉拽P圖!
點(diǎn)一點(diǎn),就能讓雪山長個兒:
或者讓太陽升起:
這就是DragonDiffusion,由北京大學(xué)張健老師團(tuán)隊(duì)VILLA(Visual-Information Intelligent Learning LAB),依托北京大學(xué)深圳研究生院-兔展智能AIGC聯(lián)合實(shí)驗(yàn)室,聯(lián)合騰訊ARC Lab共同帶來。
它可以被理解為DragGAN的變種。
DragGAN如今GitHub Star量已經(jīng)超過3w,它的底層模型基于GAN(生成對抗網(wǎng)絡(luò))。
一直以來,GAN在泛化能力和生成圖像質(zhì)量上都有短板。
而這剛好是擴(kuò)散模型(Diffusion Model)的長處。
所以張健老師團(tuán)隊(duì)就將DragGAN范式推廣到了Diffusion模型上。
該成果發(fā)布時登上知乎熱榜。
有人評價說,這解決了Stable Diffusion生成圖片中部分殘缺的問題,可以很好進(jìn)行控制重繪。
讓獅子在照片中轉(zhuǎn)頭
Dragon Diffusion能帶來的效果還包括改變車頭形狀:
讓沙發(fā)逐漸變長:
再或者是手動瘦臉:
也能替換照片中的物體,比如把甜甜圈放到另一張圖片里:
或者是給獅子轉(zhuǎn)轉(zhuǎn)頭:
該方法框架中包括兩個分支,引導(dǎo)分支(guidance branch)和生成分支(generation branch)。
首先,待編輯圖像通過Diffusion的逆過程,找到該圖像在擴(kuò)散隱空間中的表示,作為兩個分支的輸入。
其中,引導(dǎo)分支會對原圖像進(jìn)行重建,重建過程中將原圖像中的信息注入下方的生成分支。
生成分支的作用是引導(dǎo)信息對原圖像進(jìn)行編輯,同時保持主要內(nèi)容與原圖一致。
根據(jù)擴(kuò)散模型中間特征具有強(qiáng)對應(yīng)關(guān)系,DragonDiffusion在每一個擴(kuò)散迭補(bǔ)中,將兩個分支的隱變量通過相同的UNet去噪器轉(zhuǎn)換到特征域。
然后利用兩個mask,和
區(qū)域。標(biāo)定拖動內(nèi)容在原圖像和編輯后圖像中的位置,然后約束
的內(nèi)容出現(xiàn)在
區(qū)域。
論文通過cosin距離來度量兩個區(qū)域的相似度,并對相似度進(jìn)行歸一化:
除了約束編輯后的內(nèi)容變化,還應(yīng)該保持其他未編輯區(qū)域與原圖的一致性。這里也同樣通過對應(yīng)區(qū)域的相似度進(jìn)行約束。最終,總損失函數(shù)設(shè)計(jì)為:
在編輯信息的注入方面,論文通過score-based Diffusion將有條件的擴(kuò)散過程視為一個聯(lián)合的score function:
將編輯信號通過基于特征強(qiáng)對應(yīng)關(guān)系的score function轉(zhuǎn)化為梯度,對擴(kuò)散過程中的隱變量進(jìn)行更新。
為了兼顧語義和圖形上的對齊,作者在這個引導(dǎo)策略的基礎(chǔ)上引入了多尺度引導(dǎo)對齊設(shè)計(jì)。
此外,為了進(jìn)一步保證編輯結(jié)果和原圖的一致性,DragonDiffusion方法中設(shè)計(jì)了一種跨分支的自注意力機(jī)制。
具體做法是利用引導(dǎo)分支自注意力模塊中的Key和Value替換生成分支自注意力模塊中的Key和Value,以此來實(shí)現(xiàn)特征層面的參考信息注入。
最終,論文提出的方法,憑借其高效的設(shè)計(jì),為生成的圖像和真實(shí)圖像提供了多種編輯模式。
這包括在圖像中移動物體、調(diào)整物體大小、替換物體外觀和圖像內(nèi)容拖動。
在該方法中,所有的內(nèi)容編輯和保存信號都來自圖像本身,無需任何微調(diào)或訓(xùn)練附加模塊,這能簡化編輯過程。
研究人員在實(shí)驗(yàn)中發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)第一層太淺,無法準(zhǔn)確重建圖像。但如果到第四層重建又會太深,效果同樣很差。在第二/三層的效果最佳。
相較于其他方法,Dragon Diffusion的消除效果也表現(xiàn)更好。
來自北大張健團(tuán)隊(duì)等
該成果由北京大學(xué)張健團(tuán)隊(duì)、騰訊ARC Lab和北京大學(xué)深圳研究生院-兔展智能AIGC聯(lián)合實(shí)驗(yàn)室共同帶來。
張健老師團(tuán)隊(duì)曾主導(dǎo)開發(fā)T2I-Adapter,能夠?qū)U(kuò)散模型生成內(nèi)容進(jìn)行精準(zhǔn)控制。
在GitHub上攬星超2k。
該技術(shù)已被Stable Diffusion官方使用,作為涂鴉生圖工具Stable Doodle的核心控制技術(shù)。
兔展智能聯(lián)手北大深研院建立的AIGC聯(lián)合實(shí)驗(yàn)室,近期在圖像編輯生成、法律AI產(chǎn)品等多個領(lǐng)域取得突破性技術(shù)成果。
就在幾周前,北大-兔展AIGC聯(lián)合實(shí)驗(yàn)室就推出了登上知乎熱搜第一的的大語言模型產(chǎn)品ChatLaw,在全網(wǎng)帶來千萬曝光同時,也引發(fā)了一輪社會討論。
聯(lián)合實(shí)驗(yàn)室將聚焦以CV為核心的多模態(tài)大模型,在語言領(lǐng)域繼續(xù)深挖ChatLaw背后的ChatKnowledge大模型,解決法律金融等垂直領(lǐng)域防幻覺,可私有化、數(shù)據(jù)安全問題。
據(jù)悉,實(shí)驗(yàn)室近期還會推出原創(chuàng)對標(biāo)Stable Diffusion的大模型。
論文地址:https://arxiv.org/abs/2307.02421
項(xiàng)目主頁:https://mc-e.github.io/project/DragonDiffusion/