成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!

發(fā)布于 2025-4-28 09:49
瀏覽
0收藏

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2504.02828 
項(xiàng)目鏈接:https://peterljq.github.io/project/colan 
Git鏈接:https://github.com/peterljq/Concept-Lancet

亮點(diǎn)直擊

  • 提出CoLan框架一個(gè)零樣本即插即用的框架,用于在基于擴(kuò)散的圖像編輯中解釋和操作稀疏概念表示。該框架可以精確控制概念移植的幅度,實(shí)現(xiàn)高質(zhì)量的圖像編輯。
  • 構(gòu)建CoLan-150K概念詞典收集了包含多樣化視覺(jué)概念的CoLan-150K數(shù)據(jù)集,并計(jì)算對(duì)應(yīng)的概念向量詞典(文本嵌入或評(píng)分空間),為后續(xù)概念分解與編輯提供基礎(chǔ)。
  • 基于概念分解的編輯方法在推理階段,將源圖像的隱空間向量分解為視覺(jué)概念的線性組合,并利用視覺(jué)語(yǔ)言模型(VLM)優(yōu)化過(guò)完備詞典的效率問(wèn)題。通過(guò)替換、添加或刪除概念向量,實(shí)現(xiàn)靈活的圖像編輯。
  • SOTA性能與即插即用優(yōu)勢(shì)CoLan在多種擴(kuò)散基圖像編輯任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能!

總結(jié)速覽

解決的問(wèn)題

現(xiàn)有的圖像編輯方法在設(shè)計(jì)編輯方向時(shí)面臨挑戰(zhàn):高估編輯強(qiáng)度會(huì)損害視覺(jué)一致性,而低估則無(wú)法完成編輯任務(wù)。每個(gè)源圖像可能需要不同的編輯強(qiáng)度,而通過(guò)反復(fù)試驗(yàn)尋找合適的強(qiáng)度代價(jià)高昂。

提出的方案

本文提出了Concept Lancet (CoLan),一個(gè)用于擴(kuò)散基礎(chǔ)圖像編輯的零樣本即插即用框架。CoLan通過(guò)在推理時(shí)將源輸入在隱空間中分解為視覺(jué)概念的稀疏線性組合,以指導(dǎo)編輯任務(wù)(替換/添加/刪除),并執(zhí)行定制的概念移植過(guò)程來(lái)施加相應(yīng)的編輯方向。

應(yīng)用的技術(shù)

  • 概念表示數(shù)據(jù)集:收集了一個(gè)名為CoLan-150K的概念表示數(shù)據(jù)集,包含多種視覺(jué)概念的描述,并計(jì)算出一個(gè)概念向量詞典到隱空間。
  • 隱空間分解:在推理時(shí),將源隱空間向量分解為視覺(jué)概念的線性組合,以指導(dǎo)編輯。
  • 視覺(jué)語(yǔ)言模型(VLM):使用VLM將圖像提示對(duì)解析為代表性視覺(jué)概念列表,以提高詞典優(yōu)化效率。
  • 骨干網(wǎng)絡(luò)合成:使用骨干網(wǎng)絡(luò)合成編輯后的圖像,靈活地處理替換、添加或刪除概念的任務(wù)。

達(dá)到的效果

配備CoLan的圖像編輯方法在多種基于擴(kuò)散的圖像編輯基準(zhǔn)上表現(xiàn)優(yōu)越,達(dá)到了最先進(jìn)的編輯效果和一致性保持。該方法的即插即用設(shè)計(jì)提供了骨干網(wǎng)絡(luò)和隱空間選擇上的靈活性。

Concept Lancet

在上述背景下,提出一種基于擴(kuò)散的圖像編輯中準(zhǔn)確表示操控的方法。高層次的想法是,我們將不再隨意設(shè)定編輯的量,而是估計(jì)源圖像中存在的概念是什么以及有多少,以指導(dǎo)編輯。這是通過(guò)在隱空間中收集概念向量字典,并將源隱空間向量分解為字典原子的線性組合來(lái)實(shí)現(xiàn),以允許概念移植程序,我們將在下文中分別討論這些程序。

概念字典合成

這里的主要目標(biāo)是收集一組多樣化的概念(以及隱空間中的相應(yīng)概念向量),這些概念既在視覺(jué)上有意義又與圖像編輯相關(guān),使得源隱空間向量的分解能夠捕獲重要的視覺(jué)元素并允許潛在的修改以進(jìn)行有效編輯。這自然歸結(jié)為兩個(gè)步驟:為刺激合成策劃視覺(jué)概念和從刺激中提取概念向量。我們?cè)谙旅婷枋鑫覀兊姆椒ǎ⑴c文獻(xiàn)中的替代方案進(jìn)行比較。


策劃視覺(jué)概念 

構(gòu)建特定領(lǐng)域的概念被廣泛采用來(lái)評(píng)估和控制生成基礎(chǔ)模型 [23, 24, 26, 29, 63, 64]。為了對(duì)給定概念的豐富語(yǔ)義進(jìn)行建模,一種新興的工作收集文本概念刺激(即一組示例、描述和場(chǎng)景)用于下游LLM或擴(kuò)散編輯任務(wù) [33, 40, 57, 72]。在將這些概念應(yīng)用于圖像編輯時(shí)有三個(gè)問(wèn)題:

  • 許多用于編輯LLM的概念 [33, 72],例如“誠(chéng)實(shí)”或“困難”,并不適合擴(kuò)散模型中的圖像編輯?,F(xiàn)有的概念刺激通常是專門(mén)為L(zhǎng)LM激活讀取而設(shè)計(jì)的格式(例如,以第二人稱代詞開(kāi)頭)。
  • 這些概念主要集中在單詞描述符(例如“愛(ài)”、“友誼”),而不是有助于建模視覺(jué)空間的多詞短語(yǔ)(例如“戴著太陽(yáng)鏡”或“由木頭制成”)。
  • 現(xiàn)有的用于圖像編輯的概念集合開(kāi)放源代碼的概念向量數(shù)量有限(例如,[40]中的少于20個(gè),[32, 41]中的少于50個(gè))。

為了解決這些問(wèn)題,我們策劃了一套與圖像編輯任務(wù)相關(guān)的全面視覺(jué)概念。具體來(lái)說(shuō),對(duì)于每個(gè)編輯任務(wù),包括源圖像、源提示和編輯提示,我們使用VLM [37]解析圖像提示元組并生成相關(guān)視覺(jué)概念列表。此步驟確保我們的概念既有視覺(jué)基礎(chǔ)又與編輯相關(guān)。


然后,我們指導(dǎo)一個(gè)LLM [38]進(jìn)行上下文內(nèi)刺激合成演示,以生成每個(gè)概念的多樣刺激,以捕獲概念出現(xiàn)的各種上下文。說(shuō)明在附錄中展示。經(jīng)過(guò)所有編輯任務(wù)的概念收集后,我們獲得了5,078個(gè)概念和總計(jì)152,971個(gè)概念刺激,我們稱之為CoLan-150K。下圖4展示了我們數(shù)據(jù)集中概念刺激的樣本。與現(xiàn)有的基于擴(kuò)散的編輯概念表示集合相比,CoLan-150K代表了顯著的擴(kuò)展,為每個(gè)概念提供了更豐富和多樣化的表示。通過(guò)對(duì)概念的各種觀察進(jìn)行采樣,大量的刺激幫助準(zhǔn)確估計(jì)出在上下文變化中具有魯棒性的表示。

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

通過(guò)稀疏分解進(jìn)行概念移植

現(xiàn)在已經(jīng)獲得了一個(gè)概念字典,接著描述如何沿字典分解圖像的隱空間code并移植概念。

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

概念分析 給定一個(gè)源隱空間向量v(來(lái)自文本編碼器或評(píng)分函數(shù)),通過(guò)稀疏編碼沿著  中的方向?qū)ζ溥M(jìn)行分解。也就是說(shuō),我們解決以下優(yōu)化問(wèn)題:

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果

定量評(píng)估

使用PIE-Bench對(duì)CoLan與當(dāng)前方法進(jìn)行標(biāo)準(zhǔn)化定量評(píng)估。其編輯任務(wù)基于廣泛的圖像來(lái)源集合(例如,TEdBench,TI2I基準(zhǔn)),包括多種場(chǎng)景類型和編輯類別。

基線 

比較兩類基于概念轉(zhuǎn)移方法的編輯骨干: (1) 注意力圖的機(jī)械交換,包括P2P和MasaCtrl,以及(2)表示操作,使我們能夠在InfEdit的擴(kuò)散評(píng)分空間(S)和InfEdit及P2P-Zero的文本嵌入空間(E)中插入CoLan。我們涵蓋多種逆轉(zhuǎn)方法,如DDIM,直接逆轉(zhuǎn)(DI),和虛擬逆轉(zhuǎn)(VI)。進(jìn)一步的實(shí)施細(xì)節(jié)可以在附錄中找到。

指標(biāo) 

兩個(gè)主要標(biāo)準(zhǔn)是一致性保留和編輯效果。一致性保留是一組指標(biāo),旨在評(píng)估在圖像編輯過(guò)程中保留的語(yǔ)義信息量。我們報(bào)告結(jié)構(gòu)距離(StruDist),PSNR,LPIPS,和SSIM。另一方面,編輯效果衡量編輯部分的正確性,它通過(guò)兩個(gè)指標(biāo)進(jìn)行評(píng)估:目標(biāo)圖像指標(biāo)計(jì)算編輯文本和編輯圖像之間的CLIP相似度,而目標(biāo)概念指標(biāo)計(jì)算編輯文本和目標(biāo)圖像的編輯遮罩區(qū)域之間的CLIP相似度。

結(jié)果 

下表1報(bào)告了我們的結(jié)果。所有配備CoLan的骨干都提高了編輯效果,這表明CoLan準(zhǔn)確地編輯圖像以達(dá)到所需的目標(biāo)概念。此外,我們觀察到配備CoLan的骨干在一致性保留方面表現(xiàn)更好。例如,在P2P-Zero骨干上,CoLan能夠?qū)崿F(xiàn)近50%更低的StruDist和LPIPS,以及約10%更高的PSNR和SSIM。雖然DI與P2P實(shí)現(xiàn)了最佳的StruDist,CoLan在StruDist上排名非常接近第二,并在所有其他一致性指標(biāo)上總體上實(shí)現(xiàn)了更好的性能。我們認(rèn)為StruDist計(jì)算兩個(gè)圖像的DINO-V2特征圖之間的平均差異。因此,這個(gè)單一指標(biāo)在很大程度上依賴于特定的變壓器,全面檢查四個(gè)指標(biāo)是更公平的一致性評(píng)估方式。值得注意的是,InfEdit在評(píng)分空間中配備CoLan在多個(gè)指標(biāo)上表現(xiàn)最為突出。

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

此外,下表2顯示了使用InfEdit和P2P-Zero骨干的CLIP空間進(jìn)行CoLan稀疏分解的平均時(shí)間。觀察到,由于VLM幫助使字典簡(jiǎn)潔,分解僅占總編輯時(shí)間的一小部分。這表明CoLan在相對(duì)于擴(kuò)散模型推理的總計(jì)算成本方面是高效且廉價(jià)的。此外,下表3比較了不同字典大小下CoLan的編輯性能。如預(yù)期,觀察到較大的CoLan字典在捕捉源圖像中現(xiàn)有概念的存在方面表現(xiàn)更好,從而導(dǎo)致更強(qiáng)的編輯性能??傮w而言,定量實(shí)驗(yàn)表明,CoLan的概念移植過(guò)程受益于存在于CLIP空間和擴(kuò)散評(píng)分空間中的適當(dāng)準(zhǔn)確且稀疏的概念表示,以獲得更好的圖像編輯性能。

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

定性觀察

本節(jié)提供編輯圖像的定性結(jié)果。比較了使用給定骨干編輯的圖像與補(bǔ)充了CoLan的圖像之間的視覺(jué)質(zhì)量。

視覺(jué)比較

每個(gè)目標(biāo)圖像可以分為兩個(gè)部分:i) 感興趣區(qū)域,對(duì)應(yīng)于源概念,應(yīng)該進(jìn)行編輯以表達(dá)目標(biāo)概念;ii) 背景,其內(nèi)容在編輯過(guò)程中應(yīng)保持不變。在這里,定性分析使用CoLan進(jìn)行圖像編輯時(shí)的這兩個(gè)方面。


理想情況下,提供的編輯應(yīng)準(zhǔn)確反映在感興趣區(qū)域。觀察到僅使用骨干進(jìn)行編輯通常會(huì)導(dǎo)致過(guò)度或不足的編輯。例如,在從[spaceship]修改為[eagle]的任務(wù)中(如圖7,說(shuō)明:“穿著裙子站在[spaceship]前面的女人”),僅使用InfEdit骨干得到的編輯圖像中,感興趣區(qū)域僅類似于模糊的鳥(niǎo),而插入CoLan后明顯可見(jiàn)鷹。此外,在下圖5中,例子說(shuō)明為“一只[meerkat]幼崽包裹在藍(lán)色毛巾中。”在源圖像中,藍(lán)色毛巾包裹著狐獴。僅使用P2P-Zero骨干,輸出圖像中缺少毛巾,而插入CoLan后的輸出圖像中,藍(lán)色毛巾幾乎與源圖像中的位置相同。

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

如所見(jiàn),對(duì)于感興趣區(qū)域和背景,編輯后的圖像質(zhì)量更高,當(dāng)骨干方法與CoLan一起運(yùn)行時(shí)。我們推測(cè)這是可能的,因?yàn)镃oLan通過(guò)稀疏分解尊重概念向量的幾何形狀。通過(guò)識(shí)別正確的系數(shù),我們的概念移植是精確的,并且不會(huì)顯著影響非目標(biāo)語(yǔ)義。

表示分解

方法的關(guān)鍵步驟之一是將隱空間表示(來(lái)自編輯骨干)線性分解為字典原子的稀疏組合。我們后續(xù)編輯任務(wù)的成功取決于找到一組合適的概念系數(shù),這些系數(shù)能夠準(zhǔn)確反映源圖像中的語(yǔ)義。這里我們驗(yàn)證CoLan確實(shí)找到了并分析了對(duì)給定圖像可見(jiàn)貢獻(xiàn)的代表性概念。


下圖6和圖8展示了CoLan在CLIP空間和分?jǐn)?shù)空間中解決的概念系數(shù)的幅度直方圖。在分?jǐn)?shù)空間中的分解(圖8),以左側(cè)說(shuō)明為“站在樹(shù)枝上的彩色鳥(niǎo)”為例。CoLan找到了圖像中的前三個(gè)概念,包括“鳥(niǎo)”、“喙”和“詳細(xì)羽毛”,這些都是與提供的圖像中的鳥(niǎo)相關(guān)的概念。類似地,取圖6中的第二個(gè)圖像說(shuō)明為“坐在柵欄上的橙色貓”。直方圖中的頂級(jí)概念是關(guān)鍵語(yǔ)義,包括“貓”、“柵欄”和“橙色”??傮w而言,在這兩個(gè)空間中,CoLan能夠找到描述性概念并解決系數(shù)以準(zhǔn)確反映語(yǔ)義的組成。

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

CoLan-150K中的表示分析

本節(jié)研究從CoLan-150K數(shù)據(jù)集中不同概念刺激獲得的概念向量。我們?cè)谙挛闹性u(píng)估概念向量的基礎(chǔ)和編輯圖像中概念的變異性。

概念基礎(chǔ)

當(dāng)提取的概念向量在編輯骨干中有效地施加對(duì)應(yīng)的視覺(jué)語(yǔ)義時(shí),該向量就是有基礎(chǔ)的。例如,如果我們使用表示讀取[33, 40, 57, 72]將刺激轉(zhuǎn)換為[green]概念向量,那么在圖像編輯骨干中添加此向量時(shí),希望看到顏色“綠色”。


通過(guò)以下方式驗(yàn)證我們的概念向量是有基礎(chǔ)的。對(duì)于給定的概念[x],從CoLan-150K中提取其概念向量。然后通過(guò)在每個(gè)源圖像的骨干中添加概念向量生成編輯后的圖像。最后,評(píng)估CLIP(源圖像, “x”)和CLIP(編輯圖像, “x”)之間的差異。如果給定的概念向量確實(shí)是有基礎(chǔ)的,希望看到該指標(biāo)的增加。在表4中,我們對(duì)三個(gè)概念方向[watercolor]、[dog]、[wearing hat]進(jìn)行采樣,并將P2P-Zero與CoLan一起應(yīng)用于PIE-Bench中的每個(gè)源圖像。

我們進(jìn)一步根據(jù)四種圖像類型:人工、自然、室內(nèi)和室外劃分結(jié)果。在所有圖像類型和我們給定的概念中,我們觀察到CLIP相似性顯著增加,這意味著編輯后的圖像確實(shí)朝向所需的概念方向,并且概念向量是有基礎(chǔ)的。更多概念和可視化的結(jié)果可以在附錄中找到。

比較編輯強(qiáng)度

如我們?cè)谏衔闹兴?,適當(dāng)?shù)膱D像編輯需要根據(jù)給定源圖像中概念的存在來(lái)準(zhǔn)確估計(jì)編輯強(qiáng)度。沿著所需編輯方向[7, 10, 41, 47]可視化源圖像的漸進(jìn)變化,為估計(jì)編輯強(qiáng)度提供了見(jiàn)解。在這里,比較了來(lái)自CoLan-150K數(shù)據(jù)集的概念向量與系數(shù)網(wǎng)格的編輯效果。下圖9和圖10分別在兩個(gè)場(chǎng)景中進(jìn)行實(shí)驗(yàn):概念移除和概念添加。

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬(wàn)場(chǎng)景概念庫(kù)讓AI秒懂你的P圖意圖!-AI.x社區(qū)

結(jié)論

本文提出了Concept Lancet (CoLan),一個(gè)用于擴(kuò)散式圖像編輯中原則性表示操作的零樣本即插即用框架。通過(guò)利用一個(gè)大規(guī)模的概念表示精心策劃的數(shù)據(jù)集 (CoLan-150K),為編輯任務(wù)提取了一個(gè)上下文詞典,并在隱空間中執(zhí)行稀疏分解以準(zhǔn)確估計(jì)概念移植的幅度。

與CoLan結(jié)合的圖像編輯骨架在編輯任務(wù)中實(shí)現(xiàn)了最先進(jìn)的性能,同時(shí)更好地保持了視覺(jué)一致性。通過(guò)多個(gè)視角的廣泛定量和定性評(píng)估,展示了CoLan在解釋和改善圖像編輯過(guò)程中的強(qiáng)大能力。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/SJjix2_XCvLz980zrjTT_g??

標(biāo)簽
已于2025-4-28 09:51:24修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 久久久久久久电影 | 色精品视频| 日韩中文字幕免费在线观看 | 日韩不卡在线观看 | 在线免费观看黄色网址 | 精品欧美一区二区三区久久久 | 少妇一级淫片aaaaaaaaa | 91精品国产综合久久久动漫日韩 | 色婷婷影院 | 久久精品久久久久久 | av一级久久| 在线观看av免费 | 国产一区91精品张津瑜 | 国产精品久久久久久久久免费丝袜 | 国产91综合一区在线观看 | 天天色天天色 | 青青草av| 久久这里只有精品首页 | 91se在线| 亚洲美女天堂网 | 国产午夜精品一区二区三区嫩草 | 午夜综合 | 在线观看亚洲 | 久久精品国产精品青草 | 成人黄色在线观看 | 青青操91 | 成人午夜视频在线观看 | 国产精品特级片 | 国产免费观看一级国产 | 在线精品国产 | 中文字幕日韩在线观看 | 久久精品小视频 | 精品日本中文字幕 | www.日本国产| 激情一区| 亚洲视频免费在线观看 | 亚洲人免费视频 | 国产精品大片在线观看 | 国产精品亚洲视频 | 精品在线一区 | 国产亚洲欧美在线 |