成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等 精華

發(fā)布于 2025-4-24 09:51
瀏覽
0收藏

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2504.15009 
開(kāi)源地址:https://song-wensong.github.io/insert-anything/ 

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

亮點(diǎn)直擊

  • 發(fā)布了AnyInsertion數(shù)據(jù)集,這是一個(gè)包含120K提示-圖像對(duì)的大規(guī)模數(shù)據(jù)集,涵蓋了廣泛的插入任務(wù),例如人物、物體和服裝插入。
  • 提出了Insert Anything框架,這是一個(gè)統(tǒng)一框架,通過(guò)單一模型無(wú)縫處理多種插入任務(wù)(人物、物體和服裝)。
  • 首個(gè)利用DiT(Diffusion Transformer)進(jìn)行圖像插入的研究,充分發(fā)揮了其在不同控制模式下的獨(dú)特能力。
  • 開(kāi)發(fā)了上下文編輯技術(shù),采用雙聯(lián)畫(huà)(diptych)和三聯(lián)畫(huà)(triptych)提示策略,將參考元素?zé)o縫整合到目標(biāo)場(chǎng)景中,同時(shí)保持身份特征。

商業(yè)廣告和流行文化領(lǐng)域有大應(yīng)用

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)


只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

  • 任務(wù)局限性:現(xiàn)有方法僅針對(duì)特定任務(wù)(如人物插入、服裝插入),缺乏通用性。
  • 控制模式單一:依賴固定控制方式(僅掩碼或僅文本引導(dǎo)),靈活性不足。
  • 視覺(jué)-參考不協(xié)調(diào):插入內(nèi)容與目標(biāo)場(chǎng)景風(fēng)格不一致,或丟失參考圖像的細(xì)節(jié)特征。

提出的方案

  • AnyInsertion 數(shù)據(jù)集

a.包含 120K 提示-圖像對(duì),覆蓋人物、物體、服裝插入等多樣化任務(wù)。

b.支持多控制模式(58K mask-提示對(duì) + 101K 文本-提示對(duì))。

  • 統(tǒng)一框架 Insert Anything

a.掩碼提示雙聯(lián)畫(huà)(Mask-prompt diptych):左參考圖 + 右掩碼目標(biāo)圖。

b.文本提示三聯(lián)畫(huà)(Text-prompt triptych):左參考圖 + 中源圖 + 右文本生成結(jié)果。

c.基于 Diffusion Transformer (DiT) 的多模態(tài)注意力機(jī)制,聯(lián)合建模文本、掩碼與圖像關(guān)系。

d.上下文編輯機(jī)制:將參考圖像作為上下文,通過(guò)兩種提示策略實(shí)現(xiàn)自適應(yīng)融合:

應(yīng)用的技術(shù)

  • 擴(kuò)散Transformer(DiT):利用其多模態(tài)注意力機(jī)制,支持掩碼和文本雙引導(dǎo)編輯。
  • 上下文學(xué)習(xí):通過(guò)參考圖像與目標(biāo)場(chǎng)景的隱式交互,保持特征一致性。
  • 多樣化提示策略:適配不同控制模式,確保插入內(nèi)容的自然融合。

達(dá)到的效果

  • 通用性強(qiáng):?jiǎn)我荒P椭С侄嗳蝿?wù)(人物、物體、服裝插入等),無(wú)需針對(duì)任務(wù)單獨(dú)訓(xùn)練。
  • 靈活控制:同時(shí)支持掩碼引導(dǎo)和文本引導(dǎo)編輯,滿足多樣化需求。
  • 高質(zhì)量生成

a.在 AnyInsertion、DreamBooth 和 VTON-HD 基準(zhǔn)測(cè)試中優(yōu)于現(xiàn)有方法。

b.保留參考圖像細(xì)節(jié)特征,同時(shí)實(shí)現(xiàn)與目標(biāo)場(chǎng)景的顏色、紋理和諧融合。

  • 應(yīng)用廣泛:適用于創(chuàng)意內(nèi)容生成、虛擬試衣、場(chǎng)景合成等實(shí)際場(chǎng)景。

AnyInsertion數(shù)據(jù)集

為了實(shí)現(xiàn)多樣化的圖像插入任務(wù),提出了一個(gè)新的大規(guī)模數(shù)據(jù)集AnyInsertion。首先與現(xiàn)有數(shù)據(jù)集進(jìn)行比較,隨后詳細(xì)描述數(shù)據(jù)集構(gòu)建過(guò)程,最后提供詳細(xì)的數(shù)據(jù)集統(tǒng)計(jì)信息。

與現(xiàn)有數(shù)據(jù)集的比較

現(xiàn)有數(shù)據(jù)集存在以下局限性:

  • 數(shù)據(jù)類別有限:FreeEdit數(shù)據(jù)集主要關(guān)注動(dòng)植物,VITON-HD數(shù)據(jù)集專攻服裝領(lǐng)域。即使AnyDoor和MimicBrush包含大規(guī)模數(shù)據(jù),它們也僅涉及極少量的人物插入樣本。
  • 提示類型受限:FreeEdit僅提供文本提示數(shù)據(jù),而VITON-HD僅支持掩碼提示數(shù)據(jù)。
  • 圖像質(zhì)量不足:AnyDoor和MimicBrush使用了大量視頻數(shù)據(jù),這些視頻數(shù)據(jù)集常存在低分辨率和運(yùn)動(dòng)模糊問(wèn)題。

為解決這些問(wèn)題,本文構(gòu)建了AnyInsertion數(shù)據(jù)集。如下表1所示,與現(xiàn)有數(shù)據(jù)集[5,11]相比,AnyInsertion涵蓋多樣類別,提供更高分辨率圖像,同時(shí)支持掩碼和文本提示,并包含更多樣本。

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

數(shù)據(jù)構(gòu)建

數(shù)據(jù)收集

圖像插入需要成對(duì)數(shù)據(jù):包含待插入元素的參考圖像,以及插入操作的目標(biāo)圖像。如下圖2a所示,采用圖像匹配技術(shù)創(chuàng)建目標(biāo)-參考圖像對(duì),并從互聯(lián)網(wǎng)來(lái)源收集對(duì)應(yīng)標(biāo)簽,利用大量展示配飾及佩戴者的圖像。對(duì)于物體相關(guān)數(shù)據(jù),我們從MVImgNet中選擇多視角常見(jiàn)物體圖像作為參考-目標(biāo)對(duì)。對(duì)于人物插入,我們應(yīng)用頭部姿態(tài)估計(jì)從HumanVid數(shù)據(jù)集中篩選頭部姿態(tài)相似但身體姿態(tài)不同的高分辨率真實(shí)場(chǎng)景視頻幀,并通過(guò)模糊檢測(cè)過(guò)濾過(guò)度運(yùn)動(dòng)模糊的幀,獲得高質(zhì)量人物插入數(shù)據(jù)。

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

數(shù)據(jù)生成

本文的框架支持兩種控制模式:掩碼提示和文本提示。

  • 掩碼提示編輯:需要掩碼指定目標(biāo)圖像的插入?yún)^(qū)域,使用參考圖像元素填充目標(biāo)圖像的掩碼區(qū)域。每個(gè)數(shù)據(jù)樣本表示為元組:(參考圖像,參考掩碼,目標(biāo)圖像,目標(biāo)掩碼)。具體使用Grounded-DINO和Segment Anything(SAM)從輸入圖像和標(biāo)簽生成參考與目標(biāo)掩碼。
  • 文本提示編輯:需要文本描述參考圖像元素如何插入源圖像以形成目標(biāo)圖像。每個(gè)數(shù)據(jù)樣本表示為元組:(參考圖像,參考掩碼,目標(biāo)圖像,源圖像,文本)。源圖像、文本描述和參考掩碼按以下方式生成:

a.源圖像生成:通過(guò)對(duì)目標(biāo)圖像應(yīng)用替換或移除操作生成。替換操作使用類別特定指令模板(如“將[source]替換為[reference]”)和基于文本的編輯模型生成初始編輯。為保持圖像協(xié)調(diào)性,采用FLUX.1 Fill[dev]保留未編輯區(qū)域,僅修改掩碼區(qū)域。移除操作則使用DesignEdit模型結(jié)合目標(biāo)掩碼獲得結(jié)果。

b.文本生成:替換操作適配指令模板(如“將[source]替換為[reference]”),添加操作使用格式“添加[label]”描述變換。

c.參考掩碼提取:方法與掩碼提示編輯相同。

數(shù)據(jù)集概覽

AnyInsertion數(shù)據(jù)集包含訓(xùn)練和測(cè)試子集。訓(xùn)練集共159,908個(gè)樣本,分為兩類提示:

  • 58,188個(gè)掩碼提示圖像對(duì)(參考圖像、參考掩碼、目標(biāo)圖像、目標(biāo)掩碼)
  • 101,720個(gè)文本提示圖像對(duì)(參考圖像、參考掩碼、源圖像、目標(biāo)圖像、文本)

如前面圖2b所示,數(shù)據(jù)集覆蓋人類主體、日用品、服裝、家具和各類物體等多樣類別,支持人物插入、物體插入和服裝插入等多種任務(wù),適用于廣泛的實(shí)際應(yīng)用。評(píng)估使用的測(cè)試集包含158對(duì)數(shù)據(jù):120對(duì)掩碼提示和38對(duì)文本提示。掩碼提示子集包括40對(duì)物體插入、30對(duì)服裝插入和60對(duì)人物插入(30對(duì)簡(jiǎn)單場(chǎng)景和30對(duì)復(fù)雜場(chǎng)景)。

Insert Anything 模型

概述

圖像插入任務(wù)需要三個(gè)關(guān)鍵輸入:

  1. 包含待插入元素的參考圖像
  2. 提供背景環(huán)境的源圖像
  3. 指導(dǎo)插入過(guò)程的控制提示(掩碼或文本)

目標(biāo)是生成一個(gè)目標(biāo)圖像,將參考圖像中的元素(以下簡(jiǎn)稱“參考元素”)無(wú)縫整合到源圖像中,同時(shí)滿足:

  • 保持參考元素的身份特征(定義該元素的視覺(jué)特征)
  • 嚴(yán)格遵循提示的規(guī)范

如下圖3所示,本文的方法包含三個(gè)核心組件:

  1. 多聯(lián)畫(huà)上下文格式:通過(guò)組織輸入數(shù)據(jù)利用上下文關(guān)系
  2. 語(yǔ)義引導(dǎo)機(jī)制:從文本提示或參考圖像中提取高層信息
  3. 基于DiT的架構(gòu):通過(guò)多模態(tài)注意力融合上述元素

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

這些組件共同實(shí)現(xiàn)了靈活控制,同時(shí)確保插入元素與周圍環(huán)境的視覺(jué)協(xié)調(diào)性。

上下文編輯

上下文編輯的核心是將參考元素整合到源圖像中,同時(shí)維持它們之間的上下文關(guān)系。具體步驟如下:

背景移除

首先通過(guò)背景移除步驟隔離參考元素:

  • 采用Grounded-DINO和SAM的分割流程移除參考圖像背景,僅保留待插入對(duì)象

獲得參考元素后,根據(jù)提示類型采用兩種編輯策略:

掩碼提示雙聯(lián)畫(huà)(Mask-Prompt Diptych)適用于掩碼引導(dǎo)編輯,采用雙面板結(jié)構(gòu):

  • 左面板:處理后的參考圖像(已移除背景)
  • 右面板:部分掩碼覆蓋的源圖像

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

文本提示三聯(lián)畫(huà)(Text-Prompt Triptych)

對(duì)于文本提示編輯,我們采用三面板結(jié)構(gòu)(三聯(lián)畫(huà)),包含:

  1. 處理后的參考圖像
  2. 未修改的源圖像
  3. 待填充的完全掩碼區(qū)域

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

其中每個(gè)組件的尺寸與其對(duì)應(yīng)面板相同。

多控制模式

本文的框架支持兩種圖像插入控制模式:

  1. 掩碼提示:通過(guò)手動(dòng)標(biāo)注掩碼指定插入?yún)^(qū)域
  2. 文本提示:通過(guò)文字描述控制插入過(guò)程

這兩種模式通過(guò)以下架構(gòu)實(shí)現(xiàn)靈活整合:

多模態(tài)注意力機(jī)制

基于DiT的多模態(tài)注意力機(jī)制,采用雙分支結(jié)構(gòu):

  • 圖像分支:處理視覺(jué)輸入(參考圖像/源圖像/對(duì)應(yīng)掩碼)

a.將輸入編碼為特征表示

b.沿通道維度與噪聲拼接以準(zhǔn)備生成

  • 文本分支:編碼文本描述以提取語(yǔ)義引導(dǎo)

特征融合

通過(guò)多模態(tài)注意力實(shí)現(xiàn)跨模態(tài)特征融合:

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

[; ]代表拼接操作,Q、K、V分別是注意力機(jī)制中的查詢(query)、鍵(key)和值(value)組件。以下說(shuō)明兩種控制模式下注意力機(jī)制的運(yùn)行方式:

掩碼提示(Mask-Prompt)

在掩碼提示編輯中,源圖像的插入?yún)^(qū)域通過(guò)二進(jìn)制掩碼指定。該掩碼與經(jīng)過(guò)VAE處理的雙聯(lián)畫(huà)沿通道維度拼接后,與噪聲一起輸入DiT模型的圖像分支。同時(shí),通過(guò)CLIP圖像編碼器提取參考圖像的語(yǔ)義特征并傳入文本分支,以提供上下文引導(dǎo)。

文本提示(Text-Prompt)

在文本提示編輯中,插入操作由文本描述引導(dǎo)。參考圖像指示預(yù)期修改內(nèi)容,而文本提示具體說(shuō)明變更要求。源圖像將根據(jù)文本描述進(jìn)行相應(yīng)調(diào)整。為此我們?cè)O(shè)計(jì)專用提示模板:"一幅由三張并置圖像組成的三聯(lián)畫(huà)。左側(cè)是[label]的照片;右側(cè)場(chǎng)景與中部完全相同,但左側(cè)需[instruction]。" 該結(jié)構(gòu)化提示提供語(yǔ)義上下文——[label]標(biāo)識(shí)參考元素類型,[instruction]指定修改要求。輸入經(jīng)文本編碼器處理后引導(dǎo)DiT文本分支,三聯(lián)畫(huà)結(jié)構(gòu)經(jīng)VAE處理輸入圖像分支,文本標(biāo)記與圖像特征拼接以實(shí)現(xiàn)分支間的聯(lián)合注意力。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

實(shí)現(xiàn)細(xì)節(jié)

本文的方法基于FLUX.1 Fill [dev]——一種采用DiT架構(gòu)的圖像修復(fù)模型。框架整合了T5文本編碼器與SigLIP圖像編碼器,并使用秩為256的LoRA進(jìn)行微調(diào)。訓(xùn)練時(shí),掩碼提示的批大小為8,文本提示為6,所有圖像統(tǒng)一處理為768×768像素分辨率。采用Prodigy優(yōu)化器,啟用安全預(yù)熱(safeguard warmup)和偏置校正(bias correction),權(quán)重衰減設(shè)為0.01。實(shí)驗(yàn)在4塊NVIDIA A800 GPU(每塊80GB)集群上完成。訓(xùn)練數(shù)據(jù)主要來(lái)自自建的AnyInsertion數(shù)據(jù)集,針對(duì)兩種提示類型(掩碼與文本)各訓(xùn)練5000步。采樣階段執(zhí)行50次去噪迭代,訓(xùn)練損失函數(shù)遵循流匹配(flow matching)方法。

測(cè)試數(shù)據(jù)集

在三個(gè)多樣化數(shù)據(jù)集上評(píng)估方法性能:

  1. Insert Anything:從自建的Insert Anything數(shù)據(jù)集中選取40個(gè)樣本用于物體插入評(píng)估,30個(gè)用于服裝插入,30個(gè)用于人物插入(簡(jiǎn)單場(chǎng)景);
  2. DreamBooth:構(gòu)建含30組圖像的測(cè)試集,每組包含一張參考圖像和一張目標(biāo)圖像;
  3. VTON-HD:作為虛擬試穿與服裝插入任務(wù)的標(biāo)準(zhǔn)基準(zhǔn)。

定量結(jié)果

物體插入性能

如下表2和表3所示,Insert Anything在掩碼提示和文本提示的物體插入任務(wù)中,所有指標(biāo)均超越現(xiàn)有方法。掩碼提示插入任務(wù)中,本方法將AnyInsertion數(shù)據(jù)集的SSIM從0.7648提升至0.8791,DreamBooth數(shù)據(jù)集從0.6039提升至0.7820;文本提示插入任務(wù)中LPIPS從0.3473降至0.2011,表明感知質(zhì)量顯著提升。這些改進(jìn)證明了模型在保持物體身份特征的同時(shí),能與目標(biāo)場(chǎng)景實(shí)現(xiàn)完美融合的卓越能力。

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

服裝插入性能

如下表4所示,Insert Anything在兩個(gè)評(píng)估數(shù)據(jù)集上全面超越統(tǒng)一框架和專用服裝插入方法。在廣泛使用的VTON-HD基準(zhǔn)測(cè)試中,LPIPS從0.0513優(yōu)化至0.0484,同時(shí)PSNR(26.10 vs. 25.64)和SSIM(0.9161 vs. 0.8903)均有顯著提升。與ACE++等統(tǒng)一框架相比優(yōu)勢(shì)更為明顯,印證了本方法在專用任務(wù)質(zhì)量與統(tǒng)一架構(gòu)結(jié)合方面的有效性。

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

人物插入性能

如下表5所示,在AnyInsertion數(shù)據(jù)集的人物插入任務(wù)中,本方法所有指標(biāo)均顯著領(lǐng)先。相比原有最佳結(jié)果,結(jié)構(gòu)相似性(SSIM: 0.8457 vs. 0.7654)和感知質(zhì)量(FID: 52.77 vs. 66.84)提升尤為突出,這在需要保持人物身份特征的復(fù)雜插入場(chǎng)景中具有重要意義。

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

定性分析

下圖4展示了三類任務(wù)的視覺(jué)對(duì)比結(jié)果,凸顯Insert Anything的三大優(yōu)勢(shì):

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

  1. 物體插入:在物體-人物/物體-物體交互的復(fù)雜場(chǎng)景中,能完美保持參考物體細(xì)節(jié)特征并實(shí)現(xiàn)自然融合;
  2. 服裝插入:對(duì)服裝logo/文字保留和褲裙轉(zhuǎn)換等形狀變化任務(wù),細(xì)節(jié)保持和自然貼合度均優(yōu)于專用方法;
  3. 人物插入:在人物-人物/人物-動(dòng)物/人物-物體交互場(chǎng)景中,身份特征保持與場(chǎng)景融合效果最佳。

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

消融實(shí)驗(yàn)

針對(duì)掩碼提示插入任務(wù)進(jìn)行消融研究(下表6為加權(quán)平均結(jié)果,權(quán)重比=物體:服裝:人物=4:3:3):

  • 上下文編輯:移除該模塊會(huì)導(dǎo)致紋理等高頻細(xì)節(jié)丟失(下圖6),PSNR/SSIM/LPIPS指標(biāo)顯著下降;
  • 語(yǔ)義引導(dǎo):取消參考圖像語(yǔ)義引導(dǎo)時(shí),生成圖像會(huì)丟失顏色等高階特征(圖6);
  • AnyInsertion數(shù)據(jù)集:僅使用免訓(xùn)練模型推理時(shí),人物面部細(xì)節(jié)保持能力明顯退化(圖6),所有指標(biāo)同步下降。

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

只需一張圖,萬(wàn)物皆可插!Insert Anything開(kāi)源啦!開(kāi)創(chuàng)AI圖像插入新時(shí)代|浙大&哈佛等-AI.x社區(qū)

結(jié)論

本文提出統(tǒng)一框架Insert Anything,通過(guò)支持掩碼/文本雙引導(dǎo)模式突破專用方法局限。基于12萬(wàn)提示-圖像對(duì)的AnyInsertion數(shù)據(jù)集和DiT架構(gòu),創(chuàng)新性地采用雙聯(lián)畫(huà)/三聯(lián)畫(huà)提示策略實(shí)現(xiàn)上下文編輯機(jī)制,在保持身份特征的同時(shí)確保視覺(jué)協(xié)調(diào)性。三大基準(zhǔn)測(cè)試表明,本方法在人物/物體/服裝插入任務(wù)中全面超越現(xiàn)有技術(shù),為基于參考的圖像編輯樹(shù)立新標(biāo)桿,為實(shí)際創(chuàng)意應(yīng)用提供通用解決方案。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/aT-wC1DclgRKmR0_wpESdQ??

已于2025-4-24 09:57:48修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 亚洲每日更新 | 黄网在线观看 | 九九99九九精彩46 | 成人在线中文字幕 | 国产精品久久久久久久毛片 | 中文字幕av在线一二三区 | 精品久久精品 | 欧美日韩国产一区二区三区 | 亚洲一区久久 | 中文字幕免费中文 | 激情久久网 | 欧美一区二区久久 | 成人免费大片黄在线播放 | 午夜理伦三级理论三级在线观看 | 久久丝袜视频 | 久久精品国产一区二区三区 | 视频一区在线 | 亚洲综合国产 | 成人动漫视频网站 | 中文字幕 国产 | 一区二区三区国产好 | 最近中文字幕免费 | 久久99精品久久久久久 | 国产福利视频导航 | 午夜国产一区 | 韩三级在线观看 | 青青久久| 性欧美精品一区二区三区在线播放 | 国产在线播 | 欧美涩涩网 | 另类亚洲视频 | 欧洲一区二区三区 | 免费色网址| h视频在线播放 | 天堂成人av | 国产精品99久久久久久动医院 | 午夜影晥| 日韩中文在线视频 | 亚洲人在线 | 在线视频一区二区 | 成人在线精品视频 |