圖像編輯革命,萬物皆可插入!浙大/哈佛/南洋理工提出Insert Anything,告別PS摳圖,AI讓世界無縫生長
浙江大學、哈佛大學、南洋理工大學聯合提出了統一的圖像插入框架Insert Anything,支持多種實際場景,包括藝術創作、逼真的臉部交換、電影場景構圖、虛擬服裝試穿、配飾定制和數字道具更換,下圖展示了其在各種圖像編輯任務中的多功能性和有效性。
效果展示
相關鏈接
- 論文:https://arxiv.org/pdf/2504.15009
- 主頁:https://song-wensong.github.io/insert-anything
論文介紹
插入任何內容:通過 DiT 中的上下文編輯插入圖像
本研究提出了“Insert Anything”,這是一個基于參考的圖像插入統一框架,可在用戶指定的靈活控制指導下將參考圖像中的對象無縫集成到目標場景中。我們的方法并非針對單個任務訓練單獨的模型,而是在我們新的AnyInsertion數據集上訓練一次——該數據集包含 12 萬個提示圖像對,涵蓋人物、物體和服裝插入等多種任務——并可輕松推廣到各種插入場景。如此具有挑戰性的設置需要捕捉身份特征和精細細節,同時允許在樣式、顏色和紋理方面進行靈活的局部調整。為此,我們建議利用擴散變換器 (DiT) 的多模態注意力機制來支持蒙版和文本引導的編輯。此外,論文引入了一種上下文編輯機制,將參考圖像視為上下文信息,采用兩種提示策略使插入的元素與目標場景協調一致,同時忠實地保留其獨特特征。在 AnyInsertion、DreamBooth 和 VTON-HD 基準上進行的大量實驗表明,提出的方法始終優于現有的替代方案,凸顯了其在創意內容生成、虛擬試穿和場景合成等實際應用中的巨大潛力。
AnyInsertion 數據集
圖像對收集自互聯網來源、人體視頻和多視角圖像。數據集分為口罩提示和文本提示兩類,每種提示類型又細分為配飾、物體和人物。數據集類別涵蓋多種插入場景:家具、日用品、服裝、車輛和人體。
方法概述
面對不同類型的提示,提出的統一框架會通過凍結的 VAE 編碼器處理多聯畫輸入(參考圖像、源圖像和蒙版的串聯),以保留高頻細節,并從圖像和文本編碼器中提取語義引導。這些嵌入會被組合并輸入到可學習的 DiT Transformer 模塊中進行上下文學習,從而實現由蒙版或文本提示引導的精準靈活的圖像插入。
實驗結果
定性比較。與現有方法(AnyDoor、MimicBrush、Ace++、OOTD、CatVTON)相比,該方法在各種插入任務(人物、物體和服裝)中始終如一地保留了身份信息并保持了視覺連貫性。
結論
Insert Anything是一個基于參考的圖像插入統一框架,它通過支持蒙版和文本引導控制,克服了專用方法的局限性,適用于各種插入任務。利用新開發的包含 12 萬個提示圖像對的 AnyInsertion 數據集以及 DiT 架構的功能實現了創新的上下文編輯機制,該機制采用雙聯畫和三聯畫提示策略,能夠有效地保留身份特征,同時保持插入元素與目標場景之間的視覺和諧。在三個基準測試上進行的大量實驗表明,提出的方法在人物、物體和服裝插入方面始終優于最先進的方法,為基于參考的圖像編輯樹立了新標桿,并為現實世界的創意應用提供了通用的解決方案。