「四合一物體傳送門」,向場景中可控傳送物體
在圖像編輯的常用操作中,圖像合成 (image composition) 指在把一張圖片的前景物體和另外一張背景圖片結合起來得到一張合成圖 (composite image),視覺效果類似于把一張圖片的前景物體傳送到另外一張背景圖片上,如下圖所示。
圖像合成在藝術創作、海報設計、電子商務、虛擬現實、數據增廣等領域有著廣泛應用。
但是通過簡單的剪切粘貼得到的合成圖可能會存在很多問題。在之前的研究工作中,圖像合成衍生出不同的子任務,分別解決不同的子問題。舉例來說,圖像混合 (image blending) 旨在解決前景和背景之間不自然的邊界。圖像和諧化 (image harmonization) 旨在調整前景的光照使其與背景和諧。視角調整 (view synthesis) 旨在調整前景的姿態,使其與背景匹配。物體放置 (object placement) 旨在為前景物體預測合適的位置、大小、透視角度。陰影生成 (shadow generation) 旨在為前景物體在背景上生成合理的陰影。
如下圖所示,之前的研究工作串行或者并行地執行上述子任務,獲得逼真自然的合成圖。在串行框架下,我們可以根據實際需求有選擇性地執行部分子任務。
在并行框架下,現在流行的做法是利用擴散模型,輸入一張帶有前景邊界框的背景圖片和一張前景物體圖片,直接生成最終的合成圖,使得前景物體無縫融入背景圖片,光照和陰影合理,姿態與背景適配。
該并行框架相當于同時執行多個子任務,無法有選擇性地執行部分子任務,不具有可控性,可能會對前景物體的姿態或者顏色帶來不必要或者不合理的改變。
為了提升并行框架的可控性,能夠有選擇性地執行部分子任務,我們提出可控圖像合成模型 Controllable Image Composition (ControlCom)。如下圖所示,我們用一個指示向量作為擴散模型的條件信息,控制合成圖中前景物體的屬性。指示向量是一個兩維的二值向量,兩個維度分別控制是否調整前景物體的光照屬性和姿態屬性,1 代表調整,0 代表保留。
具體來說,(0,0) 代表既不改變前景光照,也不改變前景姿態,只是把物體無縫融入背景圖片,相當于圖像混合 (image blending)。(1,0) 是只改變前景光照使其與背景和諧,保留前景姿態,相當于圖像和諧化 (image harmonization)。(0,1) 是只改變前景姿態使其與背景匹配,保留前景光照,相當于視角調整 (view synthesis)。(1,1) 是同時改變前景的光照和姿態,相當于現在的不可控并行圖像合成。
我們通過指示向量把四種任務納入同一個框架,實現四合一物體傳送門的功能,向場景中可控傳送物體。該工作由上海交通大學和螞蟻集團合作完成,代碼和模型即將開源。
論文鏈接:https://arxiv.org/abs/2308.10040
代碼模型鏈接:https://github.com/bcmi/ControlCom-Image-Composition
在下圖中,我們展示了可控圖像合成的功能。
左邊一列,前景物體的姿態原本就和背景圖片適配,用戶可能希望保留前景物體的姿態。之前的方法 PbE [1], ObjectStitch [2] 會對前景物體的姿態做出不必要且不可控的改變。我們方法的 (1,0) 版本能夠保留前景物體的姿態,將前景物體無縫融入背景圖片且光照和諧。
右邊一列,前景物體的光照原本就和背景光照一致,之前的方法可能會對前景物體的顏色產生不符合預期的改變,比如車的顏色和衣服的顏色,我們方法的 (0,1) 版本能夠保留前景物體的顏色,同時調整前景物體的姿態使其合理地融入背景圖片。
接下來,我們展示更多我們方法四個版本 (0,0),(1,0),(0,1),(1,1) 的結果。可以看出在使用不同指示向量的情況下,我們的方法能夠有選擇性地調整前景物體的部分屬性,有效控制合成圖的效果,滿足用戶不同的需求。
能夠實現四種功能的模型結構是什么樣的呢?我們方法的模型結構如下圖所示,模型輸入帶有前景邊界框的背景圖片和前景物體圖片,將前景物體的特征和指示向量結合到擴散模型中。
我們提取前景物體的全局特征和局部特征,先融合全局特征,再融合局部特征,在局部融合的過程中使用對齊的前景特征圖進行特征調制,實現更好的細節保留。指示向量在全局融合和局部融合中都有使用,更加充分地控制前景物體的屬性。
我們基于預訓練的 Stable diffusion, 使用 OpenImage 的 190 萬張圖片訓練模型。為了同時訓練四個子任務,我們設計了一套數據處理和增廣的流程。數據細節和訓練細節參見論文。
我們在 COCOEE 數據集和自己構建的數據集上進行測試。因為之前方法都只能做到不可控的圖像合成,所以我們用 (1,1) 版本和之前方法比較。對比結果如下圖所示,PCTNet 是圖像和諧化方法,能夠保留物體細節,但是不能調整前景的姿態,不能補全前景物體。其他方法能夠生成相同種類的物體,但是在細節保留上效果較差,比如衣服的款式、杯子的紋理、鳥的羽毛顏色等等。
相較之下,我們的方法能夠更好地保留前景物體的細節,補全不完整的前景物體,調整前景物體的光照、姿勢與背景適配。
該工作是可控圖像合成的首次嘗試,任務難度較大,仍然存在很多不足,模型表現不夠穩定魯棒。并且,前景物體的屬性除了光照、姿態,還可以進一步細化,如何實現更細粒度的可控圖像合成是一個更具挑戰性的任務。