3D版"裁縫"開源來襲!Tailor3D:自定義3D編輯和資產生成(港大&上海AI-Lab&港中文)
文章鏈接:https://arxiv.org/pdf/2407.06191
github鏈接:https://tailor3d-2024.github.io/
Huggingface:https://huggingface.co/spaces/alexzyqi/Tailor3D
亮點直擊:
- 提出了Tailor3D,一種快速的3D編輯pipeline。通過結合2D圖像編輯和快速3D重建技術,它顯著提高了3D對象編輯的效率。
- 雙面LRM結合了LoRA Triplane Transformer,有效處理了前后視圖之間的不一致性,提升了整體重建質量。
- Tailor3D在各種3D編輯和定制任務中表現出色,特別是在局部3D生成填充、整體風格遷移和對象風格融合方面,展示了極大的實用價值。
3D AIGC(人工智能生成內容)的最新進展展示了直接從文本和圖像創建3D對象的潛力,在動畫和產品設計中帶來了顯著的成本節約。然而,詳細編輯和定制3D資產仍然是一個長期存在的挑戰。具體來說,3D生成方法在遵循精細的指令方面還無法像2D圖像生成那樣精確。想象一下,你可以通過3D AIGC得到一個玩具,但其配件和裝飾可能不符合你的期望。為了解決這個問題,本文提出了一種名為Tailor3D的新型pipeline,可以迅速從可編輯的雙面圖像中創建定制的3D資產。本文的目標是模仿裁縫的能力,能夠局部改變對象或執行整體風格遷移。與從多個視角創建3D資產不同,使用雙面圖像消除了編輯單個視角時出現的重疊區域沖突。
具體而言,它首先編輯正視圖,然后通過多視圖擴散生成對象的背視圖。之后,再編輯背視圖。最后,提出了一種雙面LRM,用于無縫地將前后3D特征拼接在一起,就像裁縫將衣服的前后部分縫合在一起。雙面LRM修正了前后視圖之間的不完美一致性,增強了編輯能力,減少了內存負擔,同時通過LoRA Triplane Transformer將它們無縫集成到統一的3D表示中。實驗結果表明,Tailor3D在各種3D生成和編輯任務中都有效,包括3D生成填充和風格遷移。它提供了一種用戶友好且高效的3D資產編輯解決方案,每一步編輯只需幾秒鐘即可完成。
方法
本節介紹Tailor3D的pipeline和模型架構。首先,介紹大規模重建模型(LRM)和多視圖擴散。接下來,概述了Tailor3D的過程,展示了2D編輯和快速重建3D對象的方法。再深入探討了雙面LRM,解釋如何處理輸入的前后視圖不完全一致的問題。還解釋了LoRA Triplane Transformer如何減少內存使用以及視點交叉注意力如何融合前后視圖的3D三平面。
初步
Tailor3D的pipeline
本節概述了Tailor3D的pipeline,如下圖1下部所示。
對于自注意力,qkv由共享線性層生成,將所有輸入和輸出線性層替換為LoRA結構。對于交叉注意力,qkv由不同的線性層生成,將所有qkv和輸出線性層替換為LoRA結構。具體細節如下。
這里,i表示第i個Transformer層。對于自注意力,tp表示輸入和輸出的線性投影。對于交叉注意力,tp表示q、k、v和輸出的線性投影。
實驗
數據集:Gobjaverse-LVIS
實現細節
實驗結果
實驗展示了Tailor3D在3D生成方面的能力,包括幾何對象填充、紋理合成和風格遷移。后面將本文的方法與現有技術進行了比較。并進行了消融實驗,以驗證Tailor3D的每個模塊。
Tailor3D應用
展示了其在3D生成幾何/圖案填充方面的多功能性,涵蓋局部幾何形狀和紋理圖案填充。突出了其風格遷移和融合能力,允許進行如風格轉移和將兩種風格融合到一個對象上的操作。Tailor3D使用戶能夠編輯對象的正面和背面,擴展了定制3D對象的編輯可能性。
3D生成幾何/圖案填充。在這里,展示了Tailor3D的局部3D對象填充能力,如下圖4所示。通過文本或圖像提示逐步展示對象填充和編輯。在第2行,從盔甲開始,通過逐步添加頭部、手和斗篷生成了一個中世紀將軍。第3行展示了其他對象的操作,包括添加郵箱、氣球、花叢和籃球框。
3D風格遷移和融合。Tailor3D還展示了其對各種風格的轉移和融合能力。與以往的方法不同,Tailor3D確保了知識產權的完整性,同時提供了通過圖像或文本指導指定風格的靈活性。特別是,它利用Midjourney進行2D圖像生成和編輯。此外,Tailor3D能夠將不同的風格注入到對象的正面和背面,展示了雙面LRM的融合能力的有效性。
與現有的3D圖像到3D生成方法的比較
將本文的方法與Wonder3D、TriplaneGaussian和 LGM在由Stable Diffusion生成的100張圖像的測試集上進行了比較。下圖5中的定性結果展示了Tailor3D利用雙面LRM增強背面信息的能力。
Wonder3D和TriplaneGaussian在處理復雜對象時表現不佳,整體質量較低。使用高斯表示的LGM存在重影效應,并且在樹葉等特征上缺乏細節。下表1中提供了定量結果以及生成時間,突顯了本文方法的實用價值。
消融研究
對雙面LRM進行了消融研究,重點關注三個方面:雙面3D特征的融合、LoRA Transformer的等級,以及前后圖像的外部相機參數。結果如下表2所示。
雙面特征融合方法。使用視點交叉注意力來融合前后兩面的特征。此外,嘗試使用多層2D卷積層和直接相加來融合雙面的三平面特征。結果表明,使用視點交叉注意力產生了最佳效果。
LoRA三平面Transformer的等級。對LoRA三平面Transformer的等級進行了消融實驗,分別設置為2、4和8。實驗結果表明,等級為4時性能最佳。
限制與結論
本文介紹了Tailor3D,這是一種通過可編輯的雙面圖像快速創建定制3D資產的方法,類似于裁縫的工作方式。通過利用2D圖像編輯技術和快速3D重建,Tailor3D允許用戶對對象進行迭代性地調整。雙面LRM和LoRA三平面Transformer充當“裁縫”,無縫地將前后視圖結合起來,處理不一致性并提高重建質量。實驗結果驗證了Tailor3D在3D生成填充和風格定制等任務中的有效性。它提供了一個用戶友好、成本高效的解決方案,用于快速的3D編輯,適用于動畫、游戲開發等領域,簡化了生產過程并使內容創作更加普及。
限制與未來方向然而,僅依賴前后視圖進行物體重建可能會遇到某些厚度的物體帶來的挑戰。此外,生成的3D物體網格可能具有較低的分辨率,添加的幾何特征可能對網格的變化不大。將在未來的工作中進一步研究解決厚側輪廓物體的生成與重建問題的方法,旨在提高網格的質量和分辨率。
本文轉自 AI生成未來 ,作者:Zhangyang Qi等
