編輯能力無上限！北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式！

發布于 2024-7-17 10:34

瀏覽

0收藏

編輯能力無上限！北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式！-AI.x社區

文章鏈接：https://arxiv.org/abs/2407.06842
項目地址：https://sk-fun.fun/CE3D/
代碼：https://github.com/Fangkang515/CE3D/tree/main

引言

過去的3D場景編輯方法往往局限于固定的文本輸入模式和有限的編輯能力。用戶需要學習特定的命令或特定的多模態模型來實現所需的效果。而且,這些方法通常只能進行簡單的編輯,難以實現復雜的場景變換。然而實際應用中，用戶的語言是及其豐富的，用戶的編輯需要也是多種多樣的，當前的方法的設計范式均無法滿足用戶的訴求。

為了突破這些限制，本文提出了一種全新的3D場景編輯新范式—CE3D。該方法基于大規模語言模型，通過解耦2D編輯和3D重建過程，實現了靈活且高效的任意模型的集成，大大豐富了文本對話能力和場景編輯能力。

什么是CE3D？

CE3D，即Chat-Edit-3D，對話式3D場景編輯的突破。它的核心思想是通過大規模語言模型解析用戶的任意文本輸入，并自主調用相應的視覺模型來完成3D場景的編輯。為了實現任意視覺模型的集成，CE3D設計了名為Hash-Atlas的映射網絡，將3D場景的編輯轉換為2D圖集空間內的操作，從而實現了2D編輯與3D重建過程的完全解耦，從此無需再指定固定的3D表示形式和2D編輯方法。

文章主要貢獻如下：

Hash-Atlas映射網絡：通過將3D場景的編輯轉化為2D圖集的操作，避免了傳統管道架構中的3D模型和2D模型間復雜耦合的問題。
對話框架：借助大規模語言模型，CE3D能夠解析用戶文本輸入，生成相應的響應，并管理多種視覺模型和場景文件。
實驗結果：CE3D展示了強大的擴展性，兼容各種現有的2D和3D視覺模型，支持多輪對話，并在文本解析、編輯能力和交互自然性方面顯著優于以往方法。

方法

首先說明CE3D 整體pipeline（下圖3），然后介紹Hash-Atlas網絡的設計、atlas空間中的編輯策略以及CE3D中對話系統的組件。

編輯能力無上限！北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式！-AI.x社區

Hash-Atlas網絡

本節介紹了一種簡單的方法，將場景的各個視圖直接映射到2D圖集上，從而將3D場景編輯過程重新定位到2D空間中。類似的技術最初用于將視頻幀映射到圖集，需要連續幀和平滑的攝像機運動，這與本文中使用的3D場景數據不同。為了實現本文所述的編輯功能，圖集應滿足以下條件：

防止圖集中的過度失真和傾斜，以保持視覺模型的理解。
前景和背景圖集應大致對齊，以確保精確編輯。
需要更快且更精確的映射，以促進高效編輯。

Hash-Atlas公式

為了滿足上述條件，設計了一個基于哈希結構的網絡，如下圖4所示。

編輯能力無上限！北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式！-AI.x社區

當圖集被編輯后，通過方程3可以在不重新訓練Hash-Atlas網絡的情況下恢復3D場景每個視圖的編輯效果。

訓練和損失項

編輯能力無上限！北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式！-AI.x社區

在圖集空間中編輯

本文發現，直接編輯兩個圖集然后將它們映射回場景視圖通常不會產生令人滿意的編輯結果。這主要是因為單個圖集包含的場景信息不完整，特別是在稀疏的前景圖集中。這種限制使得編輯模型無法獲取完整的場景語義，從而始終無法實現可靠的編輯。因此，設計了一種用于編輯圖集的合并-拆分策略。在此過程中，利用ChatGPT的解析能力和VQA模型來識別編輯區域。如果這些區域涉及前景內容，我們將前景圖集覆蓋在背景圖集上，并將其作為實際的編輯圖集。隨后，使用原始前景mask和新對象mask來分離編輯后的圖集。用“執行器”來表示實際的編輯過程，如前面圖3所示。

對話系統

對場景名稱的敏感度

作為一種語言模型，ChatGPT無法直接訪問文本以外的信息。然而，考慮到編輯過程中涉及的大量文件，將所有這些文件作為文本輸入到ChatGPT中是不現實的。因此，用格式為‘xxx.scn’的單個字符串來表示所涉及的文件。這個字符串是唯一且無意義的，以防止ChatGPT捏造場景名稱。盡管這個場景名稱并不是一個真正可讀的文件，但通過前端和后端的進一步處理，CE3D可以有效地處理真實文件。前端將編輯結果和ChatGPT的輸出組織成用戶回復，而后端則分發編輯過程中涉及的真實場景文件，并管理新場景的名稱和文件。

用戶查詢的推理

在面對用戶輸入時，ChatGPT模擬一個思考過程：“我需要使用視覺工具嗎？”→“我需要哪些工具？”→“這些工具的具體輸入應該是什么？”。因此，預先向ChatGPT注入每個視覺專家的信息以完成這個推理過程是至關重要的。類似于[62, 66]，將每個視覺工具標注為四個類別：工具名稱、在什么情況下使用、所需參數和具體輸入示例。

編輯能力展示

在多輪對話編輯案例中，CE3D能夠處理各種類型的編輯請求，例如精準對象移除或替換、基于文本或圖像的風格遷移、深度圖預測、基于文本和深度圖條件的場景再生、人體Pose預測、場景超分、場景分割等。此外，它還可以完成與場景相關的視覺問答任務和基本的文本對話。總之，因為能任意擴展視覺模型，因此編輯能力無上限！

編輯能力無上限！北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式！-AI.x社區