Diffusion-SS3D:用擴散去噪革新半監督3D檢測,偽標簽更準,mAP提升6%!
1. 一眼概覽
SemCity 是一種 基于三平面擴散(Triplane Diffusion) 的 3D 語義場景生成模型,能夠在 真實戶外環境 中進行 場景生成、語義補全、場景擴展(Outpainting)和修補(Inpainting),并在 SemanticKITTI 數據集 上顯著提升生成質量。
2. 核心問題
背景問題:當前 3D 擴散模型大多專注于 單個物體 或 室內合成場景,對于 真實戶外場景 仍然缺乏研究。此外,戶外數據由于傳感器局限性(空白區域較多),導致模型難以學習 完整的三維語義分布。核心挑戰:如何在 稀疏、不完整的真實戶外數據 中 生成完整、語義連貫的 3D 場景,并支持 對象添加、移除和擴展?應用價值:自動駕駛、智能城市建模、增強現實(AR)、機器人導航等都依賴 高質量 3D 語義場景生成,提高 環境理解能力。
3. 技術亮點
- 三平面擴散(Triplane Diffusion)建模:采用 Triplane 表示 作為代理表示,解決 真實戶外場景數據稀疏問題,比 傳統體素方法(Voxel-based) 更高效。
- 三平面編輯(Triplane Manipulation):實現 無縫的對象添加、移除、修改,支持 場景修補(Inpainting)、擴展(Outpainting)和語義補全(SSC Refinement)。
- 高質量戶外場景生成:在 SemanticKITTI 數據集上大幅提升場景生成質量,優于當前基于擴散的 3D 生成方法。
4. 方法框架
圖片
SemCity 采用 三平面擴散模型(Triplane Diffusion),核心流程如下:
1)三平面編碼(Triplane Encoding):
? 采用 Triplane Autoencoder 將 3D 體素場景 轉換為 三平面表示(xy、xz、yz)。
? 該表示減少了不必要的空白信息,提高 數據表示效率。
2)三平面擴散(Triplane Diffusion):
? 通過 去噪擴散過程(Denoising Diffusion Probabilistic Models, DDPM)學習 三平面數據分布。
? 通過 反向擴散 生成 新的三平面,再解碼成完整 3D 語義場景。
3)三平面編輯(Triplane Manipulation):
? 場景修補(Inpainting):在 3D 空間中無縫 去除或添加物體,增強 語義一致性。
? 場景擴展(Outpainting):向四周擴展場景,可生成 城市級別 的 3D 場景。
? 語義補全(SSC Refinement):優化 語義場景補全,提高 SSC 任務的 IoU 和 mIoU。
5. 實驗結果速覽
圖片
SemCity 在 真實戶外數據 上取得 最佳 3D 語義場景生成性能:
? SemanticKITTI(真實數據集):
a.FID 下降 50%(從 112.82 → 56.55),表示生成場景更接近真實數據。
b.KID 下降 67%(從 0.12 → 0.04),生成質量更穩定。
c.mIoU 提升 6.64%,顯著改善 語義一致性。
? CarlaSC(合成數據集):
? FID 下降 54%(從 87.39 → 40.63),生成質量更高。
? KID 下降 78%,生成穩定性提升。
? SSC 任務提升:
? MonoScene + SemCity:mIoU 提升 5.58%(11.50 → 17.08)
? OccDepth + SemCity:mIoU 提升 3.95%(12.84 → 16.79)
? SCPNet + SemCity:mIoU 提升 0.64%(37.55 → 38.19)
? SSA-SC + SemCity:mIoU 提升 1.04%(24.54 → 25.58)
6. 實用價值與應用
SemCity 提供了 高效、靈活的真實戶外 3D 語義場景生成,適用于多個領域:
? 自動駕駛 ??:提升 3D 語義理解,幫助 感知系統 處理 不完整的激光雷達數據。
? 智能城市建模 ???:支持 城市級別 3D 場景生成,用于 數字孿生(Digital Twin) 和 城市規劃。
? 機器人導航 ??:提高 機器人在復雜環境中的導航能力,增強 自主感知。
? 增強現實(AR/VR) ??:在 AR/VR 應用 中創建 更真實的交互式 3D 場景。
開放問題
1. SemCity 在極端場景(如夜間或大霧環境)下的生成質量如何?
2. 三平面擴散的語義理解能力能否推廣到室內 3D 場景?
3. 如何進一步提升 SemCity 處理細粒度對象(如小型路牌)的能力?
4. 三平面擴散模型是否可以與 NeRF 結合,提升 3D 生成質量?