隨手一拍,高效重建大型3D開放場景,港科廣GraphGS突破傳統重建技術瓶頸|ICLR 2024
從手機隨手拍、汽車行車記錄儀到無人機航拍,如何從海量無序二維圖像快速生成高精度三維場景?
傳統方法依賴精確的相機位姿參數,實際應用成本高昂。港科廣團隊提出全新框架GraphGS,突破技術瓶頸——無需精準相機位姿,僅憑RGB圖像即可實現大規模開放場景的高效重建和高保真新視角合成,相關論文入選ICLR 2025,代碼即將開源。
技術痛點與突破
傳統方法瓶頸:
現有三維重建技術通常依賴精確的相機位姿參數和密集視角覆蓋,而實際應用中,由于設備限制或環境復雜性,獲取高精度位姿和充足視角面臨巨大挑戰。
例如,COLMAP等傳統SfM工具處理千張級圖像需要數天時間,且容易因動態物體或重復紋理導致匹配失敗。此外,稀疏視角下3D高斯點易過擬合到有限視角區域,導致幾何失真和細節丟失。
GraphGS核心突破:
GraphGS通過創新的空間先驗感知與圖引導優化范式,提出三階段解決方案:
- 首先利用數學策略從無序圖像中快速構建相機拓撲圖
- 其次通過多視角一致性約束強化幾何連貫性
- 最后結合自適應采樣策略動態優化高斯點分布。
該方法在保障精度的同時,將千張圖像的重建時間從數十小時縮短至數小時。
方法詳解:
GraphGS的核心在于將復雜的場景重建問題轉化為圖結構優化問題。
框架首先通過同心圓近鄰配對和三維象限過濾策略,從海量圖像中智能篩選關鍵匹配對,僅需平面相機位置即可構建連通相機拓撲圖;隨后將相機間的空間關系建模為帶權無向圖,通過多視角光度一致性損失和基于節點重要性的自適應采樣策略,引導3D高斯點向全局最優分布演化。這一過程結合了傳統幾何約束與現代可微分渲染的優勢,在保證重建精度的同時顯著提升計算效率。
1. 高效匹配:
傳統方法(如COLMAP)需遍歷所有圖像對(復雜度O(n2)),GraphGS通過數學策略篩選關鍵幀:
- 同心圓近鄰配對:按距離分層采樣,確定局部與全局關鍵幀,從萬級圖像對中篩選千級關鍵幀,解決COLMAP暴力匹配耗時難題。
- 象限過濾:6位編碼量化相機相對位姿,過濾無效匹配,消除長街景“斷鏈”風險。
2. 相機圖優化:
- 多視角一致性約束:構建相機拓撲關系圖,通過多視角一致性損失函數強化相鄰視角幾何一致性。動態平衡相鄰視角差異,解決模糊、鬼影問題。
- 自適應采樣:節點通過介數中心性動態調整采樣頻率,解決稀疏視點導致的偽影問題同時加快3DGS訓練速度。
實測效果:街景、廢墟、噪聲場景全覆蓋
在Waymo、KITTI等自動駕駛數據集上,GraphGS在無真值位姿輸入的情況下達到29.43 PSNR和26.98 PSNR,街景重建準確,樹枝紋理、車窗倒影清晰可見。面對Mill-19數據集同樣不使用真值位姿,該方法在碎石堆積、墻體斷裂等極端場景下仍能實現高質量新視角合成,碎石、斷墻細節清晰重現。
應用場景:低門檻三維數字化
任意隨拍視頻,無需真實位姿重建結果展示,左側為GT,右側為重建場景。可以看到GraphGS實現了開放場景重建技術的三重突破:首次在無精確位姿輸入條件下達成工業級重建精度,將千張圖像處理速度提升至小時級,并支持消費級硬件實現平方公里級場景重建。這項技術不僅降低了三維數字化的硬件門檻,更為虛擬現實、智慧城市等領域提供了新的基礎設施。
- 手機三維建模: 用戶環拍建筑、街景,自動生成元宇宙素材。
- 自動駕駛訓練:車載攝像頭數據直接生成高清地圖。
- 城市數字化:無人機航拍公園,高效重建三維檔案。
論文標題:Graph-Guided Scene Reconstruction from Images with 3D Gaussian Splatting
項目主頁:https://3dagentworld.github.io/graphgs/