多尺度表征10億像素圖像,斯坦福神經場景表征新方法入選SIGGRAPH
當前,神經表征已經成為渲染、成像、幾何建模和模擬應用的一種新范式。與網格、點云和體積網格等傳統表征相比,神經表征可以靈活地合并入可微分、基于學習的 pipeline。神經表征近來的進展實現了在中等分辨率下表征具有豐富細節的信號,比如圖像和 3D 形狀,但充分地表征大尺度或復雜場景依然是一個挑戰。
現有的神經表征無法準確地表征分辨率大于百萬像素的圖像或者數十萬個多邊形組成的 3D 場景。
斯坦福大學近日的一項研究給出了解決方案,他們提出了一種新的隱式 - 顯式混合網絡架構和相應訓練策略,可以在訓練和推理過程中根據信號的局部復雜度來自適應地分配資源。他們將這種用于神經場景表征的自適應坐標網絡( Adaptive coordinate network )簡稱為 Acorn。
該方法中采用了類似于四叉樹或八叉樹的多尺度塊坐標分解(multiscale block-coordinate decomposition),該分解在訓練過程中進行細化。具體地,網絡架構分為兩個階段:其一坐標編碼器使用大量網絡參數在單個正向傳遞中生成網格特征;其二每個塊中數百或數千個樣本通過輕量級特征解碼器進行高效地評估。

項目主頁:
https://www.computationalimaging.org/publications/acorn/
論文地址:
https://arxiv.org/pdf/2105.02788.pdf
利用這種混合的隱式 - 顯式網絡架構,研究者首次展示了將 10 億像素圖像擬合到接近 40dB 峰值信噪比。值得注意的是,與以往圖像擬合實驗中展示的分辨率相比,這一數據代表了 1000 多倍的尺度增加。此外,研究者的方法能夠較以往更快且更好地表征 3D 形狀,將訓練時間從幾天縮減至幾小時或幾分鐘,內存需求也至少降低了一個數量級。
Acorn 的實際表征效果如下幾個動圖所示,首先是 10 億像素的 2D 東京城市圖像:
其次是 3D 浮雕的重建展示效果:
多尺度坐標網絡
研究者提出的多尺度表征網絡包含兩個主要組件,即多尺度塊參數化(基于局部信號復雜度劃分輸入空間)以及由坐標編碼器和特征解碼器組成的網絡架構(負責將輸入空間和尺度坐標高效地映射至輸出值)。
多尺度塊參數化
多尺度塊參數化的核心是輸入域的樹分區(tree-based partition)。具體來講,研究者使用二維四叉樹或三維八叉樹來劃分域,并確定樹的最佳尺度和最大深度,具體如下圖 3 所示:

傳統多尺度分解方法中,輸入域的每個值在多尺度上進行表征,比如圖像金字塔( image pyramid)中的每個像素。與之不同,本研究的方法劃分空間以在單尺度上表征每個輸入值。
神經網絡架構
多尺度表征網絡的坐標編碼器定義如下:
給定一個連續的局部坐標 X_1,特征向量提取如下:
這種兩階段架構的一個關鍵優勢是:極大地降低了相同塊中評估多個坐標的計算開銷。另一優勢是:由于特征網絡在跨空間位置和尺度上可以在具有重復結構的信號中重復使用,因而有可能提升網絡性能。
在線多尺度分解
研究者提出了新的自動分解方法能夠自適應地分配網絡資源以擬合感興趣的信號,并且受到了模擬技術中自適應網格細化方法和有限單元求解器的啟發。這些有限單元求解器在優化過程中進行細化或粗化處理,從而在最小化計算開銷的同時提升求解準確率。
剪枝
為了在多尺度網絡中不為整個區域學習相同的值,研究者從分區中對塊進行剪枝,直到塊不能被進一步分解,并且它的值在查表(look-up table)中設置。并且,由于塊不再活躍,分區中的空間可以通過松弛公式(8)中的限制來釋放。

至于是否確定要對塊 B_i 進行剪枝,研究者發現,在實際操作中,滿足以下兩個條件可以運行良好:低誤差和低方差。
表征 10 億像素圖像
研究者首先評估了 Acorn 表征 10 億像素圖像的表現。以往的神經圖像表征方法將分辨率限制在了百萬像素以下,本研究則選擇了 6400 萬像素和 10 億像素,遠遠超越了以往方法。
具體而言,他們通過擬合兩張大尺度圖像來展示 Acorn 的性能。如下圖 2 所示,第一張是新視野號太空探測器拍攝的冥王星圖像,它的分辨率為 8,192×8,192,并具有不同尺度下的特征,因而是多尺度表征的理想實驗對象。
結果表明,利用本研究資源分配策略優化的自適應網格能夠使用明顯更小的塊來表征豐富的細節,以火山口為例,空闊且大面積的均勻區域可以在更小的尺度下得到表征。

第二張是 10 億像素分辨率為 19,456×51,200 的東京城市圖像,比最近神經圖像表征使用圖像的分辨率高約三個數量級。
同樣地,研究者捕捉到了圖像在不同尺度下的豐富細節。

總的來說,Acorn 可以進行縮放以靈活地表征大規模 2D 圖像,在訓練速度、性能以及任務整體適用性方面均帶來了顯著提升。
表征復雜 3D 場景
除了 2D 圖像,本研究提出的多尺度表征還可以很好地泛化至復雜 3D 場景的表征中。
如下圖 5 所示,與 Conv. Occ.、SIREN 等以往方法相比,Acorn 能夠更加準確地表征復雜形狀。從定性角度來講,Acorn 在表征豐富細節方面比這些方法更加強大,比如纏結的浮雕和緊密糾纏的彈簧;從定量角度來講,Acorn 在體積容量和網格準確率兩項指標上均優于所有基準方法。

最后,與以往神經表征方法相比,Acorn 在計算效率方面也有顯著提升。通過在采樣點中共享計算,該方法顯著降低了訓練和查詢模型所需的內存和時間開銷。