推理時間減少70%!前饋3DGS「壓縮神器」來了,浙大Monash聯合出品
在增強現實(AR)和虛擬現實(VR)等前沿應用領域,新視角合成(Novel View Synthesis,NVS)正扮演著越來越關鍵的角色。3D高斯潑濺(3D Gaussian Splatting,3DGS)憑借其革命性的實時渲染能力和卓越的視覺質量,迅速成為NVS領域備受關注的技術方案。
現有的前饋3D高斯潑濺(Feed-Forward 3D Gaussian Splatting,3DGS)模型,雖然在實時渲染和高效生成3D場景方面取得了顯著進展,但仍存在一些關鍵缺陷。
比如編碼器容量有限,難以處理密集的多視角輸入。
而ZPressor,一種即插即用的輕量級模塊——可以無縫集成到現有的前饋3DGS模型中,增強模型密集視角擴展性和性能。
在36個輸入視圖下提升4.65dB,推理時間減少70%,顯存占用減少80%,并拓展可輸入的視圖數目到接近500個。
信息過載:前饋3DGS的“甜蜜負擔”
深入分析現有前饋3DGS模型的架構,可以發現其核心癥結在于編碼器容量的有限性。
當輸入視圖變得密集時,編碼器難以有效處理隨之而來的“信息過載”,導致計算成本飆升。
這種現象并非偶然,而是源于場景總信息量(即所有視圖特征的聯合熵)中存在大量冗余信息。
在特征提取之后,如何去除不相關信息,同時保留其預測能力,是高效利用輸入視圖信息的關鍵。
以當前最先進的模型DepthSplat為例,實驗結果表明,隨著輸入視圖數量的增加,模型性能會顯著下降,同時計算成本也急劇攀升。例如,在處理36個輸入視圖時,DepthSplat的PSNR等指標會大幅降低,推理時間和內存占用也會顯著增加。
這揭示了信息過載對模型性能和資源消耗的直接因果關系:過多的冗余信息不僅拖慢了處理速度,更降低了最終的渲染質量。
用“信息瓶頸”理論,為前饋3DGS“減負”
為了從理論層面理解并解決這一問題,ZIP Lab和Monash團隊引入了信息瓶頸(Information Bottleneck,IB)原理。
其核心思想是:從輸入(X)中提取一個壓縮表示(Z),使Z盡可能地保留與目標(Y)相關的信息,同時盡可能地壓縮X中與Y無關的信息。
可以直觀地理解為,IB原理旨在最小化“壓縮分數”(即Z攜帶關于X的信息量),同時最大化“預測分數”(即Z對于預測目標Y的有效信息量)。這一原理為前饋3DGS面臨的“信息過載”這一“甜蜜負擔”提供了理論上的“減負”之道。
基于對信息瓶頸原理的理解,ZPressor——一個輕量級、且“架構無關”的模塊,堂堂登場。
ZPressor的核心功能在于高效地將多視圖輸入壓縮成一個緊湊的潛在狀態。這種壓縮并非簡單地丟棄信息,而是巧妙地保留了場景中的必要信息,同時有效剔除冗余,很好地解決了前饋3DGS模型長期以來面臨的“信息過載”難題。
三步走,打造高效“信息壓縮機”
ZPressor的精妙之處在于其將復雜的信息壓縮過程分解為三個步驟,打造了一個高效的“信息壓縮機”。
第一步:錨點視圖選擇(Anchor View Selection)
ZPressor首先通過“最遠點采樣”(farthest point sampling)方法來選擇錨點視圖。這一迭代過程基于相機位置,確保所選的錨點在空間上具有多樣性,并能最大限度地代表整個場景。
第二步:支持視圖歸屬(Support-to-Anchor Assignment)
一旦錨點視圖確定,每個剩余的支持視圖都會根據相機距離被分配到其最近的錨點視圖。精準的歸屬機制確保了支持視圖中互補的場景細節能夠與空間上最相關的錨點視圖進行分組,保證了信息的“對口”融合,避免了無序。
第三步:視圖信息融合(Views Information Fusion)
這是ZPressor實現信息壓縮的關鍵步驟。它采用定制化的交叉注意力(cross-attention)模塊進行信息融合。具體而言,從錨點視圖中提取的特征充當“查詢”(query),而支持視圖的特征則提供“鍵”(keys)和“值”(values)。
通過這種方式,支持視圖的信息被有效地整合到錨點視圖中,不僅捕捉了兩者之間的關聯性,還在保持緊湊性的同時避免了冗余。
最終,交叉注意力機制的運用,讓這些互補信息真正“融會貫通”,形成精煉而全面的Z態。
性能飆升,內存狂降,讓前饋3DGS“脫胎換骨”
ZPressor對前饋3DGS模型產生了變革性的影響,這一點通過對DepthSplat、MVSplat和pixelSplat等經典模型在DL3DV-10K、RealEstate10K和ACID等大規模基準數據集進行的廣泛實驗中得到了充分驗證。
ZIP Lab和Monash團隊在DL3DV和RE10K上使用12個輸入視圖訓練所有模型,并將其中6個設置為錨點視圖,然后在8到36個不同數量的輸入視圖下評估它們。可以看到,隨著輸入視圖數量的增加,ZPressor的性能提升變得更加顯著。
這是因為現有的前饋3DGS模型由于信息過載而難以處理密集輸入,導致性能下降。而ZPressor能夠通過冗余抑制壓縮輸入,同時保留關鍵信息,有效地緩解這一問題,提高模型魯棒性,并在密集輸入設置下保持優異性能。
此外,ZPressor解決了現有模型在內存方面的重要障礙。例如,pixelSplat在輸入視圖超過8個時就因“內存溢出”(OOM)而無法運行,而ZPressor不僅使其能夠成功運行至少36個視圖,還在性能上帶來了顯著提升。
在DL3DV上關于密集輸入條件(36個視圖)的定性比較結果表明,DepthSplat由于密集視圖中的冗余,表現不佳,而ZPressor有效壓縮了這些信息,顯著改善了視覺效果。
在RE10K上使用36個輸入視圖的定性比較結果表明,MVSplat與ZPressor結合在所有情況下表現最佳。
ZPressor在效率方面的優勢同樣令人驚嘆。它有助于在輸入視圖數量增加時,保持3D高斯數量、測試時推理延遲和峰值內存使用量的穩定。這與基線模型中這些指標呈線性增長的趨勢形成了鮮明對比,后者很快就會變得難以承受。
通過比較ZPressor在不同場景覆蓋規模下的性能,可以看到,信息瓶頸是真實存在的,并且信息瓶頸在ZPressor中是可見的。在場景信息量小的條件下,額外的聚類會引入冗余;對于信息量更大的場景,信息瓶頸更高。這個結果突出了ZPressor在實現IB原則方面的有效性,并表明信息瓶頸在平衡壓縮和信息保留方面至關重要。
ZPressor不僅在適中視圖設置下持續提升了現有基線模型的性能,更在密集輸入場景下顯著增強了模型的魯棒性,同時保持了極具競爭力的效率(包括內存和速度)。
論文鏈接:https://www.arxiv.org/abs/2505.23734項目主頁:https://lhmd.top/zpressor代碼鏈接:https://github.com/ziplab/ZPressor