3D生成新王者!北大&小紅書發布Dive3D:雙引擎驅動,畫面更真、創意更野、花樣更多!
論文鏈接:https://arxiv.org/pdf/2506.13594
項目鏈接:https://ai4scientificimaging.org/dive3d
效果展示
與Gaussian Splatting基線的比較。
Dive3D 可以在不同的 3D 表示中生成 3D 對象
Dive3D 3D Gaussian Splattings
亮點直擊
- SIM損失替代KL散度:提出基于梯度匹配的SIM損失,從根本上解決KL散度導致的模式坍塌問題,顯著提升多樣性。
- 統一框架:首次將擴散蒸餾和獎勵引導優化統一為發散最小化問題,實現多目標協同優化。
- 全方面性能提升:在多樣性、文本對齊、視覺質量、人類偏好等維度均超越SDS和獎勵基線方法。
- 強基準驗證:在GPT-Eval3D等復雜評測中全面領先,驗證了方法的魯棒性和泛化性。
總結速覽
解決的問題
- 生成多樣性不足:現有基于Score Distillation Sampling (SDS)的方法因使用KL散度而導致模式坍塌(mode collapse),生成結果多樣性受限。
- 文本對齊與視覺保真度的平衡:傳統方法在提升文本對齊時可能犧牲生成多樣性或視覺質量。
- 多目標統一優化:擴散蒸餾(diffusion distillation)和獎勵引導優化(reward-guided optimization)缺乏統一的框架,難以協同優化。
提出的方案
- Score Implicit Matching (SIM)損失:用基于梯度的SIM損失替代KL散度,直接匹配生成內容與擴散先驗的概率密度梯度場,避免模式坍塌。
- 統一發散視角框架:將擴散蒸餾和獎勵引導優化整合到基于發散(divergence)的統一框架中,實現多目標協同優化。
- 多樣性驅動的3D生成:通過SIM損失和統一框架,在保證文本對齊和視覺質量的同時,顯著提升生成多樣性。
應用的技術
- 擴散模型蒸餾:利用預訓練2D擴散模型(如Stable Diffusion)作為先驗,通過多視角渲染優化3D資產。
- 梯度場匹配(SIM):通過匹配生成內容與目標分布的分數(score)來優化多樣性。
- 獎勵引導優化:結合人類偏好或CLIP獎勵,進一步提升語義對齊和視覺質量。
- 可微分渲染:將3D表示(如NeRF)渲染為2D圖像以計算損失。
達到的效果
- 更高多樣性:SIM損失有效緩解模式坍塌,生成結果覆蓋更多高概率區域。
- 更好的文本對齊與視覺保真度:在文本-3D對齊、幾何一致性、紋理質量等方面優于現有方法。
- 人類偏好提升:生成的3D資產在美觀性、真實感上更符合人類評估標準。
- 基準測試領先:在GPT-Eval3D等基準上優于9種現有方法,定量與定性評估均表現優異。
方法
Dive3D——一個通過用基于分數的發散優化替代KL散度引導,從而提升文本到3D合成的多樣性和保真度的原則性框架(見下圖2)。首先證明現有的SDS和獎勵損失都是KL散度的線性組合,因此容易產生模式坍塌和模式尋求。接著提出基于分數的發散公式,克服了這些限制并產生顯著更多樣且更高質量的3D輸出。
SDS和獎勵引導都是KL散度
SDS損失。SDS損失中的無分類器引導(公式5-6)可以重寫為:
將式9代入式6并積分后,SDS損失可表示為兩個KL散度項的差值:
顯式獎勵損失。假設獎勵定義了一個指數分布,
公式8中的顯式獎勵損失同樣可以解釋為一個KL散度:
統一KL散度框架。整合這些組件,可以通過定義三個基于KL的核心項來統一擴散或基于獎勵的文本到3D生成框架中的所有損失項:
SDS和基于獎勵的目標都只是這些散度的線性組合:
從KL散度到基于分數的散度
為了解決這些問題,在Dive3D中提出用基于分數的散度(稱為分數隱式匹配(SIM)損失)替代KL散度,該損失在一步擴散和流模型中已顯示出對生成多樣性的顯著改進。兩個分布p和q之間的基于分數的散度定義為
則式13-14中基于KL的損失可更新為:
該公式提供了生成內容與基于擴散或獎勵的圖像分布之間更有效的相似性度量,產生的3D輸出比使用傳統KL散度生成的結果具有更高的多樣性和保真度。
實驗
本節評估提出的基于分數的散度優化如何提升文本到3D合成的質量和多樣性。在GPTEval3D基準測試上進行了全面實驗,并輔以額外的2D和3D評估來證明方法的有效性和多樣性。
GPTEval3D基準測試評估
設置。首先在GPTEval3D基準測試的110個創意復雜提示上評估Dive3D,與9種最先進方法進行比較,包括DreamFusion、DreamGaussian、Instant3D、Fantasia3D、Latent-NeRF、Magic3D、ProlificDreamer、MVDream和DreamReward。所有實驗使用PyTorch和ThreeStudio框架,測試了MVDream和Stable Diffusion作為擴散主干,PickScore作為獎勵模型。每個物體在單個NVIDIA A100 GPU上優化約一小時。
定量結果。下表1報告了本文的方法在六個指標上的性能,包括文本-資產對齊(+53.5)、3D合理性(+49)、文本-幾何對齊(+68.2)、紋理細節(+67.5)、幾何細節(+35.3)和整體性能(+50.0),其中"+"表示相對于最先進技術的改進,"-"表示退化。Dive3D在所有指標上均排名第一,表明基于分數的散度引導——尤其是與獎勵模型結合時——相比純擴散和獎勵增強基線都有顯著提升。
定性結果。下圖3將Dive3D與基于Stable Diffusion的方法(如DreamFusion、Fantasia3D、ProlificDreamer)進行對比,后者通常在精細細節或提示遵循方面存在困難。通過優化一個統一文本條件擴散先驗與可微獎勵模型的基于分數散度,Dive3D始終能生成高保真、語義精確的3D資產。
下圖4和圖6中的補充示例將Dive3D與MVDream和DreamReward進行對比。雖然MVDream保持了幾何一致性,但有時會偏離提示內容(標紅顯示缺失的關鍵詞)。
DreamReward改善了對齊性,但仍受限于其基于KL的公式和相關的模式坍塌。相比之下,Dive3D忠實遵循提示,提供豐富的細節和吸引人的美學效果,并保持強大的視覺連貫性。
生成多樣性分析
設置。本文隨后展示基于分數的散度比傳統基于KL的損失能產生更多樣化、信息更豐富的輸出。為此,在2D和3D設置下測試方法——使用Stable Diffusion作為主干。2D場景用2D神經輻射場表示;3D場景使用完整3D NeRF。主要與基于KL散度的領先方法ProlificDreamer比較,該方法利用變分分數蒸餾(VSD)最大化文本到3D生成的多樣性。在單個NVIDIA A100 GPU上,2D實驗約30分鐘完成,3D評估耗時約9小時。
2D結果。首先評估2D生成任務,從文本到圖像擴散模型中蒸餾2D神經場。該任務與文本到3D問題數學公式相同,但計算需求更低(無需處理相機位姿)。如下圖5所示,在游戲角色和真實建筑生成任務中,基于分數的散度始終比KL散度產生更多樣化的樣本。例如生成"一座日式真實建筑"時,基于KL的方法持續生成標準配色(紅藍為主)、統一背景(綠樹成蔭)和相似天氣條件(晴朗白天)的塔樓;而基于分數的方法則生成具有多變光照(夜景/雪景)和多樣建筑特征(塔樓/亭臺/民居)的輸出。游戲角色生成任務也呈現相似趨勢:基于KL的SDS損失傾向于生成相似原型,而基于分數的損失展現出更廣泛的人物、服裝風格和背景。
3D結果。這些多樣性優勢自然有效地推廣到3D合成。下圖1(a)對比了基于KL的VSD損失與本文基于分數散度在"天空中的海盜船"上的輸出。如預期,本文的方法產生了更廣泛的幾何形狀、表面紋理和背景場景(從晴朗天空到雷暴烏云)。圖7通過多樣提示的額外示例強化了這一發現,展示基于分數的散度如何在顏色、物體風格、材質屬性和環境細節上產生更豐富的變異。
結論
Dive3D框架,通過用基于分數的散度替代非對稱KL散度目標,同時增強了基于擴散的蒸餾和獎勵引導優化。在GPTEval3D等基準測試中,Dive3D有效緩解模式坍塌,在顯著提升多樣性的同時改進文本對齊、幾何合理性和視覺保真度。
局限性與未來工作。盡管Dive3D成果顯著,其運行速度仍慢于近期基于LRM的方法。未來計劃將基于分數的散度與隱空間重建模型結合:先蒸餾多樣化的文本驅動多視圖生成器,再與LRM技術結合以實現快速、高保真且多樣的3D合成。
本文轉自AI生成未來 ,作者:AI生成未來
原文鏈接:?
