重塑3D生成核心理論:VAST、港大、清華用「零」訓練數據生成了3D模型
無需任何訓練數據,只需對著模型描述一句話,如「一個做作業的香蕉人」:
或是「一只戴著 VR 眼鏡的貓」:
就能生成符合描述的帶有高質量紋理貼圖的 3D 場景。不僅如此,還能對已有的 3D 模型進行精細化貼圖。
這是港大與清華大學聯合 3D 生成明星公司 VAST AI 研發的一種新方法,它能夠從復雜的文本描述中,直接生成富有想象力的高質量 3D 模型。
目前,這項研究成果已被人工智能頂級會議 ICLR 2024 收錄,代碼也已經開源。對這項研究感興趣的小伙伴,可以戳下方項目主頁和論文地址查看。
- 論文地址:https://arxiv.org/abs/2310.19415
- 項目地址:https://xinyu-andy.github.io/Classifier-Score-Distillation
- 代碼地址:https://github.com/CVMI-Lab/Classifier-Score-Distillation
- 論文標題:Text-to-3D with Classifier Score Distillation
所以它究竟是如何做到的?在了解新方法是什么之前,我們先來了解目前已有的方法存在什么問題。
傳統生成模型面臨的困境
在交互式游戲、電影藝術、增強 / 虛擬現實以及仿真技術等多個應用場景中,高質量的三維資產創建一直是一個重要且具有挑戰性的問題。
目前大多數生成模型都依賴于本領域的大量高質量數據做訓練,但在 3D 領域,這樣的數據集非常匱乏。這導致目前基于 3D 數據訓練的 3D 生成模型的效果還無法復刻圖像領域的成功。
基于 2D 先驗的 3D 生成方法
為了解決這一問題,Google 的 Dream Fusion 首次提出 Score Distillation Sampling(SDS)的方法,證明了可以通過預訓練的二維擴散模型生成高質量和復雜的三維結果。這一范式的優勢在于無需任何 3D 數據預訓練即可生成 3D 模型,這一架構也一直被研究者們和后續工作所沿用,例如 Nvidia 的 Magic3D 等。其核心理論在于通過激勵其渲染圖像移向文本條件下的高概率密度區域,來反向生成 3d 場景。
盡管基于 SDS 的方法取得了令人矚目的成果,然而,本文的研究者們發現,基于 SDS 的方法在實際實現中總是與理論出現一些差距,主要是因為普遍依賴于 Classifier-Free Guidance (CFG)。
在使用 CFG 時,推動優化的梯度實際上包含兩個部分:一是數據密度的梯度,二是后驗函數的梯度。其中前者對應于 SDS 理論中的關鍵部分,而后者僅僅是在實驗過程中才加入的輔助手段。
分類器分數蒸餾:重塑 3D 生成的關鍵所在
這篇論文的核心貢獻,在于重新評估了 SDS 中 CFG 的角色,發現 CFG 不僅僅是輔助手段,恰恰相反,它才是文本到三維生成中的關鍵驅動。由于這一部分可以被解釋為一個隱式的分類模型,研究者們將這一新范式命名為分類器分數蒸餾(Classifier Score Distillation, CSD)。
這一發現從根本上改變了我們對基于分數蒸餾成功的文本到三維生成機制的理解。具體而言,其有效性來自于從隱式分類器中提煉知識,而不是依賴于生成先驗。
CSD 的引入使得我們能夠重新審視現有技術設計選擇。例如,研究者們展示了負面提示可以被視為負分類器分數,從而制定了一個漸進式的負分類器分數優化策略,這增強了生成質量,同時保持了與提示的結果忠實度。
此外,研究還揭示了利用分類器分數進行高效的基于文本驅動的三維編輯的可能性,以及將變分分數蒸餾技術 (Variational Score Distillation) 視為一種自適應性的負分類器分數優化形式。
實驗效果
CSD 不僅在理論上對文本到三維生成領域提供了新的視角,而且在實際應用中也表現出優越的性能。
在主要的 3D 生成任務上的實驗結果顯示,在文本對齊和視覺質量方面,該方法相較于 Dream Fusion、Magic3D、Fantasia3D 等現有技術有顯著提升,生成的紋理也真實豐富。
在速度上,CSD 在單個 A800 GPU 上只需 1 小時即可完成任務,而能達到同樣視覺效果的 Prolific Dreamer 方法則需要長達 8 小時。這一顯著的速度優勢,加上其出色的生成質量,證明了 CSD 技術的高效性和實用性。
此外,定量評估中采用的 CLIP R-Precision 指標進一步證實了 CSD 的優越性。用戶研究也顯示 59.4% 的參與者更傾向于選擇 CSD 生成的結果。
實驗部分還對比了 CSD 在紋理生成這一任務上的能力,與多個方法進行比較,實驗結果顯示無論從效果還是用戶研究中都優于其他方法。
此外,研究者們還展示了如何利用 CSD 對現有的 3D 場景進行編輯,如下圖所示,你可以使用 CSD 將一個香蕉人編輯為一個黃瓜人,將模特身上的苔蘚編輯為鮮花,而不損失其他部分。
總而言之,CSD 從理論出發,重新思考了目前 3D 生成的關鍵所在,重塑優化目標,最終在多個任務上顯示出其優越性與強大的潛力。通過對這一新范式的深入探索和應用,我們能夠更有效地從文本描述中生成高質量、高精度的三維內容,這對于三維內容創造領域的未來發展具有深遠的影響。