五分鐘生成漫威3D數(shù)字人!美隊蜘蛛俠小丑都能搞定,高清還原面部細節(jié)
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯(lián)系出處。
隨著計算機圖形學的發(fā)展,3D生成技術正逐漸成為研究熱點。然而,從文本或圖像生成3D模型仍然存在許多挑戰(zhàn)。
近期,Google、NVIDIA和微軟等公司推出了基于神經(jīng)輻射場(NeRF)的3D生成方法,但這些方法與傳統(tǒng)的3D渲染軟件(如Unity、Unreal Engine和Maya等)存在兼容性問題,限制了其在實際應用中的廣泛應用。
為此,影眸科技與上??萍即髮W的研發(fā)團隊提出了一種文本指導的漸進式3D生成框架,旨在解決這些問題。
根據(jù)文字描述生成3D資產(chǎn)
該研究團隊提出的文本指導的漸進式3D生成框架(簡稱DreamFace),結合了視覺-語言模型、隱式擴散模型和基于物理的材質(zhì)擴散技術,生成符合計算機圖形制作標準的3D資產(chǎn)。
這一框架的創(chuàng)新之處在于其幾何體生成、基于物理的材質(zhì)擴散生成和動畫能力生成三個模塊。
這項工作已被頂級期刊Transactions on Graphics接收,并將在國際計算機圖形學頂級會議SIGGRAPH 2023上展示。
項目網(wǎng)站:https://sites.google.com/view/dreamface
預印版論文:https://arxiv.org/abs/2304.03117
Web Demo: https://hyperhuman.top
HuggingFace Space:https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar
如何實現(xiàn)DreamFace三大功能
DreamFace主要包括三個模塊,幾何體生成,基于物理的材質(zhì)擴散和動畫能力生成。相比先前的3D生成工作,這項工作的主要貢獻包括:
- 提出了DreamFace這一新穎的生成方案,將最近的視覺-語言模型與可動畫和物理材質(zhì)的面部資產(chǎn)相結合,通過漸進式學習來分離幾何、外觀和動畫能力。
- 引入了雙通道外觀生成的設計,將一種新穎的材質(zhì)擴散模型與預訓練模型相結合,同時在潛在空間和圖像空間進行兩階段優(yōu)化。
- 使用BlendShapes或生成的Personalized BlendShapes的面部資產(chǎn)具備動畫能力,并進一步展示了DreamFace在自然人物設計方面的應用。
幾何體生成:該模塊通過CLIP(Contrastive Language-Image Pre-Training)選擇框架根據(jù)文本提示生成幾何模型。
首先從人臉幾何參數(shù)空間隨機采樣候選項,然后根據(jù)文本提示選擇匹配得分最高的粗略幾何模型。
接下來,使用隱式擴散模型(LDM)和得分蒸餾采樣(SDS)處理,從而在粗略幾何模型中添加面部細節(jié)和詳細的法線貼圖,生成高精度幾何體。
基于物理的材質(zhì)擴散生成:該模塊針對預測幾何體和文本提示生成面部紋理。首先,對LDM進行微調(diào),得到兩個擴散模型。
然后,通過聯(lián)合訓練方案協(xié)調(diào)這兩個模型,一個用于直接去噪U紋理貼圖,另一個用于監(jiān)督渲染圖像。此外,還采用了提示學習策略和非面部區(qū)域遮罩以確保生成的漫反射貼圖的質(zhì)量。
最后,應用超分辨率模塊生成4K基于物理的紋理,以進行高質(zhì)量渲染。
動畫能力生成:DreamFace生成的模型具備動畫能力。與傳統(tǒng)基于BlendShapes的方法不同,該框架通過預測獨特的變形為靜息(Neutral)模型賦予動畫效果,從而生成個性化的動畫。
首先訓練幾何生成器學習表情潛在空間,然后訓練表情編碼器從RGB圖像中提取表情特征。最終,通過使用單目RGB圖像生成個性化的動畫。
5分鐘生成指定3D資產(chǎn)
DreamFace框架在名人生成、描述生成角色等任務上取得了良好的效果,并在用戶評估中獲得了超過先前工作的成績。
同時,與現(xiàn)有方法相比,運行時間上具有明顯優(yōu)勢。
此外,DreamFace支持使用提示和草圖進行紋理編輯,實現(xiàn)全局編輯效果(如老化、化妝)和局部編輯效果(如紋身、胡須、胎記)。
可用于影視、游戲等行業(yè)
作為一種文本指導的漸進式3D生成框架,DreamFace結合了視覺-語言模型、隱式擴散模型和基于物理的材質(zhì)擴散技術,實現(xiàn)了高精度、高效率和良好兼容性的3D生成。
該框架為解決復雜的3D生成任務提供了有效解決方案,有望推動更多類似的研究和技術發(fā)展。
此外,基于物理的材質(zhì)擴散生成和動畫能力生成將推動 3D生成技術在影視制作、游戲開發(fā)和其他相關行業(yè)的應用。