一鍵實景轉(zhuǎn)動畫,清華系初創(chuàng)公司全球首發(fā)4D骨骼動畫框架,還能生成個性化角色
前幾日,蘋果宣布首款虛擬頭顯設(shè)備 Vision Pro 將于 2 月 2 日正式發(fā)售,XR 設(shè)備作為下一代終端預計將迎來快速發(fā)展。未來隨著虛擬顯示設(shè)備的普及,數(shù)字交互將從平面走向立體,立體模型、立體動畫將成為未來主流的內(nèi)容形態(tài),虛實融合下的多維沉浸式交互也將成為潮流。
但從數(shù)據(jù)規(guī)模看,現(xiàn)階段內(nèi)容產(chǎn)業(yè)的數(shù)據(jù)積累仍以 2D 圖像、平面視頻為主,3D 模型、4D 動畫等數(shù)據(jù)基礎(chǔ)較為薄弱。其中,4D 動畫是在傳統(tǒng) 3D 模型的基礎(chǔ)上引入時間序列,即隨時間變化的 3D 模型,可以呈現(xiàn)出動態(tài)立體效果,在游戲動畫、電影特效、虛擬現(xiàn)實等領(lǐng)域具有廣泛的應用,但也是目前內(nèi)容生態(tài)開發(fā)中最困難的環(huán)節(jié)。
因此,面向即將到來的多維沉浸式體驗,構(gòu)建立體化的數(shù)字內(nèi)容將成為重要的基礎(chǔ)性工作。
面向該前沿領(lǐng)域,清華系創(chuàng)業(yè)團隊生數(shù)科技開展了系列研究和產(chǎn)品研發(fā),于近期聯(lián)合清華大學、同濟大學等高校推出全球首個基于「骨骼動畫」的 4D 動畫生成框架「AnimatableDreamer」,能夠直接將 2D 視頻素材一鍵轉(zhuǎn)成動態(tài)立體模型(即 4D 動畫),支持自動提取骨骼動作、一鍵轉(zhuǎn)換動畫效果并可通過文字輸入進行個性化角色生成。
- 論文地址:https://arxiv.org/pdf/2312.03795.pdf
- 項目地址:https://animatabledreamer.github.io/
- 論文標題:AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation
大家可以看以下Demo視頻。
全新內(nèi)容生產(chǎn)方式
顛覆立體動畫開發(fā)流程
過往業(yè)界制作立體動畫,需要經(jīng)過 3D 建模、貼圖渲染、骨骼綁定、動畫制作等復雜流程,需要建模師、動畫師等專業(yè)人員參與才能完成,效率低、成本高。據(jù)統(tǒng)計,單一個靜態(tài) 3D 模型建模的生產(chǎn)周期就在數(shù)小時到幾天時間,成本可高達上千美元,再進行動態(tài)化處理成本投入將更高。
從官方發(fā)布的 demo 視頻可以看到,上傳一段松鼠的 2D 實景視頻,通過輸入「A squirrel with red sweater」(穿紅色毛衣的松鼠)的文本描述,原本實景的松鼠一鍵轉(zhuǎn)成動畫風格,而且完美保留了動作姿勢,同步還可生成 360 度視角下的立體動態(tài)模型,通過切換文字描述,可以自定義角色,將松鼠任意切換為狐貍、杰尼龜?shù)炔煌目ㄍㄐ蜗蟆?/span>
「AnimatableDreamer」可自動提取視頻中目標對象(人物、動物等)的骨骼動作,再通過文本描述將該對象轉(zhuǎn)換為任意的帶骨骼動畫模型。整個過程不受模版限制,支持任意視頻長度和任意類型動作,具備高度的時間一致性和多視角一致性,并且導出的動態(tài)立體模型,能夠在任意 3D 環(huán)境中進行渲染。
面向影視動漫等領(lǐng)域的后期制作,通常需要針對動畫做更多編輯,「AnimatableDreamer」也支持針對已經(jīng)完成骨骼綁定的模型進行更換或編輯動畫文件,實現(xiàn)更高的自由度。未來相關(guān)技術(shù)逐漸落地后,游戲開發(fā)、影視動畫等場景的 3D 建模、動畫制作流程,有望變得更加高效。
面向未來
有望形成全新的內(nèi)容生態(tài)
在實現(xiàn)原理上,研究團隊創(chuàng)新性地提出了規(guī)范得分蒸餾策略(Canonical Score Distillation,簡稱 CSD),在隨時間變化的相機空間中對不同幀及不同視角的 3D 模型進行渲染及降噪,并統(tǒng)一將梯度回傳至不同相機空間共享的規(guī)范空間中進行蒸餾,將 4D 生成降維至 3D,即將 4D 生成問題簡化為 3D 空間上的生成。
「AnimatableDreamer」能直接從視頻中提取關(guān)節(jié)動作,通過解耦物體的模型與運動,生成的模型具備高度的時間一致性和幾何合理性,不受視頻長度限制,而且能有效地消除如形狀斷裂、閃爍和多視角不一致等問題。
在有限視角和大幅度運動的場景中,由于引入了 Diffusion 模型的先驗知識,即便輸入的視頻未覆蓋完整物體,「AnimatableDreamer」也能自動補全畫面信息,實現(xiàn)較好的生成質(zhì)量。
可以說,「AnimatableDreamer」的提出直接打通文本到 4D 骨骼動畫的生成,建模、貼圖、骨骼綁定、動作驅(qū)動一氣呵成!輸入自然語言描述,自動輸出立體動畫視頻,無需專業(yè)知識,普通人也能直接上手,輕松定制動畫內(nèi)容。
以「AnimatableDreamer」為基礎(chǔ)的工作將大大降低 3D、4D 數(shù)字內(nèi)容的生產(chǎn)難度,將交互體驗豐富化,讓每個人都能進行創(chuàng)意內(nèi)容的生成和編輯,將催生出 3D 時代下全新的內(nèi)容娛樂與內(nèi)容消費模式。
暢想一下,在未來的虛擬世界中,用戶可以快速搭建自定義的數(shù)字空間,打造個性化的交互體驗。例如:
- 數(shù)字空間下的每個人物形象可以任意個性化的生成,比如給小朋友穿上超人的衣服、萬圣節(jié)隨意切換節(jié)日主題服裝等;
- 養(yǎng)寵物的用戶可以將自家寵物卡通化,例如將其生成虛擬的米老鼠形象。寵物日常就如卡通片一樣,主人跟寵物的日常互動將變得趣味橫生;
- 人與人的互動方式也變得更豐富,隨時隨地可以來上一場主題派對,實時生成想要的派對環(huán)境、人物裝扮等等。
作為一家成立不到一年的初創(chuàng)公司,生數(shù)科技團隊長期致力于圖像、3D、視頻等多模態(tài)大模型領(lǐng)域,在 9 月份發(fā)布了 3D 資產(chǎn)創(chuàng)建工具 VoxCraft,在 Discord 正式上線,支持文圖引導、分鐘級創(chuàng)建 3D 模型、3D 貼圖自定義更換等功能,賦能游戲開發(fā)、影視動畫等場景的 3D 建模流程。此次推出的 4D 骨骼動畫生成是生數(shù)科技的又一項全新探索工作,未來將在 VoxCraft 的產(chǎn)品中進行集成。
VoxCraft 工具地址:https://voxcraft.ai/
蘋果 Vision Pro 的來臨不僅僅是硬件設(shè)備層面的重要革新,同時也將開啟一場內(nèi)容和體驗革命的序幕。4D 動畫生成等生成式 AI 的創(chuàng)新能力,除了帶來更好的視覺呈現(xiàn),還將以全新方式打開多維數(shù)字體驗,為下一代人機交互帶來更多可能。