大模型卷爆數(shù)字人:一句話5分鐘實現(xiàn)定制,跳舞主持帶貨都能hold住 精華
最快5分鐘,打造一個直接上崗工作的3D數(shù)字人。
這是大模型給數(shù)字人領(lǐng)域帶來的最新震撼。
就像這樣,一句話描述需求:
生成的數(shù)字人直接就能進駐直播間當主播。
跳起女團舞也不在話下。
整個制作過程中,想到什么說什么就行,大模型都能自動拆解需求,瞬間get設(shè)計、修改思路。
再也不怕老板/甲方的想法太新奇。
這樣的文生數(shù)字人技術(shù),來自百度智能云最新發(fā)布。該說不說,是要把數(shù)字人的使用門檻一口氣砍沒的節(jié)奏了。
聽聞如此神器,我們照例第一時間爭取到了內(nèi)測資格,更多細節(jié),一起先睹為快~
一句話5分鐘,3D數(shù)字人直接上崗
從Chatbot到文生圖片,再到文生視頻,大模型帶來的交互方式的變革,已經(jīng)無需贅言。
現(xiàn)在,在百度智能云曦靈平臺上,基于文心一言4.0,數(shù)字人定制這件事,同樣能通過自然語言對話的形式實現(xiàn)。
舉個例子,生成一個品牌代言人,需要幾步?
首先,輸入“生成一個百度智能云品牌代言人”這樣的提示詞,同時上傳logo圖片。
大模型就會自動從臉型、發(fā)型、妝容、服裝、配飾等多個維度,開始一步一步思考:
自動打造出符合要求的數(shù)字人。
如果需要調(diào)整細節(jié),一樣“說話”就能完成。
也就5-10分鐘,一個360°無死角的高質(zhì)量數(shù)字人就基本成型了。
捏臉完畢,下一步就是給數(shù)字人綁上表情,讓Ta能動起來。同樣只需要一鍵操作,等待1-2分鐘。
相比于過去高精度3D數(shù)字人好幾天、甚至好幾個月的定制周期,這個分鐘級的效率,確實稱得上是“顛覆”了。
值得一提的是,效率如此大幅提升的前提下,這樣的文生數(shù)字人細節(jié)質(zhì)量依然保持著高水準。
表情細節(jié):
動作質(zhì)量:
結(jié)合百度智能云在數(shù)字人領(lǐng)域的長期積累,上崗播新聞、直播帶貨都不在話下。
數(shù)字人技術(shù)全面AI化
效率和落地能力的直觀提升之外,此次百度智能云推出的文生數(shù)字人方案背后,不少技術(shù)細節(jié)也值得好好說道說道。
正如前文所說,其技術(shù)基座,正是文心一言4.0.
而起到關(guān)鍵作用的大模型能力包括:
- 自動拆解要做的任務(wù)和子任務(wù)
- 顯示思考過程,做到有理有據(jù),讓整個生成過程“白盒化”
- 實現(xiàn)了基于內(nèi)容提煉的短期記憶,可以通過對話持續(xù)調(diào)整數(shù)字人形象
這樣一來,大模型就成了一個能懂人類甲方心理的數(shù)字人造型助理,可以模仿人類思路,去摳數(shù)字人定制的每一個細節(jié),并且做到過程可控。
同時,大模型還在背后施展出了調(diào)用工具的能力。
比如,調(diào)用涵蓋6000+維度的臉型及五官細節(jié)“知識庫”,整體調(diào)整數(shù)字人面容。
大模型技術(shù)之外,百度智能云還在曦靈平臺中加入了新的AI渲染技術(shù),支持AI驅(qū)動、AI布料模擬,讓數(shù)字人的表情肢體動作更自然,服裝面料質(zhì)感更真實。包括:
- 動態(tài)褶皺貼圖,讓紋理更加真實。
- 分鐘級4D自動綁定,讓眼睛、嘴唇等部位能夠完美閉合,并支持表情風(fēng)格切換。
- 肢體肌肉擠壓、碰撞實時模擬。
- ……
官方還透露,接下來,百度智能云計劃實現(xiàn)角色、行為、場景、燈光、鏡頭要素的全面AI化。
數(shù)字人,步入大模型時代應(yīng)用新范式
如果說去年大家還在熱火朝天地討論基礎(chǔ)模型,那么今年以來由Sora而起,大模型帶來的應(yīng)用范式的變革,已經(jīng)成為科技圈新的熱議焦點。
在交互方式的改變之上,核心受到關(guān)注的,其實還是效率提升:
輸出創(chuàng)意,生成所需,大模型正在讓越來越多本來需要消耗大量時間、人力、金錢的工作,變得簡單、高效、人人可用。
現(xiàn)在,百度智能云在3D數(shù)字人領(lǐng)域的最新技術(shù)進展,就是這種可能性在人們更為熟知的圖像、視頻領(lǐng)域之外,拓展開來的一個代表。
可以預(yù)見的是,過去更多在大企業(yè)、大機構(gòu)中被使用的數(shù)字人員工,在新范式的驅(qū)動之下,步入“尋常百姓家”正在成為可能。
此前,清華大學(xué)《虛擬數(shù)字人研究報告2.0版》數(shù)據(jù)顯示,從頭部企業(yè)的布局來看,面向B端的數(shù)字人產(chǎn)品服務(wù)是市場的主要組成部分,占比達到79%。
而隨著大模型技術(shù)對數(shù)字人應(yīng)用模式的顛覆,不僅中小企業(yè)不用再對6位數(shù)的3D高精度數(shù)字人望而卻步,C端的應(yīng)用也將得以拓展。
這也就意味著,數(shù)字人的應(yīng)用和商業(yè)化,已經(jīng)翻開新的一頁。
最后,如果你還對哪些大模型新應(yīng)用感興趣,歡迎留言,我們速速測起~
本文轉(zhuǎn)自 量子位 ,作者:量子位
