冬奧賽事正酣,除了新晉頂流“冰墩墩”外,支撐賽場(chǎng)內(nèi)外的各項(xiàng)“黑科技”也是熱議話題之一。其中,一眾虛擬數(shù)字人的集中亮相尤其引人關(guān)注。
由百度智能云提供支持的AI手語(yǔ)虛擬主播亮相央視新聞,為聽(tīng)障用戶提供24小時(shí)手語(yǔ)服務(wù),助其即時(shí)獲得賽事資訊;騰訊3D手語(yǔ)數(shù)智人“聆語(yǔ)”也上線央視頻,為賽事提供手語(yǔ)解說(shuō);中國(guó)氣象局推出的虛擬數(shù)字人“馮小殊”,為觀眾實(shí)時(shí)播報(bào)觀賽氣象指數(shù);在谷愛(ài)凌摘得大跳臺(tái)金牌的前夕,其數(shù)字分身Meet GU現(xiàn)身咪咕演播室;由科大訊飛打造的央視主播王冰冰虛擬形象,在《冰冰帶你說(shuō)冬奧》專屬H5中登場(chǎng);AI裁判&助理教練“觀君”助力我國(guó)運(yùn)動(dòng)員摘得兩金一銀;還有新華社數(shù)字記者“小諍”繼穿越空間站后,這次從火星發(fā)來(lái)賽事智能分析的特別報(bào)道……
這些虛擬數(shù)字人形形色色、人設(shè)多樣,給觀眾帶來(lái)了嶄新的服務(wù)與視聽(tīng)體驗(yàn),頗有些“亂花漸欲迷人眼”的味道。可以說(shuō),冬奧成為了國(guó)內(nèi)數(shù)字人集中展示的高規(guī)格舞臺(tái),越來(lái)越多的人在這次展示中看到了現(xiàn)階段在數(shù)字人領(lǐng)域本土技術(shù)力量的崛起和進(jìn)化。那么到底何謂數(shù)字人、數(shù)字人為什么會(huì)火、其商業(yè)前景如何,且讓我們先捋一捋其發(fā)展軌跡。
那些年,橫空出世的數(shù)字人
“數(shù)字人”并不新鮮。遙想當(dāng)年,老二次元必定還記得初音未來(lái)、洛天依等虛擬偶像剛出現(xiàn)時(shí)掀起的熱潮。雖然如今的大眾對(duì)于虛擬數(shù)字人基本都見(jiàn)怪不怪、波瀾不驚了,但事實(shí)上,虛擬數(shù)字人的發(fā)展到了近兩年才開(kāi)啟了質(zhì)的飛躍,其定義、分類(lèi)、功能和市場(chǎng)潛力才逐漸清晰起來(lái)。
根據(jù)中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟發(fā)布的《2020年虛擬數(shù)字人發(fā)展白皮書(shū)》定義,虛擬數(shù)字人,即具有數(shù)字化外形的虛擬人物。簡(jiǎn)言之,擁有類(lèi)人的外觀、行為、思想(當(dāng)然也有一些非人的萌系形象,如火星車(chē)數(shù)字人“祝融號(hào)”)。
從上世紀(jì)90年代至今,數(shù)字人的發(fā)展基本可以梳理為三個(gè)階段:
以“紙片人”為代表的1.0階段:由初始公司發(fā)布初始形象,通過(guò)UGC的形式與用戶進(jìn)行互動(dòng)。互動(dòng)載體以長(zhǎng)短視頻為主,面向泛二次元用戶。
以vTuber主播為代表的2.0階段:通過(guò)背后的中之人加上動(dòng)捕設(shè)備來(lái)與用戶進(jìn)行千人一面的交流。驅(qū)動(dòng)形態(tài)依舊限于二次元,用戶群體也相對(duì)受限。
具備模型高精、人工智能驅(qū)動(dòng)特點(diǎn)的數(shù)字人3.0階段:由于采用了傳統(tǒng)+AI的方式實(shí)現(xiàn),生產(chǎn)端成本降低,可驅(qū)動(dòng)形態(tài)擴(kuò)展到高精2D/3D,用戶覆蓋全人群。在AI能力的加持下,其互動(dòng)載體更為多樣,且其交互可以做到全天候,達(dá)到千人千面的效果。
近年來(lái),隨著5G、AI等技術(shù)的發(fā)展,加之算力平臺(tái)的迭代,數(shù)字人領(lǐng)域逐漸出現(xiàn)各類(lèi)超寫(xiě)實(shí)、實(shí)時(shí)動(dòng)捕乃至AI驅(qū)動(dòng)的實(shí)驗(yàn)性的落地產(chǎn)品。尤其去年以來(lái),借著Metaverse概念的興起,MetaHuman也成為市場(chǎng)的寵兒。如何打開(kāi)數(shù)字人在應(yīng)用場(chǎng)景的商業(yè)化空間成為資本關(guān)注的焦點(diǎn)。
頭豹研究院數(shù)據(jù)顯示,當(dāng)前虛擬數(shù)字人市場(chǎng)規(guī)模已超過(guò)2000億元,預(yù)計(jì)到2030年將達(dá)到2703億元。當(dāng)然,普羅大眾的觀感會(huì)更直觀。你稍加留意就會(huì)發(fā)現(xiàn),從去年開(kāi)始,形態(tài)各異的數(shù)字人在各大平臺(tái)次第登場(chǎng),到冬奧會(huì)時(shí)密集露出,這無(wú)疑再次佐證了:數(shù)字人正在由一個(gè)泛化的概念真正進(jìn)化到多元應(yīng)用的產(chǎn)業(yè)化階段。
這是一場(chǎng)營(yíng)銷(xiāo)下的“虛火”嗎?
似乎在一夜之間,人人都知道了數(shù)字人是風(fēng)口。但也正因如此,不少人開(kāi)始質(zhì)疑,數(shù)字人“火”了,是需求驅(qū)動(dòng)下實(shí)打?qū)嵉摹罢婊稹边€是密集營(yíng)銷(xiāo)下沸反盈天的“虛火”?我們可以從政策、市場(chǎng)、資本三個(gè)維度做一下觀察。
首先,在政策上,2021年10月發(fā)布的《廣播電視和網(wǎng)絡(luò)視聽(tīng)“十四五”科技發(fā)展規(guī)劃》指出:“要推動(dòng)虛擬主播、動(dòng)畫(huà)手語(yǔ)廣泛應(yīng)用于新聞播報(bào)、天氣預(yù)報(bào)、綜藝科教等節(jié)目生產(chǎn),創(chuàng)新節(jié)目形態(tài),提高制播效率和智能化水平”,首次明確鼓勵(lì)和支持虛擬人的發(fā)展。另外,《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》更新數(shù)字經(jīng)濟(jì)的指導(dǎo)意見(jiàn),也讓虛擬人、元宇宙的概念和發(fā)展,有了更清晰的導(dǎo)向。可以看出,國(guó)家對(duì)虛擬人產(chǎn)業(yè)發(fā)展整體持肯定態(tài)度,這對(duì)從業(yè)者而言顯然是一劑強(qiáng)心針,可以專注研發(fā),而不必?fù)?dān)心行業(yè)會(huì)突然因政策而“觸礁”。
再者,根據(jù)市場(chǎng)需求,基于當(dāng)前發(fā)展階段和商業(yè)模式,數(shù)字人主要分為兩類(lèi):偶像類(lèi)演藝型數(shù)字人和服務(wù)型數(shù)字人。
前者如虛擬偶像、虛擬主播、虛擬代言人等,主要落地在文娛和品牌營(yíng)銷(xiāo)等領(lǐng)域,比如會(huì)“捉妖”的虛擬美妝達(dá)人“柳夜熙”、穿梭在真人間的虛擬KOL “AYAYI”、央美畢業(yè)唱歌吟詩(shī)作畫(huà)無(wú)一不精的虛擬數(shù)字人“夏語(yǔ)冰”;而服務(wù)型數(shù)字人則標(biāo)志著另一種截然不同的發(fā)展路線,比如數(shù)字客服、數(shù)字員工、虛擬培訓(xùn)師等等,主要在落地在金融、運(yùn)營(yíng)商等領(lǐng)域,比如最卷打工人萬(wàn)科財(cái)務(wù)部的虛擬數(shù)字人“崔筱盼”、浦發(fā)銀行首位數(shù)字員工“小浦”等等。
從春節(jié)期間的各類(lèi)晚會(huì)到冬奧會(huì)賽場(chǎng)內(nèi)外,都可以看到,數(shù)字人并未止步于唱跳表演、直播或品牌營(yíng)銷(xiāo),而是逐步融入主流媒體搭建的新聞播報(bào)、知識(shí)科普、大型賽事、公益等場(chǎng)景,發(fā)揮出了更多服務(wù)和功能價(jià)值。從單純的虛擬偶像到如今在社交、游戲、辦公等場(chǎng)景下的多點(diǎn)開(kāi)花,市場(chǎng)對(duì)于數(shù)字人的期望正在向縱深發(fā)展,數(shù)字人在更多場(chǎng)景下商業(yè)變現(xiàn)的可能也在進(jìn)一步被證實(shí)。
最后,除了政策層面的認(rèn)可,市場(chǎng)方面的需求,資本的涌入也是肉眼可見(jiàn)的。全球眾多財(cái)力雄厚的科技巨頭與平臺(tái)早已紛紛入場(chǎng),布局?jǐn)?shù)字人賽道,搶占這個(gè)千億市場(chǎng)的先發(fā)優(yōu)勢(shì)。他們有的通過(guò)基礎(chǔ)技術(shù)賦能,有的從元宇宙全鏈路探索,有的走軟硬件并行發(fā)展路線,有的從企業(yè)級(jí)、消費(fèi)級(jí)應(yīng)用打開(kāi)缺口。
B站早早開(kāi)始布局并加碼虛擬偶像領(lǐng)域,騰訊互娛旗下NEXT Studios和新華社聯(lián)合打造數(shù)字記者“小諍”,阿里巴巴扶植虛擬主播助力內(nèi)容電商,字節(jié)跳動(dòng)通過(guò)入股的方式擁有了虛擬偶像團(tuán)體A-SOUL,科大訊飛推出了虛擬人交互平臺(tái),網(wǎng)易發(fā)布虛擬人軟件開(kāi)發(fā)工具包“有靈”,百度發(fā)布全新智能數(shù)字人平臺(tái)“百度智能云曦靈”,英偉達(dá)將自身積累的技術(shù)能力高度整合為Omniverse(全宇宙)產(chǎn)品,微軟基于多年來(lái)探索的人機(jī)交互技術(shù)推動(dòng)虛擬人與真人交流。在這些巨頭的布局思路中,數(shù)字人不僅是當(dāng)下值得投入的潛力場(chǎng)域,也是未來(lái)虛實(shí)共生場(chǎng)景的重要入口。
由此,我們可以看到,虛擬數(shù)字人不論是從政策、市場(chǎng)還是資本層面都有其“火起來(lái)”的先決條件。但不可否認(rèn)的是,在這個(gè)看似繁花簇錦的市場(chǎng)中,虛擬數(shù)字人的核心驅(qū)動(dòng)技術(shù)仍處于發(fā)展的初始階段。一些分析人士也因此持觀望態(tài)度:“蜂擁而至的虛擬數(shù)字人,有點(diǎn)像過(guò)去企業(yè)吉祥物的變種。如果它們不能真正做到服務(wù)用戶,即使是花大力量做出的吉祥物,除了能為企業(yè)貢獻(xiàn)一時(shí)的流量外,未來(lái)并不具備可持續(xù)發(fā)展的可能。”
數(shù)字人是如何“煉”成的
數(shù)字人要邁向產(chǎn)業(yè)化、規(guī)模化服務(wù)階段,根本上還是要取決于技術(shù)的發(fā)展。
一般來(lái)說(shuō),數(shù)字人系統(tǒng)由人物生成、人物表達(dá)、合成顯示、識(shí)別感知和分析決策等五大模塊構(gòu)成。這五大模塊主要解決虛擬人的兩個(gè)問(wèn)題,第一,能否像真人一樣表達(dá),第二,能否像真人一樣思考。
能否像真人一樣表達(dá)?解決這個(gè)問(wèn)題的關(guān)鍵在于建模、驅(qū)動(dòng)和渲染三大技術(shù)。
事實(shí)上,得益于這三大技術(shù)的突破,數(shù)字人的質(zhì)變式飛躍才有了可能。在建模端,具有高保真且能夠獲取人物動(dòng)態(tài)模型數(shù)據(jù)的掃描技術(shù)已經(jīng)出現(xiàn),虛擬數(shù)字人在外表上已無(wú)限“逼近”人類(lèi);在驅(qū)動(dòng)端,智能合成、動(dòng)作捕捉取得了長(zhǎng)足進(jìn)步,虛擬人的表情、動(dòng)作開(kāi)始能達(dá)到以假亂真的程度;在渲染端,隨著CPU、GPU等硬件能力的提升和算法的突破,成像的真實(shí)性和細(xì)微度均大幅提升。
以AI氣象服務(wù)數(shù)字人“馮小殊”為例,“馮小殊”的原型是《天氣預(yù)報(bào)》節(jié)目主持人馮殊。據(jù)公開(kāi)資料顯示,小冰公司通過(guò)深度神經(jīng)網(wǎng)絡(luò)渲染技術(shù)(Xiaoice Neural Rendering, XNR)及小樣本學(xué)習(xí)技術(shù),僅用1周的時(shí)間就完成了對(duì)馮殊本人的學(xué)習(xí)。經(jīng)過(guò)語(yǔ)音、嘴型、人臉?shù)秩緦<夷P陀?xùn)練,虛擬數(shù)字人可以完美地get馮殊本人的嘴部動(dòng)作、眼部及臉部肌肉之間的協(xié)同關(guān)系,其面容、表情、肢體動(dòng)作的整體自然度跟真人幾乎無(wú)異。
技術(shù)的進(jìn)步在一點(diǎn)點(diǎn)提升人們對(duì)虛擬數(shù)字人的期待,但很多時(shí)候這種期待會(huì)有落空之感。究其原因,在于數(shù)字人的“智能化”程度還不夠,無(wú)法自主和人類(lèi)互動(dòng)、交流。這就涉及到關(guān)鍵的第2個(gè)問(wèn)題——能否像真人一樣思考?虛擬數(shù)字人在接收信息后作出判斷、決策、然后再向人類(lèi)進(jìn)行反饋,做到這一點(diǎn),才是真正打開(kāi)了數(shù)字人發(fā)展的通達(dá)大道。
百度智能云AI人機(jī)交互實(shí)驗(yàn)室負(fù)責(zé)人李士巖曾提到,目前,數(shù)字人雖然有很多技術(shù)創(chuàng)新,但它依舊處在3.0階段的初期,其發(fā)展還存在三大技術(shù)難題:其一,數(shù)字人產(chǎn)業(yè)鏈各個(gè)節(jié)點(diǎn)相對(duì)割裂、不能高效協(xié)同;其二,服務(wù)場(chǎng)景和演藝場(chǎng)景沒(méi)有有效打通,主要表現(xiàn)為演藝型數(shù)字人不具備客戶所需的業(yè)務(wù)能力,而服務(wù)型數(shù)字人缺乏人設(shè),難以與用戶進(jìn)行情感交流;其三,滿足高機(jī)動(dòng)性、高頻需求成本依舊較高。當(dāng)一些客戶要來(lái)頻繁升級(jí)數(shù)字人需求、做新場(chǎng)景時(shí),依舊需要大量定制化開(kāi)發(fā)成本。
可以說(shuō),冬奧會(huì)中展現(xiàn)出的數(shù)字人的技術(shù)能力,幾乎代表了現(xiàn)階段虛擬數(shù)字人的最高水平。在這類(lèi)資金實(shí)力充足的體育盛事中,集中力量打造符合賽事報(bào)道的數(shù)字人相對(duì)容易。但在廣泛的落地過(guò)程中,虛擬數(shù)字人的發(fā)展仍存在不少掣肘。如何針對(duì)這些痛點(diǎn),探索新的產(chǎn)品路徑,想必是未來(lái)幾年中眾多玩家必爭(zhēng)之處。
未來(lái):人手一個(gè)數(shù)字人,可能嗎?
在5G、AI等技術(shù)的加持下,現(xiàn)階段的虛擬數(shù)字人通過(guò)自我學(xué)習(xí)和算法能力可以實(shí)現(xiàn)與人語(yǔ)音、手勢(shì)的交互,但總體來(lái)說(shuō),智能化水平目前比較初級(jí),距離泛化的應(yīng)用還有一段“長(zhǎng)坡”要走。
對(duì)演藝型數(shù)字人來(lái)說(shuō),要打造為成功的IP,過(guò)硬的專業(yè)素質(zhì)和原創(chuàng)內(nèi)容才能維持和拓展人設(shè)生命力,提升商業(yè)價(jià)值,但這樣也提高了應(yīng)用的門(mén)檻和成本;對(duì)服務(wù)型數(shù)字人來(lái)說(shuō),作為企業(yè)員工的補(bǔ)充,迅速適配應(yīng)用場(chǎng)景,助力企業(yè)降本增效才是立足之本,但定制化成本過(guò)高卻是不容回避的問(wèn)題。
但同樣不可否認(rèn)的是,隨著虛實(shí)共生時(shí)代的來(lái)臨,多元場(chǎng)景對(duì)虛擬人將有更廣泛的需求。當(dāng)現(xiàn)實(shí)世界與數(shù)字世界之間的界限不斷融合與模糊,虛擬數(shù)字人可以作為兩個(gè)世界連接的載體,擁有無(wú)限的生命力與想象空間。多元的身份、強(qiáng)大的分析與數(shù)據(jù)處理能力,類(lèi)似真人交互般的體驗(yàn)絲滑,這樣的數(shù)字分身將成為我們出入虛擬數(shù)字世界的堅(jiān)實(shí)鎧甲。
遠(yuǎn)方,荊棘與鮮花共生。我們期待:“人手一個(gè)數(shù)字人”的未來(lái)終將到來(lái)。