成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真” 精華

發(fā)布于 2024-4-19 10:06
瀏覽
0收藏

AI偽造真人視頻,門檻再次降低。


微軟發(fā)布一張圖生成數(shù)字人技術(shù)VASA-1,網(wǎng)友看過直呼“炸裂級效果”,比“AI劉強(qiáng)東還真”。

微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

做到以假亂真效果,不用針對特定人物訓(xùn)練,只要上傳一張人臉圖片、一段音頻,哪怕不是真人也行


比如可以讓蒙娜麗莎唱Rap,模仿安妮海瑟薇即興吐槽狗仔隊(duì)名場面。


或者讓素描人像念華強(qiáng)臺詞。


在項(xiàng)目主頁還有更多1分鐘視頻,以及更更多15秒視頻可看。


不同性別、年齡、種族的數(shù)字人,用著不同的口音在說話。

微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

根據(jù)團(tuán)隊(duì)在論文中的描述,VASA-1擁有如下特點(diǎn):

  • 唇形與語音的精準(zhǔn)同步

這是最基本的,VASA-1在定量評估中也做到了頂尖水平。

  • 豐富而自然的面部表情

不光做到讓照片“開口說話”,眉毛、眼神、微表情等也跟著協(xié)調(diào)運(yùn)動,避免顯得呆板。

  • 人性化的頭部動作

說話時(shí)適當(dāng)?shù)狞c(diǎn)頭、搖頭、歪頭等動作,能讓人物看起來更加鮮活、更有說服力。

總得來說,仔細(xì)看的話眼睛還有一些破綻,但已經(jīng)被網(wǎng)友評為“迄今為止最佳演示”

微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

然而更恐怖的是,整個系統(tǒng)推理速度還是實(shí)時(shí)級的。


生成512x512分辨率的視頻,使用一塊英偉達(dá)RTX4090顯卡就能跑到40fps。

那么,VASA-1是如何做到這些的呢?

3大關(guān)鍵技術(shù),Sora同款思路

一句話概括:

不是直接生成視頻幀,而是在潛空間中生成動作編碼,再還原成視頻。

?

是不是和Sora的思路很像了?


其實(shí)VASA-1的模型架構(gòu)選擇Diffusion Transformer,也與Sora核心組件一致。

微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

據(jù)論文描述,背后還有3大關(guān)鍵技術(shù):

微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

人臉潛編碼學(xué)習(xí),這部分是高度解耦的。


團(tuán)隊(duì)從大量個真實(shí)的說話視頻中,學(xué)習(xí)到一個理想的人臉特征空間。


把身份、外觀、表情、姿態(tài)等因素在隱空間里剝離開。這樣一來,同一個動作就能驅(qū)動不同的臉,換成誰都很自然。

微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

頭部運(yùn)動生成模型,這部分又是高度統(tǒng)一的。


不同于之前的方法分別建模嘴唇、眼神、眉毛、頭部姿態(tài)等局部動作,VASA-1把所有面部動態(tài)統(tǒng)一編碼,用Diffution Transfromer模型,也就是SORA同款核心組件,來建模其概率分布。


這樣既能生成更協(xié)調(diào)自然的整體動作,又能借助transformer強(qiáng)大的時(shí)序建模能力,學(xué)習(xí)長時(shí)依賴。


比如給定一組原始序列(下圖第一列),最終可以做到:

  • 用原始頭部姿態(tài),改變面部表情(第二列)
  • 用原始面部表情,改變頭部姿態(tài)(第三列)
  • 用原始面部表情,生成全新的頭部姿態(tài)(第四列)

微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

最后是高效率推理


為了實(shí)現(xiàn)秒實(shí)時(shí)合成,團(tuán)隊(duì)對擴(kuò)散模型的推理過程進(jìn)行了大量優(yōu)化。


此外,VASA-1還允許用戶輸入一些可選的控制信號,比如人物的視線方向、情緒基調(diào)等,進(jìn)一步提升了可控性。

微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

AI造假成本越來越低了

被VASA-1效果震驚過后,很多人開始思考,把AI數(shù)字人做到如此逼真,發(fā)布這樣一個技術(shù)真的合適嗎?

微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

畢竟用AI偽造音頻視頻詐騙的例子,我們已經(jīng)見過太多。


就在2個多月前,還有一起假冒公司CFO開視頻會議,直接騙走1.8個億的案件發(fā)生。

微軟團(tuán)隊(duì)也意識到了這一問題,并作出如下聲明:


我們的研究重點(diǎn)是為數(shù)字人生成視覺情感,旨在實(shí)現(xiàn)積極的應(yīng)用。無意創(chuàng)建用于誤導(dǎo)或欺騙的內(nèi)容。


然而,與其他相關(guān)內(nèi)容生成技術(shù)一樣,它仍然可能被濫用于模仿人類。


我們反對任何創(chuàng)造真實(shí)人物的誤導(dǎo)性或有害內(nèi)容的行為,并且有興趣應(yīng)用我們的技術(shù)來推進(jìn)偽造檢測……


目前VASA-1只發(fā)布了論文,看來短時(shí)間內(nèi)也不會發(fā)布Demo或開源代碼了。


微軟表示,該方法生成的視頻仍然包含可識別的痕跡,數(shù)值分析表明,距離真實(shí)視頻的真實(shí)性仍有差距。


不上專業(yè)評估手段,肉眼看的話,仔細(xì)挑刺或直接對比真人視頻,確實(shí)也能發(fā)現(xiàn)目前VASA-1演示視頻中的一些瑕疵。


比如牙齒偶爾會變形。

微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

以及眼神還不像真人那么豐富。(眼睛確實(shí)是心靈的窗戶啊)

微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

但是以“AIGC一天,人間一年”的進(jìn)步速度來看,修復(fù)這些瑕疵恐怕也不用很久。

以及你能保證每時(shí)每刻都保持警惕分辨視頻真假么?


眼見不再為實(shí)。默認(rèn)不相信任何視頻,成了很多人今天做出的選擇。

微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

不管怎么樣,正如一位網(wǎng)友總結(jié)。

我們無法撤銷已經(jīng)完成的發(fā)明,只能擁抱未來。

微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

論文地址:https://arxiv.org/abs/2404.10667


本文轉(zhuǎn)自 量子位,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/WI20-hzn0tJOPo9_vKtTuQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 99热国产精品 | 久久小视频| 国产95在线| 国产99视频精品免费视频7 | 精品免费看 | 精品成人免费视频 | 精品日韩一区 | 日日碰狠狠躁久久躁婷婷 | 一区二区三区免费 | 成人亚洲视频 | 精品欧美乱码久久久久久1区2区 | 国产精品国产a级 | 国产高清一区二区三区 | 精品久久国产 | av乱码 | 亚洲成人午夜在线 | 欧美一级三级 | 99精品网| 九九九国产 | 一区二区三区av | 蜜桃av一区二区三区 | 日本爱爱 | 99re超碰 | 亚洲欧美日韩中文字幕一区二区三区 | 日日夜夜免费精品视频 | 91国自产 | 国产一区二区三区免费 | 久久er99热精品一区二区 | 欧美日韩一区二区三区在线观看 | 久久精品视频亚洲 | 国产精品视频在线免费观看 | 美女视频h | 欧美精品在线一区二区三区 | 欧美激情视频一区二区三区在线播放 | 金莲网 | 亚洲精品自拍视频 | 91精品国产综合久久福利软件 | 久久精品久久久久久 | 亚洲三级在线 | 欧美成人a∨高清免费观看 91伊人 | 高清亚洲 |