成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI視頻又炸了!照片+聲音變視頻,阿里讓Sora女主唱歌小李子說RAP

人工智能
在定量比較上也比之前的方法有較大提升取得SOTA,只在衡量口型同步質(zhì)量的SyncNet指標(biāo)上稍遜一籌。

Sora之后,居然還有新的AI視頻模型,能驚艷得大家狂轉(zhuǎn)狂贊!

圖片圖片

有了它,《狂飆》大反派高啟強(qiáng)化身羅翔,都能給大伙兒普法啦(狗頭)。

這就是阿里最新推出的基于音頻驅(qū)動(dòng)的肖像視頻生成框架,EMO(Emote Portrait Alive)。

有了它,輸入單張參考圖像,以及一段音頻(說話、唱歌、RAP均可),就能生成表情生動(dòng)的AI視頻。視頻最終長(zhǎng)度,取決于輸入音頻的長(zhǎng)度。

你可以讓蒙娜麗莎——這位AI屆效果體驗(yàn)的老選手,朗誦一段獨(dú)白:

年輕俊美的小李子來段快節(jié)奏的RAP才藝秀,嘴形跟上完全沒問題:

甚至粵語口型也能hold住,這就讓哥哥張國榮來首陳奕迅的《無條件》:

總之,不管是讓肖像唱歌(不同風(fēng)格的肖像和歌曲)、讓肖像開口說話(不同語種)、還是各種“張冠李戴”的跨演員表演,EMO的效果,都讓咱看得一愣一愣的。

網(wǎng)友大感嘆:“我們正在走進(jìn)一個(gè)新的現(xiàn)實(shí)!”

2019版《小丑》說2008版《蝙蝠俠黑暗騎士》的臺(tái)詞2019版《小丑》說2008版《蝙蝠俠黑暗騎士》的臺(tái)詞

甚至已經(jīng)有網(wǎng)友開始對(duì)EMO生成視頻開始了拉片,逐幀分析效果究竟怎么樣。

如下面這段視頻,主角是Sora生成的AI女士,本次為大家演唱的曲目是《Don’t Start Now》。

推友分析道:

這段視頻的一致性,比以往更上一層樓了!
一分多鐘的視頻里,Sora女士臉上的墨鏡幾乎沒有亂動(dòng),耳朵、眉毛都有獨(dú)立的運(yùn)動(dòng)。
最精彩的是Sora女士的喉嚨好像真的有呼吸哎!她唱歌的過程中身體還有微顫和移動(dòng),我直接大震驚!

圖片圖片

話說回來,EMO是熱門新技術(shù)嘛,免不了拿來與同類對(duì)比——

就在昨天,AI視頻生成公司Pika也推出了為視頻人物配音,同時(shí)“對(duì)口型”的唇形同步功能,撞車了。

具體效果怎么樣呢,我們直接擺在這兒圖片

評(píng)論區(qū)網(wǎng)友對(duì)比過后得出的結(jié)論是,被阿里吊打了。

圖片圖片

EMO公布論文,同時(shí)宣布開源。

但是!雖說開源,GitHub上仍然是空倉。

再但是!雖然是空倉,標(biāo)星數(shù)已經(jīng)超過了2.1k。

圖片圖片

惹得網(wǎng)友們真的是好著急,有吉吉國王那么急。

圖片

與Sora不同架構(gòu)

EMO論文一出,圈內(nèi)不少人松了口氣。

它與Sora技術(shù)路線不同,說明復(fù)刻Sora不是唯一的路。

EMO并不是建立在類似DiT架構(gòu)的基礎(chǔ)上,也就是沒有用Transformer去替代傳統(tǒng)UNet,其骨干網(wǎng)絡(luò)魔改自Stable Diffusion 1.5。

具體來說,EMO是一種富有表現(xiàn)力的音頻驅(qū)動(dòng)的肖像視頻生成框架,可以根據(jù)輸入視頻的長(zhǎng)度生成任何持續(xù)時(shí)間的視頻。

圖片圖片

該框架主要由兩個(gè)階段構(gòu)成:

  • 幀編碼階段

部署一個(gè)稱為ReferenceNet的UNet網(wǎng)絡(luò),負(fù)責(zé)從參考圖像和視頻的幀中提取特征。

  • 擴(kuò)散階段

首先,預(yù)訓(xùn)練的音頻編碼器處理音頻嵌入,人臉區(qū)域掩模與多幀噪聲相結(jié)合來控制人臉圖像的生成。

隨后是骨干網(wǎng)絡(luò)主導(dǎo)去噪操作。在骨干網(wǎng)絡(luò)中應(yīng)用了兩種注意力,參考注意力和音頻注意力,分別作用于保持角色的身份一致性和調(diào)節(jié)角色的運(yùn)動(dòng)。

此外,時(shí)間模塊被用來操縱的時(shí)間維度,并調(diào)整運(yùn)動(dòng)的速度。

在訓(xùn)練數(shù)據(jù)方面,團(tuán)隊(duì)構(gòu)建了一個(gè)包含超過250小時(shí)視頻和超過1500萬張圖像的龐大且多樣化的音視頻數(shù)據(jù)集。

最終實(shí)現(xiàn)的具體特性如下:

  • 可以根據(jù)輸入音頻生成任意持續(xù)時(shí)間的視頻,同時(shí)保證角色身份一致性(演示中給出的最長(zhǎng)單個(gè)視頻為1分49秒)。
  • 支持各種語言的交談與唱歌(演示中包括普通話、廣東話、英語、日語、韓語)
  • 支持不同畫風(fēng)(照片、傳統(tǒng)繪畫、漫畫、3D渲染、AI數(shù)字人)

圖片圖片

在定量比較上也比之前的方法有較大提升取得SOTA,只在衡量口型同步質(zhì)量的SyncNet指標(biāo)上稍遜一籌。

圖片圖片

與其他不依賴擴(kuò)散模型的方法相比,EMO更耗時(shí)。

并且由于沒有使用任何顯式的控制信號(hào),可能導(dǎo)致無意中生成手等其他身體部位,一個(gè)潛在解決方案是采用專門用于身體部位的控制信號(hào)。

EMO的團(tuán)隊(duì)

最后,來看看EMO背后的團(tuán)隊(duì)有那些人。

論文顯示,EMO團(tuán)隊(duì)來自阿里巴巴智能計(jì)算研究院。

作者共四位,分別是Linrui Tian,Qi Wang,Bang Zhang和Liefeng Bo。

圖片圖片

其中,薄列峰(Liefeng Bo),是目前的阿里巴巴通義實(shí)驗(yàn)室XR實(shí)驗(yàn)室負(fù)責(zé)人。

薄列鋒博士畢業(yè)于西安電子科技大學(xué),先后在芝加哥大學(xué)豐田研究院和華盛頓大學(xué)從事博士后研究,研究方向主要是ML、CV和機(jī)器人。其谷歌學(xué)術(shù)被引數(shù)超過13000。

在加入阿里前,他先是在亞馬遜西雅圖總部任首席科學(xué)家,后又加入京東數(shù)字科技集團(tuán)AI實(shí)驗(yàn)室任首席科學(xué)家。

2022年9月,薄列峰加入阿里。

圖片圖片

EMO已經(jīng)不是第一次阿里在AIGC領(lǐng)域出圈的成果了。

圖片圖片

有AI一鍵換裝的OutfitAnyone。

圖片圖片

還有讓全世界小貓小狗都在跳洗澡舞的AnimateAnyone。

就是下面這個(gè):

圖片圖片

如今推出EMO,不少網(wǎng)友在感嘆,阿里是有些技術(shù)積累在身上的。

圖片圖片

如果現(xiàn)在把所有這些技術(shù)結(jié)合起來,那效果……

不敢想,但好期待。

圖片圖片

總之,我們離“發(fā)給AI一個(gè)劇本,輸出整部電影”越來越近了。

圖片圖片

One More Thing

Sora,代表文本驅(qū)動(dòng)的視頻合成的斷崖式突破。

EMO,也代表音頻驅(qū)動(dòng)的視頻合成一個(gè)新高度。

兩者盡管任務(wù)不同、具體架構(gòu)不同,但還有一個(gè)重要的共性:

中間都沒有加入顯式的物理模型,卻都在一定程度上模擬了物理規(guī)律。

因此有人認(rèn)為,這與Lecun堅(jiān)持的“通過生成像素來為動(dòng)作建模世界是浪費(fèi)且注定要失敗的”觀點(diǎn)相悖,更支持了Jim Fan的“數(shù)據(jù)驅(qū)動(dòng)的世界模型”思想。

圖片圖片

過去種種方法失敗了,而現(xiàn)在的成功,可能真就來自還是強(qiáng)化學(xué)習(xí)之父Sutton的《苦澀的教訓(xùn)》,大力出奇跡。

讓AI能夠像人們一樣去發(fā)現(xiàn),而不是包含人們發(fā)現(xiàn)的內(nèi)容

突破性的進(jìn)展最終通過擴(kuò)大計(jì)算規(guī)模來實(shí)現(xiàn)

論文:https://arxiv.org/pdf/2402.17485.pdfGitHub:https://github.com/HumanAIGC/EMO

參考鏈接:
[1]https://x.com/swyx/status/1762957305401004061

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-03-01 13:36:29

AIEMO視頻

2021-03-09 17:27:40

AI 數(shù)據(jù)人工智能

2019-06-23 17:30:07

AI 數(shù)據(jù)人工智能

2024-01-24 09:00:31

SSD訂閱關(guān)系內(nèi)存

2024-04-22 00:00:00

RocketMQ優(yōu)化位點(diǎn)

2024-02-23 15:53:13

OpenAISora人工智能

2024-03-01 12:39:40

2019-12-20 09:44:50

李子柒田園生活評(píng)論

2024-12-23 00:30:12

2024-06-14 09:12:06

2021-02-02 09:13:11

索引SQL數(shù)據(jù)庫

2024-02-20 13:09:00

AI視頻

2024-03-27 13:35:00

AI技術(shù)視頻

2024-04-16 09:24:18

AdobeAI

2024-12-18 15:02:48

2025-03-31 07:30:00

圖像生成AI模型

2024-03-01 19:45:09

SoraAI網(wǎng)絡(luò)安全

2018-08-14 16:00:36

AI歌詞相聲

2017-09-28 13:30:55

阿里巴巴

2020-11-23 08:16:51

線上系統(tǒng)優(yōu)化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品午夜电影 | 台湾av在线 | 欧美一级片久久 | 精品在线一区二区 | 99久久免费精品国产男女高不卡 | 国产激情一区二区三区 | 成人二区三区 | 在线成人 | 日本一区二区在线视频 | 天天干天天干 | 欧美亚洲激情 | 国产一区二区三区视频在线观看 | 久久久国产一区二区 | 成人免费一级视频 | 中文字幕av在线播放 | 国产激情一区二区三区 | 视频在线一区二区 | 请别相信他免费喜剧电影在线观看 | 国产精品18久久久久久白浆动漫 | 超碰成人av| 午夜精品一区二区三区免费视频 | 久久国产精品亚洲 | 精品精品视频 | 久久精品国产一区二区三区 | 黄片毛片免费看 | 亚洲国产欧美日韩 | 久久久久一区 | 伊人伊人 | 欧美a在线 | 国产69精品久久99不卡免费版 | 久久久久久免费免费 | 精品一区二区电影 | 久久久久久久一区二区三区 | 免费久久视频 | 国产精品免费一区二区 | 国产精品一区二区免费看 | 综合二区 | 福利视频网址 | 久久99精品久久久久久青青日本 | 中文字幕视频在线观看免费 | 久久精品一二三影院 |