央視點贊國產AI復活召喚術，兵馬俑竟與寶石老舅對唱Rap？

輕薄滴假象

發布于 2024-7-4 10:20

瀏覽

0收藏

沉睡了兩千多年的兵馬俑，蘇醒了？

央視點贊國產AI復活召喚術，兵馬俑竟與寶石老舅對唱Rap？-AI.x社區

一句秦腔開場，將我們帶到了黃土高原。如果不是親眼所見，很多觀眾可能難以想象，有生之年還能看到兵馬俑和寶石 Gem 同臺對唱《從軍行》。

「青海長云暗雪山，孤城遙望玉門關。」古調雖存音樂變，聲音依舊動人情：

央視點贊國產AI復活召喚術，兵馬俑竟與寶石老舅對唱Rap？-AI.x社區

這場表演背后的「AI 復活召喚術」，叫做 EMO，來自阿里巴巴通義實驗室。僅僅一張照片、一個音頻，EMO 就能讓靜止形象變為惟妙惟肖的唱演視頻，且精準卡點音頻中的跌宕起伏、抑揚頓挫。

在央視《2024 中國?AI 盛典》中，同樣基于 EMO 技術，北宋文學家蘇軾被「復活」，與李玉剛同臺合唱了一曲《水調歌頭》。「AI 蘇軾」動作古樸自然，仿佛穿越時空而來：

央視點贊國產AI復活召喚術，兵馬俑竟與寶石老舅對唱Rap？-AI.x社區

在 EMO 等 AI 領域前沿技術的激發下，首個以人工智能為核心的國家級科技盛宴《2024 中國?AI 盛典》盛大開幕，以「媒體 + 科技 + 藝術」的融合形式將最前沿的國產 AI 技術力量傳遞給節目前的每一位觀眾：

央視點贊國產AI復活召喚術，兵馬俑竟與寶石老舅對唱Rap？-AI.x社區

這不是 EMO 第一次「出圈」。曾在社交媒體爆火的「高啟強化身羅翔普法」，也是出自 EMO 之手：

央視點贊國產AI復活召喚術，兵馬俑竟與寶石老舅對唱Rap？-AI.x社區

登陸通義 APP 之后，借助玩家各種腦洞大開的試玩，EMO 火熱程度至今不減。還沒有嘗試的小伙伴可以前去下載這款應用，進入「頻道」選擇「全民舞臺」，就可以絲滑體驗了。

央視點贊國產AI復活召喚術，兵馬俑竟與寶石老舅對唱Rap？-AI.x社區

實際上，早在今年 2 月，通義實驗室就公開了 EMO（Emote Portrait Alive）相關論文。這篇論文上線之初就好評如潮，更是有人稱贊：「EMO 是一項革命性的研究。」

央視點贊國產AI復活召喚術，兵馬俑竟與寶石老舅對唱Rap？-AI.x社區

論文地址：https://arxiv.org/pdf/2402.17485
項目主頁：https://humanaigc.github.io/emote-portrait-alive/

為什么它能獲得如此高度的評價？這還要從當前視頻生成技術的發展現狀和 EMO 的底層技術創新說起。

如此出圈，EMO 憑什么？

過去幾年，AI 在圖像生成方面的成功是有目共睹的。當前，AI 領域的研究熱點是攻克一個更困難的任務：視頻生成。

EMO 面對的恰好是其中非常難的一項任務：基于音頻驅動的人物視頻生成。

不同于常見的文生視頻和圖生視頻玩法，基于音頻驅動的人物視頻生成是一個從音頻直接跨越到視頻模態的過程。這類視頻的生成往往涉及頭部運動、凝視、眨眼、唇部運動等多個要素，且要保持視頻內容的一致性和流暢度。

在此前的方法中，模型大多先針對人臉、人頭或者身體部分做 3D 建模或人臉關鍵點標記，以此作為中間表達再生成最終的視頻。但借助中間表達的方法可能會導致音頻中的信息被過度壓縮，影響最終生成視頻中的情緒表達效果。

通義實驗室應用視覺團隊負責人薄列峰表示，EMO 的關鍵創新點「弱控制設計」很好地解決了上述問題，不僅降低視頻生成成本，還大幅提升了視頻生成質量。

央視點贊國產AI復活召喚術，兵馬俑竟與寶石老舅對唱Rap？-AI.x社區

「弱控制」體現在兩個方面：首先，EMO 無需建模，直接從音頻中提取信息來生成表情動態和嘴唇同步的視頻，從而在不需要復雜預處理的情況下，端到端地創造出自然流暢且表情豐富的人像視頻。其次，EMO 對生成表情和身體動作不做過多「控制」，最終生成結果的自然和流暢，都是源于模型本身對高質量數據的學習而訓練出的泛化能力。

拿兵馬俑和寶石 Gem 同框對唱《從軍行》來說，歌聲中所要傳達的情緒（如激揚）在其面部得到了很好的展現，不會給人違和感：

央視點贊國產AI復活召喚術，兵馬俑竟與寶石老舅對唱Rap？-AI.x社區

基于弱控制的理念，研究團隊為 EMO 模型構建了一個龐大而多樣的音視頻數據集，總計超過 250 小時的錄影和超過 1.5 億張圖像，涵蓋各種內容，包括演講、電影和電視片段以及歌唱表演，包括中文和英文在內的多種語言，視頻的豐富多樣性確保了訓練材料捕捉了廣泛的人類表達和聲音風格。

學界有一種觀點是，對于一個數據集最好的無損壓縮，就是對于數據集之外的數據最佳泛化。能夠實現高效壓縮的算法往往能夠揭示數據的深層規律，這也是智能的一個重要表現。

因此，團隊在訓練過程中設計了高保真數據編碼算法，保證了在壓縮或處理數據的過程中，盡可能保持原始信息的豐富細節和動態范圍。具體到 EMO 的訓練上，只有音頻信息完整，人物情緒才能很好的展現。

央視點贊國產AI復活召喚術，兵馬俑竟與寶石老舅對唱Rap？-AI.x社區

視頻生成賽道風起云涌

通義實驗室如何躋身全球第一梯隊？

今年 2 月初，Sora 的發布點燃了視頻生成賽道，背后的多項技術隨之受到關注，其中就包括 DiT（Diffusion Transformer ）。

我們知道，擴散模型中的 U-Net 能模擬信號從噪聲中逐漸恢復的過程，理論上能夠逼近任意復雜的數據分布，在圖像質量方面優于生成對抗網絡（GAN）和變分自編碼器（VAE），生成具有更自然紋理和更準確細節的現實世界圖像。但 DiT 論文表明，U-Net 歸納偏置對擴散模型的性能并非不可或缺，可以很容易地用標準設計（如 Transformer）取代，這就是該論文提出的基于 Transformer 架構的新型擴散模型 DiT。

最重要的是，以 DiT 為核心的 Sora 驗證了視頻生成模型中仍存在 Scaling Law ，研究者們可以通過增加更多的參數和數據來擴大模型規模實現更好的結果。

DiT 模型在生成真實視頻方面的成功，讓 AI 社區看到了這一方法的潛力，促使視頻生成領域從經典 U-Net 架構轉變到基于 Transformer 的擴散主干架構的范式。基于 Transformer 注意力機制的時序預測、大規模的高質量視頻數據都是推動這一轉變的關鍵力量。

但縱觀當前的視頻生成領域，尚未出現一個「大一統」架構。

EMO 并不是建立在類似 DiT 架構的基礎上，也就是沒有用 Transformer 去替代傳統 U-Net，同樣能夠很好地模擬真實物理世界，這給整個研究領域帶來了啟發。

未來，視頻生成領域會出現哪些技術路線？不管是理論研究者還是從業者，都可以保持「相對開放的期待」。

薄列峰表示，本質上，當前的語言模型、圖像 / 視頻生成模型都沒有超越統計機器學習的框架。即使是 Scaling Law ，也有自身的限制。盡管各個模型對強關系和中等關系的生成把握比較精準，但對弱關系的學習仍然不足。如果研究者們不能持續提供足夠多的高質量數據，模型的能力就難以有質的提升。

換個角度來看，即使視頻生成領域會出現一種「占據半壁江山」的大一統架構，也并不意味其具備絕對的優越性。就像是自然語言領域，一直穩居 C 位的 Transformer 也會面臨被 Mamba 超越的情況。

具體到視頻生成領域，每種技術路線都有適合自身的應用場景。比如關鍵點驅動、視頻驅動更適合表情遷移的場景，音頻驅動更適合人物講話、唱演的場景。從條件控制的程度來說，弱控制的方法很適合創意類任務，同時很多專業、具體的任務更能受益于強控制的方法。

通義實驗室是國內最早布局視頻生成技術的機構之一，目前已有文生視頻、圖生視頻等多個方向的研發積累，特別是在人物視頻生成方面，已經形成了包括人物動作視頻生成框架 Animate Anyone、人物換裝視頻生成框架 Outfit Anyone、人物視頻角色替換框架 Motionshop、人物唱演視頻生成框架 Emote Portrait Alive 在內的完整研究矩陣。

央視點贊國產AI復活召喚術，兵馬俑竟與寶石老舅對唱Rap？-AI.x社區

更多項目請關注：https://github.com/HumanAIGC

比如在 EMO 之前，Animate Anyone 一度霸屏社交媒體和朋友圈。該模型解決了人物運動視頻生成中保持人物外觀短時連續性和長時一致性的問題，隨后上線通義 App「全民舞王」功能，掀起了一波全民熱舞小高潮。

央視點贊國產AI復活召喚術，兵馬俑竟與寶石老舅對唱Rap？-AI.x社區

從技術到現實世界

過去兩年，語言模型展現了強大的對話、理解、總結、推理等文本方面的能力，圖像生成模型展現了強大的自然生成、娛樂和藝術能力，兩大賽道都誕生了很多爆款產品。這些模型的成功至少告訴我們一點：想在這個時代取得影響力的技術團隊，需要學會「基礎模型」和「超級應用」兩條腿走路。

目前，視頻內容呈現爆發式增長的趨勢，人們都在期待能夠出現一個人人「可用」且「實用」的 AI 視頻生成平臺。EMO 可能是打破這一局面的重要技術突破，通義 App 則提供了一個技術落地的廣闊平臺。

視頻生成技術的下一個挑戰，是如何攻克專業級的內容。

科技公司們希望將 AI 技術轉化為真正的生產力工具，去服務短視頻博主、影視制作人、廣告和游戲創意人。這也是為什么視頻生成應用不能只停留在「通用內容」的水準。

環顧目前大部分的視頻生成應用，大多是基于 3 到 5 秒的視頻生成模型，在應用和體驗上的限制比較明顯。但 EMO 技術對于音頻時長的包容度很高，而且生成內容質量可以達到演播標準。比如登陸央視的這段「兵馬俑唱演」，全程四分鐘的兵馬俑部分表演視頻無一秒需要人工后期針對性「微調」。

如今看來，以 EMO 為代表的人物視頻生成技術是最接近「專業級生成水準」的落地方向之一。相比于文生視頻技術中用戶 Prompt 存在的諸多不確定性，EMO 技術高度符合人物視頻創作對內容連貫性和一致性的核心需求，展示了極具潛力的應用空間。

EMO 之所以「出圈」，人們看到的不光是研發團隊的技術實力，更重要的是看到了視頻生成技術落地的加速度。

「人均專業創作者」的時代，或許不遠了。

本文轉自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/aOAnKoIwEY_EC4jVAG7bIA??

標簽

技術

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

央視點贊國產AI復活召喚術，兵馬俑竟與寶石老舅對唱Rap？

如此出圈，EMO 憑什么？

視頻生成賽道風起云涌

通義實驗室如何躋身全球第一梯隊？

目錄