成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<sup id="m06uk"><tr id="m06uk"></tr></sup>

<tbody id="m06uk"><strike id="m06uk"></strike></tbody>

<optgroup id="m06uk"><fieldset id="m06uk"></fieldset></optgroup>

<fieldset id="m06uk"><optgroup id="m06uk"></optgroup></fieldset>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包精華

輕薄滴假象

發布于 2024-6-26 12:28

瀏覽

0收藏

日前，曠視科技發布了一項新的開源 AI 人像視頻生成框架 ——MegActor。基于該框架，用戶只需輸入一張靜態的肖像圖片，以及一段視頻（演講、表情包、rap）文件，即可生成一段表情豐富、動作一致的 AI 人像視頻。MegActor 所生成的視頻長度，取決于給定的驅動視頻的長度。與阿里 EMO、微軟 VASA 等最新涌現的 AI 視頻模型不同，曠視 MegActor 將采用開源的方式，提供給開發者社區使用。MegActor 能夠呈現出絲毫畢現的效果，面部細節更加豐富自然，畫質更出色。

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區

為了進一步展示其泛化性，MegActor 甚至可以讓 VASA 里面的人物肖像和它們的視頻彼此組合生成，得到表情生動的視頻生成結果。

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區

即使是對比阿里 EMO 的官方 Case，MegActor 也能生成近似的結果。

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區

總的來說，不管是讓肖像開口說話，讓肖像進行唱歌 Rap，還是讓肖像模仿各種搞怪的表情包，MegActor 都可以得到非常逼真的生成效果。

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區

論文：https://arxiv.org/abs/2405.20851
代碼地址：https://github.com/megvii-research/megactor
項目地址：https://megactor.github.io/

MegActor 是曠視研究院的最新研究成果。曠視研究院，是曠視打造的公司級研究機構。曠視研究院旨在通過基礎創新突破 AI 技術邊界，以工程創新實現技術到產品的快速轉化。經過多年發展，曠視研究院已成為全球規模領先的人工智能研究院。

在目前的人像視頻生成領域，許多工作通常使用高質量的閉源自采數據進行訓練，以追求更好的效果。而曠視研究院始終堅持全面開源，確保實際效果的可復現性。MegActor 的訓練數據全部來自公開可獲取的開源數據集，配合開源代碼，使得感興趣的從業者可以從頭開始完整復現這些令人驚艷的效果。

為了完全復刻原始視頻的表情和動作，MegActor 采用了原始圖像進行驅動，這與多數廠商使用 sketch、pose、landmark 的中間表示皆然不同，能夠捕捉到細致的表情和運動信息。

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區

曠視科技研究總經理范浩強表示，在 AI 視頻生成領域，我們發現目前主流的骨骼關鍵點控制方式不僅要求用戶提供難以獲取的專業控制信號，同時生成視頻相較于原肖像的保真程度也不盡如人意。通過一系列研究發現，使用原視頻進行驅動，不僅將幫助用戶降低控制信號的門檻，更能生成更加保真且動作一致的視頻。

具體來說，MegActor 主要由兩個階段構成：

使用了一個 ReferenceNet 對參考圖像進行特征提取，負責得到參考圖像的外觀和背景等信息；
使用了一個 PoseGuider，對輸入的視頻進行運動和表情信息提取，負責將運動和表情信息遷移到參考圖像上。

盡管相較于使用音頻或 landmark 等表示方式，使用原始視頻進行驅動能帶來更加豐富的表情細節和運動信息。然而，使用原始視頻進行驅動依然存在兩大核心技術挑戰：一是 ID 泄露問題；二是原始視頻中的背景和人物皺紋等無關信息會干擾影響合成表現。

為此，MegActor 開創性地采用了條件擴散模型。首先，它引入了一個合成數據生成框架，用于創建具有一致動作和表情但不一致身份 ID 的視頻，以減輕身份泄露的問題。其次，MegActor 分割了參考圖像的前景和背景，并使用 CLIP 對背景細節進行編碼。這些編碼的信息隨后通過文本嵌入模塊集成到網絡中，從而確保了背景的穩定性。

在數據訓練方面，曠視研究院團隊僅使用公開的數據集進行訓練，處理了 VFHQ 和 CeleV 數據集進行訓練，總時長超過 700 小時。同時，為了避免 ID 泄露問題，MegActor 還使用換臉和風格化方法 1:1 生成合成數據，實現表情和動作一致、但 ID 不一致的數據。此外，為了提高對大范圍動作和夸張表情的模仿能力，團隊使用注視檢測模型對數據進行處理，獲取大約 5% 的高質量數據進行 Finetune 訓練。

通過采用一系列新的模型框架和訓練方法，曠視研究院團隊僅使用了不到 200 塊 V100 顯卡小時的訓練時長，最終實現的具體特性包括：

可以根據輸入的視頻生成任意持續時間的模仿視頻，同時保證角色身份的一致性
支持各種驅動視頻，如演講、唱歌、表情包等
支持不同的畫風（照片、傳統繪畫、漫畫、AI 數字人等）

與音頻生成的方法相比，MegActor 生成的視頻，不僅能確保表情和動作一致，更能達到同樣的自然程度。

目前，MegActor 已經完全開源，供廣大開發者和用戶即開即用。

本文轉自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/xRsi-jyigd8XuykNoA4h3Q??

標簽

贊

收藏

回復

舉報

回復

相關推薦

OpenAI首次展示音頻模型Voice Engine，生成的聲音太逼真了！

Aceryt ? 3502瀏覽 ? 0回復
一張照片+音頻即可生成數字人

duhorse ? 2395瀏覽 ? 0回復
人物照片+文字 = 定制化視頻，騰訊光子開源ID-Animator

輕薄滴假象 ? 3451瀏覽 ? 0回復
阿里巴巴AI研究團隊打破視頻生成技術壁壘，EasyAnimate實現高質量長視頻生成

Syrupup ? 4238瀏覽 ? 0回復
長視頻生成速度提升100倍！新加坡國立提出Video-Infinity：分布式長視頻生成

angel ? 3297瀏覽 ? 0回復
北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式！

angel ? 2626瀏覽 ? 0回復
視頻生成要有自己的系統！尤洋團隊歷時半年開源VideoSys

輕薄滴假象 ? 2450瀏覽 ? 0回復
長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架

angel ? 1.0w瀏覽 ? 0回復
Open-Sora 1.1 解讀：完全開源的高效復現類Sora視頻生成方案！

angel ? 2671瀏覽 ? 0回復
阿里商業級視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！

angel ? 2729瀏覽 ? 0回復
OpenAI 發布 Sora：最受期待的 AI 視頻生成工具

Halo咯咯 ? 2192瀏覽 ? 0回復
騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓練的系統框架

Halo咯咯 ? 3505瀏覽 ? 0回復
Google 發布了用于視頻生成的最先進的“Veo 2”和用于圖像創建的“Improved Imagen 3”

Halo咯咯 ? 2390瀏覽 ? 0回復
LLM合集：視頻生成新王炸！Step-Video-T2V，全方位碾壓開源與商業模型

AIPaperDaily ? 2454瀏覽 ? 0回復
開啟AI短劇新紀元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個面向AI短劇的視頻生成模型

angel ? 4059瀏覽 ? 0回復
DeepSeek太給力了！自家的大模型秘方開源到底！國產大模型雄起

51CTO技術棧 ? 2795瀏覽 ? 0回復
今天的智譜，燃炸了！

51CTO技術棧 ? 1512瀏覽 ? 0回復
全球首個開源「無限時長」電影生成模型炸場：昆侖萬維把視頻生成卷到新時代

angel ? 1430瀏覽 ? 0回復
AI語音革命新紀元：Sesame模型讓聊天AI“活”出表情包式情緒聲線?

51CTO內容精選 ? 1037瀏覽 ? 0回復

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

DeepSeek一口氣開源3個項目，還有梁文鋒親自參與，昨晚API大降價 2025-02-27 12:40:06發布
全球首個AI CUDA工程師來了！將PyTorch原生實現提速10-100倍 2025-02-21 13:20:31發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：耳朵沒錯，是聲音太真了，字節豆包語音合成成果Seed-TTS技術揭秘

下一篇：史上首個實時AI視頻生成技術：DiT通用，速度提升10.6倍

社區精華內容

目錄

主站蜘蛛池模板：亚洲婷婷一区 | 久草网站 | 婷婷免费视频 | 中文一区二区 | 久久高潮| 亚洲欧美日韩在线 | 成人av一区二区三区 | 欧美性tv | 久久专区 | 日韩高清电影 | 免费的色网站 | 欧美成人精品在线 | 亚洲小视频在线播放 | 在线观看a视频 | 国产我和子的乱视频网站 | 欧美成人高清视频 | 久久久久国产精品一区 | 国产精品一区二 | 欧美成年网站 | 影音先锋成人资源 | 米奇狠狠鲁 | 一区二区三区视频在线观看 | 精品一区二区三区在线观看 | 国产精品久久久久久久毛片 | 亚洲大片一区 | 国产精品视频一区二区三区四区国 | 麻豆久久久久久久久久 | 国产日韩一区二区三区 | 影音先锋中文字幕在线观看 | 国产美女一区二区 | 日本三级电影免费观看 | 先锋av资源在线 | 日韩不卡视频在线观看 | av网站在线免费观看 | 国产精品久久久久久福利一牛影视 | 91精品无人区卡一卡二卡三 | 乳色吐息在线观看 | 精品1区| 三级成人片| 久久久久国产精品免费免费搜索 | 91精品国产91久久久久久吃药 |

<input id="wascw"><em id="wascw"></em></input>

<tbody id="wascw"><fieldset id="wascw"></fieldset></tbody>

<strong id="wascw"></strong>

<noscript id="wascw"><menu id="wascw"></menu></noscript>

<center id="wascw"><delect id="wascw"></delect></center>

<dl id="wascw"><nav id="wascw"></nav></dl>