成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<button id="ggdhh"><object id="ggdhh"><del id="ggdhh"></del></object></button>

<abbr id="ggdhh"><style id="ggdhh"></style></abbr>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+ 精華

發布于 2024-6-18 09:57

瀏覽

0收藏

一張人像、一段音頻參考，就能讓霉霉在你面前唱碧昂絲的《Halo》。

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

一種名為Hallo的研究火了，GitHub已攬星1k+。

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

話不多說，來看更多效果：

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

不論是說話還是唱歌，都能和各種風格的人像相匹配。從口型到眉毛眼睛動作，各種五官細節都很自然。

單獨拎出不同動作強度的比較，動作幅度大也能駕馭：

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

單獨調整嘴唇運動幅度，表現是這樣嬸兒的：

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

有不少網友看過效果后，直呼這是目前最好的開源口型同步視頻生成：

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

這項工作由來自復旦大學、百度、蘇黎世聯邦理工學院和南京大學的研究人員共同完成。

團隊提出了分層的音頻驅動視覺合成模塊，將人臉劃分為嘴唇、表情和姿態三個區域，分別學習它們與音頻的對齊關系，再通過自適應加權將這三個注意力模塊的輸出融合在一起，由此可以更精細地建模音視頻同步。

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

Hallo長啥樣？

如前文所述，Hallo通過使用參考圖像、音頻序列以及可選的視覺合成權重，結合基于分層音頻驅動視覺合成方法的擴散模型來實現。

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

整體架構是這樣嬸兒的：

參考圖像經過一個ReferenceNet編碼全局視覺特征；人臉編碼器提取身份相關的特征；音頻編碼器將輸入語音轉換為與運動相關的特征表示；分層音頻驅動視覺合成模塊用于在唇部、表情、姿態三個層次建立音視頻的關聯；最后通過擴散模型中的UNet完成去噪，生成視頻幀。

擴散模型主干網絡（Diffusion Backbone）

采用Stable Diffusion 1.5作為基礎架構，包括三個主要部分：VQ-VAE編碼器、基于UNet的去噪模型、條件編碼模塊。與傳統的文本驅動擴散模型不同，Hallo去掉了文本條件，轉而使用音頻特征作為主要的運動控制條件。

參考圖像編碼器（ReferenceNet）

ReferenceNet用于從參考圖像中提取全局視覺特征，指導視頻生成過程的外觀和紋理。結構與擴散模型的UNet解碼器共享相同的層數和特征圖尺度，便于在去噪過程中融合參考圖像特征。在模型訓練階段，視頻片段的第一幀作為參考圖像。

時序對齊模塊（Temporal Alignment）

Temporal Alignment用于建模連續視頻幀之間的時間依賴關系，保證生成視頻的時序連貫性。從前一推理步驟中選取一個子集（例如2幀）作為運動參考幀，將其與當前步驟的latent noise在時間維度上拼接，通過自注意力機制建模幀間的關聯和變化。

此外，分層音頻驅動視覺合成方法是整個網絡架構的核心部分。

其中人臉編碼器，使用預訓練的人臉識別模型，直接從參考圖像提取高維人臉特征向量；音頻編碼器使用wav2vec模型提取音頻特征，并通過多層感知機映射到運動特征空間，由此可以將語音轉換為與面部運動相關的特征表示，作為視頻生成的條件。

之后再將音頻特征分別與唇部、表情、姿態區域的視覺特征做交叉注意力，得到三個對齊后的特征表示，再通過自適應加權融合為最終的條件表示。

該方法還可以通過調節不同區域注意力模塊的權重，來控制生成視頻在表情和姿態上的豐富程度，可適應不同的人物面部特征。

Hallo表現如何？

之后研究團隊將Hallo與SadTalker、DreamTalk、Audio2Head、AniPortrait等SOTA方法進行定量和定性比較。

用HDTF和Bilibili、Youtube等來源的數據構建了一個大規模人像視頻數據集，經過清洗后用于訓練。

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

評估指標方面，采用FID、FVD評估生成視頻的真實性，Sync-C、Sync-D評估唇形同步性，E-FID評估生成人臉的保真度。

定量評估方面，在HDTF數據集上，Hallo在多個指標上表現最優：

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

在增強唇部同步的同時，Hallo保持了高保真視覺生成和時間一致性：

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

在CelebV數據集上，Hallo展示了最低的FID和FVD以及最高Sync-C：

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

可視化比較如下：

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

在自建Wild數據集上，Hallo同樣表現突出：

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

針對不同數據集的定性比較結果如下。

Hallo展示了對不同風格人像的驅動生成能力，體現了該方法的泛化和魯棒性：

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

同時展示了對不同音頻的響應能力，能夠生成與音頻內容契合的高保真視頻：

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

與其它方法對比，Hallo展示了更豐富自然的表情和頭部運動：

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

通過特定人物數據微調，展示了該方法捕獲人物特征、個性化生成的能力：

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

最后研究人員還進行了消融實驗，并總結了該方法的局限性，比如在快速運動場景下時序一致性還有待提高，推理過程計算效率有待優化等。

此外，經作者介紹，目前Hallo僅支持固定尺寸的人像輸入。

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

且該方法目前也不能實現實時生成。

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

針對這項研究，也有網友提出Deepfake隱患，對此你怎么看？

霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+-AI.x社區

本文轉自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/JMKnd56oT-WfOKBeWTyxeA??

標簽

贊

收藏

回復

舉報

回復

相關推薦

阿里、百度雙雙出手，大模型長文本時代終于到來？

mb5f8eba9bdb0af ? 3227瀏覽 ? 0回復
2024年的百度大模型，離「錢」越來越近

liutao988 ? 2920瀏覽 ? 0回復
文生視頻時代已到，百度、訊飛、字節誰能率先做出“國產Sora”？

liutao988 ? 2669瀏覽 ? 0回復
國內首款AI音樂大模型一曲封神！核心技術業內首公開，爆改霉霉周杰倫效果驚艷

duhorse ? 3285瀏覽 ? 0回復
百度前總經理打造，AI硬件Rabbit R1交卷了！能否超越AI Pin被“群嘲”命運？

51CTO技術棧 ? 2517瀏覽 ? 0回復
百度內容生態視頻AIGC新探索

51CTO技術棧 ? 3008瀏覽 ? 0回復
快手可靈團隊最新開源項目火了：大叔實時變身少女，GitHub狂攬7.5K星

Crystalcxt ? 3054瀏覽 ? 0回復
OpenAI、百度、阿里、騰訊、字節、快手最全 AI 工具集，你使用最多的是 ChatGPT 嘛？

wsp_ping ? 4212瀏覽 ? 0回復
百度也來卷RAG了，Self-Reasoning比Self-RAG最高提升11.8%

PaperAgent ? 2897瀏覽 ? 0回復
最大可生成面數提升至1600，GitHub攬星1.9k項目發布V2版本

Crystalcxt ? 2579瀏覽 ? 0回復
李彥宏的野心：百度不造“超級應用” ！百度亮出4款產品新形態：多智能體“秒噠”、多模態iRAG、AI眼鏡

51CTO技術棧 ? 2528瀏覽 ? 0回復
華為、阿里、騰訊、百度、京東、商湯、快手等眾一線大牛AI應用打造心得公開：實際在做兩件事！

51CTO技術棧 ? 2983瀏覽 ? 0回復
李彥宏最新財報會議內容流出：百度從DeepSeek身上學到了一件事；調用量漲30倍百度AI搜索的打法

51CTO技術棧 ? 2412瀏覽 ? 0回復
DeepSeek沖擊下，百度的開源牌能打響嗎？

51CTO技術棧 ? 1938瀏覽 ? 0回復
接入 Deepseek 能讓百度文庫煥發第二春嗎？

老蛀蟲 ? 1943瀏覽 ? 0回復
百度 ERNIE 4.5 & X1：又是一個性價比超高的多模態模型來襲！

Halo咯咯 ? 3280瀏覽 ? 0回復
百度秒噠今日全量上線！3分鐘一個應用！百度自家的修車大爺現身講述自己用秒噠上線了修車預約系統！

51CTO技術棧 ? 1581瀏覽 ? 0回復
地圖服務新風向：百度、高德、騰訊紛紛加碼 MCP Server

AIGC新知 ? 1821瀏覽 ? 0回復
Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器

穿越時空111 ? 2551瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現高分辨率逐像素生成 2025-02-26 11:59:41發布
達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： AI畫連環畫角色更一致了！人物之間的復雜互動也能處理｜中山大學&聯想團隊出品

下一篇： AI生圖可“量身定制”了，華為&清華聯手打造個性化多模態生成方法PMG

社區精華內容

目錄

主站蜘蛛池模板：久久久在线视频 | 成人二区| 久久久久久亚洲国产精品 | 精品久久国产 | 中国黄色在线视频 | 免费成人高清在线视频 | 精品一区二区三区不卡 | 久久久91精品国产一区二区精品 | 97精品国产97久久久久久免费 | 国产日韩欧美在线 | 免费在线看黄 | 不卡一区二区在线观看 | 国产精品国产精品国产专区不卡 | 色偷偷人人澡人人爽人人模 | 欧日韩在线观看 | 亚洲精品99| 中文一区二区视频 | 国产一区二区在线播放 | 亚洲一区二区三区四区五区午夜 | 亚洲二区在线 | 国产亚洲精品综合一区 | 欧美成人免费在线 | 亚洲欧美日韩一区二区 | 国产精品国产成人国产三级 | 亚洲成人精品在线 | 日韩在线免费看 | 亚洲美女一区二区三区 | 国产免费让你躁在线视频 | 欧美激情精品久久久久久变态 | 精品久久久精品 | 亚洲伊人a| 国产日韩亚洲欧美 | 国产高清久久久 | 亚洲国产精品久久 | 国产一区二区三区在线 | 日韩精品免费看 | 在线观看中文字幕 | 国产乱码精品一区二区三区五月婷 | 免费久久视频 | 久草视频观看 | 色偷偷噜噜噜亚洲男人 |

<label id="hnfdr"></label>

<button id="hnfdr"><option id="hnfdr"><optgroup id="hnfdr"></optgroup></option></button>