成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！

發布于 2024-8-26 10:04

瀏覽

0收藏

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

論文鏈接：https://arxiv.org/pdf/2407.21475

github鏈接：https://densechen.github.io/zss/

亮點直擊
本文提出了一種新穎的zero-shot視頻采樣算法，該算法能夠直接從預訓練的圖像擴散模型中采樣高質量的視頻片段。
本文提出了一個依賴噪聲模型和時間動量注意力機制，首次能夠靈活地控制生成視頻中的時間變化。
通過廣泛的應用展示了本文方法的有效性，包括條件和專門的視頻生成，以及由文本指令引導的視頻編輯。

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

將時間維度引入預訓練的圖像擴散模型中用于視頻生成是一種常見的方法。然而，這種方法計算量大，并且需要大規模的視頻數據集。更為關鍵的是，圖像和視頻數據集之間的異質性常常導致圖像專業知識的災難性遺忘。最近，直接從圖像擴散模型中提取視頻片段的嘗試在一定程度上緩解了這些問題。然而，這些方法只能生成帶有簡單運動的短視頻片段，無法捕捉細粒度的運動或非網格變形。

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

依賴噪聲模型

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

在訓練視頻擴散模型時使用混合和漸進噪聲模型已證明是有效的，如[11]所示。這種方法使得在訓練過程中能夠有效地學習幀之間的動畫過渡。

依賴噪聲模型

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

如下面算法1所示，本文提出了一種兩階段噪聲搜索算法，這與傳統的解析解方法有所不同。

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

從而最小化公式1。

時間動量注意力

為了利用跨幀注意力的潛力，并使用預訓練的圖像擴散模型而無需重新訓練，FateZero將每個自注意力層替換為跨幀注意力。在這種設置中，每一幀的注意力主要集中在初始幀。類似的結構也在 [19] 中采用。

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

跨幀注意力的應用有助于將外觀、結構以及物體和背景的身份從第一幀傳遞到后續幀。然而，這種方法缺乏相鄰幀之間的連接，這可能導致生成的視頻序列中出現顯著的變化，如下圖3所示。

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

時間動量注意力

本文的觀察表明，自注意力由于缺乏幀間上下文，會導致采樣特征的多樣性更高。另一方面，跨幀注意力僅依賴于初始幀的信息。這雖然保證了采樣結果的一致性，但也導致了多樣性的減少。

為了在自注意力和跨幀注意力的不同效果之間取得平衡，本文引入了時間動量注意力（Temporal Momentum Attention, TMA）。TMA的數學表示如下：

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

其中，

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

Zero-Shot 視頻采樣算法

通過結合依賴噪聲模型和時間動量注意力，本文成功地利用現有的 DDIM 算法從圖像擴散模型中采樣出高質量的視頻。這個過程在上面的算法 1 中進行了概述。

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

實驗

文本與視頻任務的綜合比較

在本研究中，本文從定量和定性兩個方面對本文的方法和另一個zero-shot視頻合成方法 Text2Video-Zero 進行了廣泛的比較。

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

從定性角度來看， 本文在上圖3中提供了一些生成視頻片段的可視化。本文方法生成的視頻片段明顯表現出更優越的連續性，顯著減少了突兀的幀。與[19]中的簡單上下物體運動相比，本文的依賴噪聲模型采樣的噪聲可以擴散出更具體、復雜的運動，并在不同的擴散模型中很好地泛化，如下圖2所示。結合時間動量注意力，本文的方法可以為更具挑戰性的對象生成更復雜的運動，例如流體的非剛性變形、復雜的煙霧擴散效果，甚至是微妙的面部微表情，如下圖1所示。

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

擴展

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

結論

超越Text2Video-Zero｜無需額外訓練，條件生成、專門生成和指令引導的視頻編輯全搞定！-AI.x社區

本文轉自AI生成未來，作者：Dengsheng Chen等

原文鏈接:??https://mp.weixin.qq.com/s/gVJD7uMLxmGrqmepp2hsQg?poc_token=HCDgy2ajRdlE1q4u81WYfSWxRlbctni_ZZk5f1B4??

標簽

贊

收藏

回復

舉報

回復

相關推薦

MolGen: 化學反饋引導的預訓練分子生成

mb5f8eba9bdb0af ? 2883瀏覽 ? 0回復
谷歌發布超強AI視頻編輯工具！施展魔法的VLOGGER，音頻加圖片就搞定唇形和手勢，還把表情編輯玩出花了！

51CTO技術棧 ? 3150瀏覽 ? 0回復
無需訓練，這個新方法實現了生成圖像尺寸、分辨率自由

輕薄滴假象 ? 2687瀏覽 ? 0回復
擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)

angel ? 4816瀏覽 ? 0回復
10倍速度突破質量瓶頸，效果超越Gen-2和Pika！T2V-Turbo：新一代視頻生成模型

angel ? 3550瀏覽 ? 0回復
【LLM】ShareGPT4Video：借助更優質的標題提升視頻理解和生成能力

海因斯DK ? 4152瀏覽 ? 0回復
視覺文本視頻生成最強方案！Text-Animator效果確實好！

angel ? 3107瀏覽 ? 0回復
長視頻生成速度提升100倍！新加坡國立提出Video-Infinity：分布式長視頻生成

angel ? 3301瀏覽 ? 0回復
阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成

angel ? 3381瀏覽 ? 0回復
多模態大語言模型的演變全回顧！（視覺定位、圖像生成、編輯、理解）

angel ? 4163瀏覽 ? 0回復
PUMA:多粒度策略笑傲生成、編輯、修復、著色、條件生成和理解!

angel ? 3432瀏覽 ? 0回復
騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓練的系統框架

Halo咯咯 ? 3511瀏覽 ? 0回復
無需訓練！多提示視頻生成最新SOTA！港中文&騰訊等發布DiTCtrl：基于MM-DiT架構

angel ? 3095瀏覽 ? 0回復
NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一

angel ? 4208瀏覽 ? 0回復
Google 發布了用于視頻生成的最先進的“Veo 2”和用于圖像創建的“Improved Imagen 3”

Halo咯咯 ? 2390瀏覽 ? 0回復
運動應用（生成&克隆&遷移&編輯）全搞定！阿里通義提出動畫框架Perception-as-Control

angel ? 2467瀏覽 ? 0回復
文本生成無限長視頻，無需任何訓練

Aceryt ? 2290瀏覽 ? 0回復
LLM合集：視頻生成新王炸！Step-Video-T2V，全方位碾壓開源與商業模型

AIPaperDaily ? 2454瀏覽 ? 0回復
超越Sora！谷歌推出Veo 2，生成8秒超逼真視頻

Aceryt ? 1592瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

多領域SOTA誕生！Vid2World：打通視頻擴散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發布
多模態終極大一統！字節開源BAGEL爆火：圖文生成理解雙冠王，竟能預測未來畫面？ 2025-05-22 09:33:05發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：勇奪三項SOTA！北航&愛詩科技聯合發布靈活高效可控視頻生成方法TrackGo！

下一篇：長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架

社區精華內容

目錄

主站蜘蛛池模板：国产亚洲二区 | 欧美日韩电影免费观看 | 毛片1| 亚洲免费视频在线观看 | 国产精品影视在线观看 | 亚洲大片一区 | 久久国产精品-久久精品 | 一区二区三区免费 | 欧美视频一区 | 久久成人一区 | 亚洲精品电影网在线观看 | 91在线一区二区 | www.色.com| 犬夜叉在线观看 | 国产激情一区二区三区 | 国产精品久久久久久久久污网站 | 中文字幕精品一区 | 亚洲一区视频在线 | 久久男人天堂 | www.久久久久久久久 | 国产精品二区三区在线观看 | 久久久久久久久久性 | 欧美日韩一区二区在线 | 成人性视频在线 | 中文字幕四虎 | 日本在线精品视频 | 国产一级在线观看 | 91一区二区在线观看 | 男女羞羞视频在线看 | 国产一区二区三区四区区 | 黄色三级免费网站 | www日韩 | 亚洲精品视频在线 | 人人操日日干 | 精品久久香蕉国产线看观看亚洲 | 中文字幕视频一区二区 | 亚洲高清一区二区三区 | 免费一区二区 | 国产成人一区二区三区精 | 日韩成人在线观看 | 欧美三级成人理伦 |