成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Stable Video Diffusion來了,代碼權重已上線

人工智能 新聞
本周二,基于 Stable Diffusion 的視頻生成模型 Stable Video Diffusion 來了,AI 社區馬上開始了熱議。

AI 畫圖的著名公司 Stability AI,終于入局 AI 生成視頻了。

本周二,基于 Stable Diffusion 的視頻生成模型 Stable Video Diffusion 來了,AI 社區馬上開始了熱議。

很多人都表示「我們終于等到了」。

圖片

項目地址:https://github.com/Stability-AI/generative-models

現在,你可以基于原有的靜止圖像來生成一段幾秒鐘的視頻。

基于 Stability AI 原有的 Stable Diffusion 文生圖模型,Stable Video Diffusion 成為了開源或已商業行列中為數不多的視頻生成模型之一。

圖片

圖片

但目前還不是所有人都可以使用,Stable Video Diffusion 已經開放了用戶候補名單注冊(https://stability.ai/contact)。

據介紹,Stable Video Diffusion 可以輕松適應各種下游任務,包括通過對多視圖數據集進行微調從單個圖像進行多視圖合成。Stability AI 表示,正在計劃建立和擴展這個基礎的各種模型,類似于圍繞 stable diffusion 建立的生態系統。

圖片

圖片

Stable Video Diffusion 以兩種圖像到視頻模型的形式發布,能夠以每秒 3 到 30 幀之間的可定制幀速率生成 14 和 25 幀的視頻。

在外部評估中,Stability AI 證實這些模型超越了用戶偏好研究中領先的閉源模型:

圖片

Stability AI 強調,Stable Video Diffusion 現階段不適用于現實世界或直接的商業應用,后續將根據用戶對安全和質量的見解和反饋完善該模型。

圖片

論文地址:https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

Stable Video Diffusion 是 Stability AI 各式各樣的開源模型大家族中的一員。現在看來,他們的產品已經橫跨圖像、語言、音頻、三維和代碼等多種模態,這是他們致力于提升 AI 最好的證明。

Stable Video Diffusion 的技術層面

Stable Video Diffusion 作為一種高分辨率的視頻潛在擴散模型,達到了文本到視頻或圖像到視頻的 SOTA 水平。近期,通過插入時間層并在小型高質量視頻數據集上進行微調,為 2D 圖像合成訓練的潛在擴散模型已轉變為生成視頻模型。然而,文獻中的訓練方法千差萬別,該領域尚未就視頻數據整理的統一策略達成一致。

在 Stable Video Diffusion 的論文中,Stability AI 確定并評估了成功訓練視頻潛在擴散模型的三個不同階段:文本到圖像預訓練、視頻預訓練和高質量視頻微調。他們還證明了精心準備的預訓練數據集對于生成高質量視頻的重要性,并介紹了訓練出一個強大基礎模型的系統化策劃流程,其中包括了字幕和過濾策略。

Stability AI 在論文中還探討了在高質量數據上對基礎模型進行微調的影響,并訓練出一個可與閉源視頻生成相媲美的文本到視頻模型。該模型為下游任務提供了強大的運動表征,例如圖像到視頻的生成以及對攝像機運動特定的 LoRA 模塊的適應性。除此之外,該模型還能夠提供強大的多視圖 3D 先驗,這可以作為多視圖擴散模型的基礎,模型以前饋方式生成對象的多個視圖,只需要較小的算力需求,性能還優于基于圖像的方法

圖片

具體而言,成功訓練該模型包括以下三個階段:

階段一:圖像預訓練。本文將圖像預訓練視為訓練 pipeline 的第一階段,并將初始模型建立在 Stable Diffusion 2.1 的基礎上,這樣一來為視頻模型配備了強大的視覺表示。為了分析圖像預訓練的效果,本文還訓練并比較了兩個相同的視頻模型。圖 3a 結果表明,圖像預訓練模型在質量和提示跟蹤方面都更受青睞。

階段 2:視頻預訓練數據集。本文依靠人類偏好作為信號來創建合適的預訓練數據集。本文創建的數據集為 LVD(Large Video Dataset ),由 580M 對帶注釋的視頻片段組成。

進一步的研究表明生成的數據集包含可能會降低最終視頻模型性能的示例。因此,本文還采用了密集光流來注釋數據集。

此外,本文還應用光學字符識別來清除包含大量文本的剪輯。最后,本文使用 CLIP 嵌入來注釋每個剪輯的第一幀、中間幀和最后一幀。下表提供了 LVD 數據集的一些統計信息:

階段 3:高質量微調。為了分析視頻預訓練對最后階段的影響,本文對三個模型進行了微調,這些模型僅在初始化方面有所不同。圖 4e 為結果。

圖片

看起來這是個好的開始。什么時候,我們能用 AI 直接生成一部電影呢?

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-11-22 17:34:37

2023-01-10 16:08:04

人工智能擴散模型

2024-09-14 14:09:40

2023-07-14 13:34:34

StableDiffusion模型

2023-05-26 15:53:48

MidjourneyAI圖像

2023-04-24 09:28:53

2023-06-12 10:25:45

模型訓練

2022-12-23 15:46:14

AI開源

2021-07-19 22:31:39

微信微信客服移動應用

2024-12-06 10:21:04

2019-05-14 09:53:31

代碼開發工具

2024-03-25 00:25:00

2024-06-13 17:45:16

2023-02-10 21:12:41

GPUmacOSStable

2024-03-20 15:51:00

AI數據

2023-03-06 12:35:45

AI大腦畫面圖像

2022-10-20 16:04:26

模型質量

2023-04-20 17:47:57

模型開源

2024-03-06 23:23:36

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产中文字幕在线观看 | 涩色视频在线观看 | 欧洲视频一区 | 国产视频一区二区在线观看 | 国产一区久久久 | 午夜影院 | 成人影院一区二区三区 | 欧美国产日韩在线观看 | 又爽又黄axxx片免费观看 | 精品一区二区三区四区五区 | av毛片 | 亚洲国产精品精华素 | 国产精品免费大片 | 日韩精品一区在线观看 | 成人av一区 | www.久久久久久久久久久久 | 久久艹免费视频 | 久久久久久网站 | 精品综合| 色综合久 | 亚洲永久字幕 | 欧美 日韩 中文 | 日韩美女爱爱 | 黄色国产大片 | 成人免费视频网址 | 国产一级片免费视频 | 午夜视频一区二区 | 欧美激情综合 | 国产精品美女一区二区 | 欧美黑人体内she精在线观看 | 激情在线视频 | 久草视 | 免费在线日韩 | 91麻豆产精品久久久久久 | 国产视频一区二区三区四区五区 | 在线一区观看 | 国产一级片一区二区三区 | 亚洲国产一区二区视频 | 性一区| 国产精品自拍视频网站 | 在线视频a |