成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

拖拽下圖像就能生成視頻,中科大、微軟等DragNUWA屬實驚艷

人工智能 新聞
來自中國科學技術大學、微軟亞研和北京大學的研究者提出了一種基于開放域擴散的新型視頻生成模型 ——DragNUWA。DragNUWA 從語義、空間和時間三個角度實現了對視頻內容的細粒度控制。

隨著 ChatGPT、GPT-4、LLaMa 等模型的問世,人們越來越關注生成式模型的發展。相比于日漸成熟的文本生成和圖像生成,視頻、語音等模態的 AI 生成還面臨著較大的挑戰。

現有可控視頻生成工作主要存在兩個問題:首先,大多數現有工作基于文本、圖像或軌跡來控制視頻的生成,無法實現視頻的細粒度控制;其次,軌跡控制研究仍處于早期階段,大多數實驗都是在 Human3.6M 等簡單數據集上進行的,這種約束限制了模型有效處理開放域圖像和復雜彎曲軌跡的能力。

基于此,來自中國科學技術大學、微軟亞研和北京大學的研究者提出了一種基于開放域擴散的新型視頻生成模型 ——DragNUWA。DragNUWA 從語義、空間和時間三個角度實現了對視頻內容的細粒度控制。

論文地址:https://arxiv.org/abs/2308.08089

以拖動(drag)的方式給出運動軌跡,DragNUWA 就能讓圖像中的物體對象按照該軌跡移動位置,并且可以直接生成連貫的視頻。例如,讓兩個滑滑板的小男孩按要求路線滑行:

圖片

還可以「變換」靜態景物圖像的相機位置和角度:

圖片

圖片

方法簡介

該研究認為文本、圖像、軌跡這三種類型的控制是缺一不可的,因為它們各自有助于從語義、空間和時間角度控制視頻內容。如下圖 1 所示,僅文本和圖像的組合不足以傳達視頻中存在的復雜運動細節,這可以用軌跡信息來補充;僅圖像和軌跡組合無法充分表征視頻中的未來物體,文本控制可以彌補這一點;在表達抽象概念時,僅依賴軌跡和文本可能會導致歧義,圖像控制可以提供必要的區別。

DragNUWA 是一種端到端的視頻生成模型,它無縫集成了三個基本控件 —— 文本、圖像和軌跡,提供強大且用戶友好的可控性,從語義、空間和時間角度對視頻內容進行細粒度控制。

為了解決當前研究中有限的開放域軌跡控制問題,該研究重點關注三個方面的軌跡建模:

  • 使用軌跡采樣器(Trajectory Sampler,TS)在訓練期間直接從開放域視頻流中采樣軌跡,用于實現任意軌跡的開放域控制;
  • 使用多尺度融合(Multiscale Fusion,MF)將軌跡下采樣到各種尺度,并將其與 UNet 架構每個塊內的文本和圖像深度集成,用于控制不同粒度的軌跡;
  • 采用自適應訓練(Adaptive Training,AT)策略,以密集流為初始條件來穩定視頻生成,然后在稀疏軌跡上進行訓練以適應模型,最終生成穩定且連貫的視頻。

實驗及結果

該研究用大量實驗來驗證 DragNUWA 的有效性,實驗結果展示了其在視頻合成細粒度控制方面的卓越性能。

與現有專注于文本或圖像控制的研究不同,DragNUWA 主要強調建模軌跡控制。為了驗證軌跡控制的有效性,該研究從相機運動和復雜軌跡兩個方面測試了 DragNUWA。

如下圖 4 所示,DragNUWA 雖然沒有明確地對相機運動進行建模,但它從開放域軌跡的建模中學習了各種相機運動。

為了評估 DragNUWA 對復雜運動的精確建模能力,該研究使用相同的圖像和文本對各種復雜的拖動(drag)軌跡進行了測試。如下圖 5 所示,實驗結果表明 DragNUWA 能夠可靠地控制復雜運動。

此外,DragNUWA 雖然主要強調軌跡控制建模,但也融合了文本和圖像控制。研究團隊認為,文本、圖像和軌跡分別對應視頻的三個基本控制方面:語義、空間和時間。下圖 6 通過展示文本(p)、軌跡(g)和圖像(s)的不同組合(包括 s2v、p2v、gs2v、ps2v 和 pgs2v)說明了這些控制條件的必要性。

感興趣的讀者可以閱讀論文原文,了解更多研究內容。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-12-06 09:53:09

自然語言神經網絡人工智能

2024-11-06 13:03:49

2024-04-07 09:00:00

數據模型

2013-06-19 11:32:32

計算性能ISCHPC

2017-03-23 17:09:45

2024-06-17 07:10:00

2012-11-23 10:15:55

SCC12全球超級計算大會

2021-05-07 09:34:20

量子芯片計算機

2025-04-18 09:13:00

2023-09-06 12:57:11

AI訓練

2025-04-09 09:25:00

視頻模型AI

2024-10-16 14:10:00

AI視頻生成

2021-11-17 16:13:45

IBM 處理器量子

2013-08-21 15:13:17

英特爾中科大洋廣電行業

2023-03-17 07:59:57

AI數字化

2025-04-01 09:20:00

模型預測AI

2023-10-30 15:06:00

模型數據

2024-06-26 14:50:52

2022-02-25 23:49:31

量子研究

2009-12-14 16:38:07

自主研發機器人
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品99国产精品 | 午夜精品一区二区三区免费视频 | 国产午夜视频 | 中午字幕在线观看 | av小说在线| 91精品www| 国产精品亚洲欧美日韩一区在线 | 干出白浆视频 | 国产精品观看 | 国产精品二区三区在线观看 | 欧美一级免费看 | 很黄很污的网站 | 中文天堂在线一区 | 日韩av在线一区 | 久久久久国产一区二区三区 | 欧美精品一区二区三区在线 | 视频1区 | 成人免费一级视频 | 国产线视频精品免费观看视频 | www.887色视频免费 | 亚洲欧美成人在线 | 日韩三区| 精品久久久久久久久久 | 黄色片在线看 | 热久久久| 亚洲影音先锋 | 成人福利在线观看 | 日韩在线中文字幕 | 成人在线小视频 | 91亚洲精品在线观看 | 久夜精品| 亚洲一区二区三区欧美 | 美日韩一区二区 | 日韩精品国产精品 | 亚洲第一天堂无码专区 | 亚洲精品免费视频 | 在线看av网址 | 国产欧美一区二区在线观看 | 亚洲国产精品一区二区第一页 | 99久久久国产精品 | 亚洲免费久久久 |