成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

馬斯克炫酷變身毒液!實測通義Wan2.1首尾幀視頻模型,還能“拼接”經典梗圖

人工智能 新聞
從整體上來說,Wan2.1首尾幀視頻模型這次在主體一致性、前后連貫性等方面確實表現不錯。

在GitHub狂攬1w+星標的通義萬相Wan2.1,又雙叒上新了!

最新打開方式是醬嬸兒的:

給出開始(首幀)和結束(尾幀)兩張圖片,Wan2.1便能分分鐘生成一段絲滑的5s、720p視頻。

圖片圖片

根據前后視角的不同,還能自動調整鏡頭角度,緩慢變成高空俯拍,并同時保證人物光影正確:

圖片圖片

原來這是阿里通義萬相Wan2.1最新開源的首尾幀視頻模型,基于Wan2.1文生視頻14B大模型,為創作者們提供更高效、更靈活的視頻制作方式。

官方表示,這是業界首個百億參數規模的開源首尾幀視頻模型。

圖片

目前普通用戶可以直接在通義萬相官網體驗,開發者可以通過GitHub、Hugging Face、魔搭社區等開源平臺使用。

為了評估其真實能力,我們也在第一時間上手實測了一波。

初步感受是,從整體上來說,Wan2.1首尾幀視頻模型這次在主體一致性、前后連貫性等方面確實表現不錯。

我們嘗試了用它來改造經典梗圖或挑戰一些火爆一時的玩法,具體過程如下。

實測Wan2.1首尾幀視頻模型

打開通義萬相官網,進入視頻生成,然后選擇圖生視頻并開啟首尾幀功能:

圖片

先上經典玩法——“文藝復興”表情包。

我們提供的首尾幀分別如下:

圖片

對于這樣兩張頗具戲劇張力的圖片,Wan2.1最終生成的視頻be like:

雖然不能深究故事合理性,但整個轉場確實非常絲滑,而且運動過程中人物的一致性保持較好,類似頭發、長相、服裝這樣易出錯的細節也hold住了。

接下來難度升級,我們又嘗試讓兩張完全不同的表情包來個“時空跨越”。

圖片

結果生成的視頻自帶“PPT轉場”效果,有種家里長輩看熊孩子的感覺了(doge)~

Okk,除了整活兒,接下來我們也從時序連貫性、創意合理性、內容一致性以及技術實現難度等維度來進行一個全方位考察。

最常見的用法,當屬各類寫實。

讓我們淺淺模仿一下自然頻道,讓一朵花花慢慢生長出來。

Prompt:特寫鏡頭,讓牡丹花慢慢綻放。

圖片

可以看到,整個生長過程相當自然,已經是肉眼無法一眼識別為AI的情況了。

而且連首幀圖片中隱藏的蛛網也捕捉到了,在花朵綻放時也被牽動起來。

還有人物寫實,通過提供兩張特寫照片,我們考察一下Wan2.1對光影這類細節的把控力。

Prompt:寫實風格,臉部特寫,一個金發碧眼的小男孩,鏡頭微微左移,記錄他被陰影遮住的側臉。

圖片

顯然,由于兩張圖片前后差距不大,因此稍微不注意可能還以為是靜態圖像。

而通過細致觀察,我們在視頻靠近結尾的部分捕捉到了小男孩的脖子和臉上發生了光照變化。

除此之外,我們也挑戰了曾經火爆一時的創意玩法——毒液變身特效。

Prompt:特效大片既視感,穿西裝的男人突然變身成怪獸毒液。

圖片

馬斯克版·毒液這就來了:

能夠看出,對于這種內容跨度比較大的例子,Wan2.1使用了“遮掩大法”,直接一個閃光特效實現變身。

對此,你說它變了還是沒變,還真難界定~

另外我們也嘗試了其他風格,比如二次元。

Prompt:動漫風格,一個打著雨傘的動漫角色站在雨中,不知道看見什么突然傻笑起來。

圖片

可以看到,開頭和結尾的表情100%還原了,而且中間還上演了“超絕變臉”,一秒鐘八百個小表情(bushi~

同時下雨這個場景也真實還原了,沒有雨滴直接穿過雨傘的“超現實場景”。

,時長00:05

最后,我們也簡單對比了一下Wan2.1和可靈(可靈1.6)的首尾幀生成效果。

圖片

同樣兩張圖片和提示詞下,可靈生成的馬斯克版·毒液如下:

雖然老馬的面目略顯猙獰,但好歹是真變身了。

所以,你更pick哪一個呢?

揭秘技術原理和配置

從以上簡單實測來看,相比早期的一些鬼畜視頻,這次開源的Wan2.1首尾幀視頻模型在主體一致性、前后連貫性等方面已經有了相當大的進步。

那么接下來的問題是:怎么做到的?

通過阿里官方發布的技術報告,僅從首尾幀控制來看,其得益于在基礎架構模型上,引入了額外的條件控制分支。

具體而言,首幀與尾幀同若干零填充的中間幀拼接,構成控制視頻序列。該序列進一步與噪聲及掩碼(mask)進行拼接,最終作為擴散變換模型(DiT)的輸入。

此外,為實現畫面穩定性控制,通義萬相首尾幀生視頻模型提取了首幀和尾幀的CLIP語義特征,并通過交叉注意力機制(Cross-Attention Mechanism)將其注入到DiT的生成過程中。

憑借這一獨特的模型架構,最終實現了流暢且準確的首尾幀變換。

圖片

當然,最后大家最關注的還是配置問題。

以國內的魔搭社區為例,他們目前已在DiffSynth-Studio項目中支持了Wan2.1首尾幀模型。

也就是說,開發者可以基于DiffSynth-Studio(一個提供全鏈路推理和訓練優化的開源工具)實現便捷推理。

值得注意的是,他們還通過某一參數來控制推理過程中常駐顯存的參數量。而實際推理過程使用的顯存需求,會與這一參數、分辨率、幀數有關。

他們以81幀960*960分辨率的視頻為例:

  • 設置參數=None時(意味著無常駐參數限制),需要46G顯存;
  • 設置參數=4*10**9時,需要24G顯存,但推理速度會有所下降;

另外,部分網友也在第一時間分享了自己的配置情況:

圖片

圖片

我們自己測下來也發現,僅從官網直接體驗,目前生成一個視頻實際需要幾分鐘甚至十幾分鐘時間。

所以,大家卷質量的同時,能不能把時長打下來?。╠oge)~

直接體驗入口:
https://tongyi.aliyun.com/wanxiang/videoCreation

GitHub:
https://github.com/Wan-Video/Wan2.1
模型(魔搭社區):
https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-01-16 12:43:00

機器人AI

2025-02-27 12:44:41

2022-01-23 10:53:47

星鏈互聯網衛星

2021-01-12 15:20:39

AI 數據人工智能

2023-07-03 09:36:52

模型AI

2021-06-11 17:14:26

黑客馬斯克加密貨幣

2024-04-07 11:25:54

2025-02-11 11:46:48

OpenAI奧特曼馬斯克

2024-10-29 14:30:00

AI模型

2021-05-17 22:35:17

比特幣加密貨幣貨幣

2023-03-03 21:25:28

馬斯克特斯拉

2023-05-26 17:11:25

馬斯克Neuralink接口

2022-12-15 17:26:16

2023-03-15 16:09:44

2023-04-18 15:03:24

模型數據

2024-03-18 14:17:06

大模型開源人工智能

2021-12-09 10:18:29

芯片半導體技術

2023-04-20 17:51:41

馬斯克微軟

2024-05-07 13:30:00

數據訓練

2020-08-31 12:01:43

網絡攻擊惡意軟件網絡安全
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91精品国产乱码久久久久久久久 | 亚洲国产一区在线 | 精品一区二区三区中文字幕 | 天天操人人干 | 国产欧美日韩一区 | 久久久精品久久久 | 欧美一级二级视频 | 99精品一区二区 | 久久丝袜 | 久久99久久| 久久久综合久久 | 一区二区三 | 欧美成人自拍视频 | 日韩成人精品在线观看 | 国产jizz女人多喷水99 | 欧美黑人巨大videos精品 | 狠狠热视频 | 久久99精品久久久久子伦 | 精品一区二区三区中文字幕 | 国产精品欧美一区二区 | 国产免费看 | 久久97精品 | 精品在线视频播放 | 国产在线观看网站 | 中文字幕在线一区二区三区 | 亚洲男人网 | 日日夜夜免费精品 | 中文字幕免费在线观看 | 欧美精品91 | 日本一道本视频 | 日韩福利| 久久久久久久av麻豆果冻 | 在线观看国产视频 | 欧美日韩淫片 | 亚洲免费在线 | 亚洲精品91 | 国产精品久久久久一区二区三区 | 久久成人免费视频 | 国产精品视频播放 | 亚洲一区二区三区 | 一级欧美|