阿里開源全能視頻模型！生成編輯都精通，1.3B版本消費級顯卡可跑

2025-05-16 09:08:00

人工智能新聞

阿里最新開源的通義萬相Wan2.1-VACE，號稱當前業界功能最全的視頻生成與編輯模型。

業界功能最全、消費級顯卡可跑、而且還是開源的？！

不賣關子了，這就是阿里最新開源的通義萬相Wan2.1-VACE，號稱當前業界功能最全的視頻生成與編輯模型。

有多全呢？來看官方介紹海報：

按照萬相產品負責人的說法，“所有你能想到的關于視頻生成的玩法，幾乎都在這里了”。

而且與以往不同，以上功能主打“All in one”，都能在一個模型里體驗。

目前Wan2.1-VACE一共有兩個版本：

1.3B版本：消費級顯卡可跑，支持480p分辨率；
14B版本：滿血版，支持480p、720p分辨率。

模型已在GitHub、Hugging Face和魔搭社區上線，動手能力強的小伙伴現在可自行本地化部署，至于其他想在產品端直接體驗的朋友，可能還要等一兩天。

OK，話不多說，我們直接看新模型究竟有哪些玩法。

視頻生成領域的“全能選手”

經過一番梳理，Wan2.1-VACE的“進階攻略”如下：

初階玩法：基礎的文生視頻、圖生視頻（含首尾幀）、視頻生視頻等；
中階玩法：加入編輯功能，局部抹除或替換、視頻重繪、時長或背景延展等；
高階玩法：將各種能力花式組合。

下面我們依次挑其中的一些亮點來看。

首先，在初級階段，Wan2.1-VACE根據參考圖生成融合視頻的能力看起來相當絲滑。

比如分別上傳兩張娃娃和小蛇的圖片：

生成的視頻如下，不僅還原了文字所描述的氛圍感，而且娃娃和小蛇的動作姿態都比較自然，整體構圖和諧。

提示詞：在一個歡樂而充滿節日氣氛的場景中，穿著鮮艷紅色春服的小女孩正與她的可愛卡通蛇嬉戲。她的春服上繡著金色吉祥圖案，散發著喜慶的氣息，臉上洋溢著燦爛的笑容。蛇身呈現出亮眼的綠色，形狀圓潤，寬大的眼睛讓它顯得既友善又幽默。小女孩歡快地用手輕輕撫摸著蛇的頭部，共同享受著這溫馨的時刻。周圍五彩斑斕的燈籠和彩帶裝飾著環境，陽光透過灑在她們身上，營造出一個充滿友愛與幸福的新年氛圍。

當然也有官方demo中效果更驚艷的（游戲中的角色直接照進現實）：