阿里開源全能視頻模型!生成編輯都精通,1.3B版本消費級顯卡可跑
業界功能最全、消費級顯卡可跑、而且還是開源的?!
不賣關子了,這就是阿里最新開源的通義萬相Wan2.1-VACE,號稱當前業界功能最全的視頻生成與編輯模型。
有多全呢?來看官方介紹海報:
按照萬相產品負責人的說法,“所有你能想到的關于視頻生成的玩法,幾乎都在這里了”。
而且與以往不同,以上功能主打“All in one”,都能在一個模型里體驗。
目前Wan2.1-VACE一共有兩個版本:
- 1.3B版本:消費級顯卡可跑,支持480p分辨率;
- 14B版本:滿血版,支持480p、720p分辨率。
模型已在GitHub、Hugging Face和魔搭社區上線,動手能力強的小伙伴現在可自行本地化部署,至于其他想在產品端直接體驗的朋友,可能還要等一兩天。
OK,話不多說,我們直接看新模型究竟有哪些玩法。
視頻生成領域的“全能選手”
經過一番梳理,Wan2.1-VACE的“進階攻略”如下:
- 初階玩法:基礎的文生視頻、圖生視頻(含首尾幀)、視頻生視頻等;
- 中階玩法:加入編輯功能,局部抹除或替換、視頻重繪、時長或背景延展等;
- 高階玩法:將各種能力花式組合。
下面我們依次挑其中的一些亮點來看。
首先,在初級階段,Wan2.1-VACE根據參考圖生成融合視頻的能力看起來相當絲滑。
比如分別上傳兩張娃娃和小蛇的圖片:
生成的視頻如下,不僅還原了文字所描述的氛圍感,而且娃娃和小蛇的動作姿態都比較自然,整體構圖和諧。
提示詞:在一個歡樂而充滿節日氣氛的場景中,穿著鮮艷紅色春服的小女孩正與她的可愛卡通蛇嬉戲。她的春服上繡著金色吉祥圖案,散發著喜慶的氣息,臉上洋溢著燦爛的笑容。蛇身呈現出亮眼的綠色,形狀圓潤,寬大的眼睛讓它顯得既友善又幽默。小女孩歡快地用手輕輕撫摸著蛇的頭部,共同享受著這溫馨的時刻。周圍五彩斑斕的燈籠和彩帶裝飾著環境,陽光透過灑在她們身上,營造出一個充滿友愛與幸福的新年氛圍。
當然也有官方demo中效果更驚艷的(游戲中的角色直接照進現實):
除了融合能力,Wan2.1-VACE更值得說道的還是編輯功能。
要知道目前絕大多數視頻生成AI都無法“一次就100%成功”,所以編輯功能幾乎已成為剛需。
比如在產品宣傳中,咱們直接來個“無中生有”。
第一步,直接使用文生視頻創造出下列場景。
提示詞:紀實攝影風格,房產自媒體博主站在一間現代化的客廳中央。博主穿著簡潔時尚的衣物,面帶微笑,兩只手舉在身前,手上空無一物正對著鏡頭介紹房屋情況。背景是一間寬敞明亮的客廳,家具簡約現代,落地窗外是綠意盎然的花園。房間內光線充足,溫馨舒適。中景全身人像,平視視角,輕微的運動感,如手指輕點屏幕。
第二步,給產品繪制一塊想要放置的區域。
最后一步,“憑空捏造”后的效果be like:
同時,Wan2.1-VAC也支持視頻重繪,包括姿態遷移、運動控制、結構控制、重新著色等。
比如給一段球體落入水中的姿勢視頻:
整個過程就能完整遷移到真實物體和環境中:
此外,Wan2.1-VACE還支持對原視頻進行畫面擴展和時長擴展。
最終,如果將以上所有基礎功能組合起來,我們就能用來花式整活了(doge)。
比如將豎圖變成橫圖的同時,讓蒙娜麗莎戴上可愛眼鏡:
又或者給視頻“一鍵換臉”:
更多網友實測
鑒于以上官方demo所展示的效果確實令人驚艷,更多網友也迫不及待地開啟了實測。
這里要補充一下,如果要進行本地部署,官方測試的模型在不同GPU上的計算效率如下:
OK,回到正題。
有網友嘗試改變視頻畫幅比例(左邊為原視頻),結果其畫面補充能力獲得了認可。
還有人嘗試給一張參考圖和視頻,以實現人物姿勢、面部表情遷移,結果其細節控制能力也收獲了好評。
同樣獲得認可的還有其融合能力,看起來也和demo一樣自然。
那么最后問題來了,其實際能力究竟如何呢?
想知道答案的朋友歡迎在評論區留言“想看”,沒準咱們后續就安排一波實測(doge)~
GitHub:https://github.com/Wan-Video/Wan2.1
魔搭:https://modelscope.cn/organization/Wan-AI
Hugging Face:https://huggingface.co/Wan-AI