編輯 | 言征
出品 | 51CTO技術棧(微信號:blog51cto)
視頻生成賽道,商湯今天精準“開大”了!
Sora、Luma等模型留給業界驚艷的同時,也甩給了無數后期剪輯的噩夢:好好的一個人物,動不動臉部就變形了,這魔法有點離譜,有時候,不可控就意味著不可用。
就好比之前小編用Luma,生成一段“牛頓被蘋果砸著頭”視頻,蘋果樹下的牛頓,遠景和特寫咋看都是兩個人。
難怪有人說讓AI生成一張合適的人物表情,簡直就需要“歐皇”的運氣,抽到SSS卡才行。
1.首個可控人物視頻生成大模型Vimi厲害在哪里?
而就在今天,商湯科技做到了!商湯發布了業內首個“可控”人物視頻生成大模型產品Vimi。毫不夸張的說,視頻制作者的福音來了!
想一想1分鐘穩定的單鏡頭人物特寫鏡頭,畫面效果不會隨著時間的變化而劣化或失真,這將省去多大的工作量!
更令人興奮的是,還可以隨心控制表情和肢體,這將是怎樣的效率突破!
7月4日,世界人工智能大會開幕。在上海這座創新之城,商湯直接拋出一個炸裂的發布:首個面向C端用戶的可控人物視頻生成大模型Vimi驚艷亮相。
據悉,該模型主要面向C端用戶。根據現場展示來看,難得之處就在于,Vimi能夠實現精準的人物表情控制,同時還可實現在半身區域內控制照片中人物的自然肢體變化,并自動生成與人物相符的頭發、服飾及背景變化,可穩定生成1分鐘的單鏡頭人物類視頻。
圖片
也可以讓你喜歡的人物角色為你奉上一場“表情大賞”。
這還沒完,除了生成你想要的動態表情包,還可以為人物配上相應的服飾、配飾和背景,看起來毫無違和感。
當然了,根據照片,可快速生成寫真視頻,這一點也自然能輕松做到了。吐槽:妙鴨相機要有壓力了~
圖片
據悉Vimi將完全面向C端用戶開放使用,到時候聊天、唱歌、舞動等多種娛樂互動場景相信都能看到Vimi的身影。
不過,現在處于內測階段,小編第一時間也申請了,目前還在焦急等待中。
2.寫在最后
總結下,Vimi有以下四大特點:
1、人物可控性:可控生成高一致性的人物表情及肢體動作視頻。
2、多種控制方式:可以通過人物視頻、動畫參數、語音文字等輸入驅動。
3、分鐘級單鏡頭:支持生成分鐘級的單鏡頭人物視頻,在演示的視頻中,可以看到視頻長達1分鐘。
4、生成合理的視頻場景:支持人物合理的頭發、服飾、背景補全,并支持光影變化。
整體上看,通過一張任意風格的照片就能生成和目標動作一致不隨時間變化而失真的人物類視頻,可通過已有人物視頻、動畫、聲音、文字等多種元素進行驅動,足夠在人物方面把Luma比下去了,畢竟各有所長。
至于Vimi為什么這么厲害?當然還是底座模型太給力了,商湯日日新大模型SenseNova,猜測是圖文多模態大模型SenseChat-Vision的加持,不過免費體驗期已經截止了。
圖片
忘了,上個內測申請鏈接:https://www.wjx.cn/vm/mhSxfGv.aspx