中國首個AI短劇模型開源,4090秒生好萊塢級大片!人人拍短劇時代來臨
2月18日,昆侖萬維開源中國首個面向AI短劇創作的視頻生成模型SkyReels-V1、中國首個SOTA級別基于視頻基座模型的表情動作可控算法SkyReels-A1。
開源地址(SkyReels-V1):https://github.com/SkyworkAI/SkyReels-V1
開源地址(SkyReels-A1):https://github.com/SkyworkAI/SkyReels-A1
技術報告:https://skyworkai.github.io/skyreels-a1.github.io/report.pdf
SkyReels官方地址:skyreels.ai
針對當前全球AI視頻生成模型和產品不開源、用不到、費用高、不好用等痛點,昆侖萬維SkyReels一次性開源SkyReels-V1和SkyReels-A1兩個SOTA級別的模型和算法,將面向AI短劇創作的技術成果回饋開源社區和AIGC用戶。
而這只是在AI視頻方向開源道路上的起點,未來將陸續開源更多面向AI短劇的優秀研究成果。
如今,AI視頻和短劇的生產形式已經得到了市場的驗證,擁有巨大的商業想象空間。
2024年8月上線的AI短劇創作平臺SkyReels的目標是讓用戶以更低成本體驗線上拍劇,利用AI能力解決傳統短劇內容供給的難題。
SkyReels能夠助力解決傳統短劇制作流程中面臨的挑戰,如線下拍劇流程復雜,包括劇本創作、選演員、場景布景、分鏡創作、拍攝、后期處理等環節,耗費人力多,制作成本貴,周期長等。
SkyReels-V1:Human-Centric Video Foundation Model,中國首個面向AI短劇創作的開源視頻生成模型
AI短劇極其需要同時對大腦和肢體完成精細的控制功能,這就需要同時把口型生成、表情生成、肢體生成等多個生成組合在一起。
當前大家體驗比較好的是口型生成,因為口型生成其實和音頻信息之間具備更好的映射關系,因此它的精準度可以實現的更好,用戶體驗會更好。
而人物表演的細節和能力更是AI短劇生成效果優質與否的核心所在,為了大幅提升表情生成、肢體生成的可控表演效果,SkyReels-V1不僅針對表演細節做了打標,還對情緒、場景、表演訴求等進行處理,利用千萬級別、高質量的好萊塢級別數據進行訓練微調。
團隊針對人物微表情、人物表演細節、場景描述、光影、畫面構圖等做了更精細的技術升級,可以看到當前由SkyReels生成的視頻中的人物已經存在更精準的表演細節,初步具備影帝級人物表演實力。
SkyReels-V1可實現影視級人物微表情表演生成,支持33種細膩人物表情與400+種自然動作組合,高度還原真人情感表達。
正如以下視頻所示,SkyReels-V1支持生成大笑、怒吼、驚訝、哭泣等微表情,展現出人物情感豐沛的表演細節。
即使有大幅度肢體動作,例如下面視頻中,正在大口食用漢堡包的男士,SkyReels-V1生成的微表情也完美貼合人物肢體表演。
同時,SkyReels-V1為AI視頻生成帶來了電影級光影美學,基于好萊塢級的高質量影視數據訓練,當前SkyReels生成的每一幀畫面,在構圖、演員站位、相機角度等都具備電影級的質感。
無論是單人鏡頭表演細節,還是多人構圖,當前已具備精準的表情控制和高質感畫面。
在下面視頻中,SkyReels-V1生成的「災難」片段,具有好萊塢大片即視感,場景宏大且有震撼感,其中聚焦到單個人物的臉部表情刻畫也可圈可點,以極細致的程度展示出了身臨其境的恐懼感。
在一場兩個人的「告白時刻」場景中,構圖與光影的完美融合,使整個畫面既充滿了夢幻般的浪漫氛圍,又具備了強烈的視覺沖擊力。
靈動的表情、飛舞的發絲、女子飛揚的衣袖、一道道柔和的光帶,兩人之間的浪漫愛情故事躍然眼前。
以下視頻來源于昆侖萬維集團
更重要的是,SkyReels-V1不僅支持文生視頻、還能支持圖生視頻,是開源視頻生成模型中參數最大的支持圖生視頻的模型,在同等分辨率下各項指標實現開源SOTA。
圖1丨SkyReels-V1文生視頻指標對比(來源:昆侖萬維SkyReels)
能夠實現這樣的SOTA級別,不僅依賴于昆侖萬維SkyReels團隊基于自研的高質量數據清洗和人工標注管線,構建了千萬級的高質量電影&電視劇&紀錄片數據。
更依托團隊自研「Human-Centric」的視頻理解多模態大模型,大幅提升視頻中人物相關的理解能力,尤其是自研人物智能解析系統。
綜上所述,得益于扎實的數據工作和先進的人物智能解析系統,SkyReels-V1可以實現:
- 影視化表情識別體系:11種針對影視戲劇中的人物表情理解,如不屑、不耐煩、無助、厭惡等表情的理解;
- 人物空間位置感知:基于人體三維重建技術,實現對視頻中多人的空間相對關系理解,助力模型生成影視級人物站位;
- 行為意圖理解:構建超過400種行為語義單元,實現對人物行為的精準理解;
- 表演場景理解:實現人物-服裝-場景-劇情的關聯分析。
SkyReels-V1不僅是全球極少數開源的視頻生成模型,還是圍繞人物表演、開源視頻生成模型中性能最強的。
在自研推理優化框架「SkyReels-Infer」的加持下,大幅提升推理效率,實現544p分辨率,推理基于單臺4090只需80s,還支持分布式多卡并行,支持Context Parallel,CFG Parallel,和VAE Parallel。
此外,采取fp8 quantization以及parameter-level offload,滿足低顯存用戶級顯卡運行需求;支持flash attention、SageAttention,模型編譯優化等,進一步優化延遲;基于開源diffuser庫,提升易用性。
正如下圖2所示,在同等RTX4090資源情況下對比(4卡),SkyReels-Infer版本比HunyuanVideo官方版本端到端延遲減少58.3%(293.3s vs 464.3s);SkyReels-Infer版本具備更魯棒的部署策略,支持用戶級別顯卡1卡-8卡的推理部署。
圖片
圖2丨推理生成544p視頻,使用相同卡數的RTX 4090,SkyReels-Infer版本端到端延遲優于HunyuanVideo官方(xdit)58.3%
在同等A800資源情況下對比,SkyReels-Infer版本比HunyuanVideo官方版本端到端延遲減少14.7%~28.2%(如圖3所示),SkyReels-Infer版本具備更魯棒的多卡部署策略。
圖3丨推理生成544p視頻,SkyReels-Infer版本具備更魯棒的多卡部署策略,支持8卡部署
SkyReels-A1:首個SOTA級別的基于視頻基座模型的表情動作可控算法
為了實現更加精準可控的人物視頻生成,昆侖萬維還開源了SOTA級別的基于視頻基座模型的表情動作可控算法SkyReels-A1,對標Runway的Act-One,SkyReels-A1支持視頻驅動的電影級表情捕捉,實現高保真微表情還原。
SkyReels-A1能夠基于任意人體比例(包括肖像、半身及全身構圖)生成高度逼真的人物動態視頻,其真實感源自對人物表情變化和情緒的精準模擬、皮膚肌理、身體動作跟隨等多維度細節的深度還原。
如下述視頻所示,將參考人物圖片(上圖)和驅動視頻(左下)同時作為輸入,在SkyReels-A1的能力加持下,生成了新的視頻——將驅動視頻中的面部表情和表演細節「移植」到給定參考圖片的人物身上。
SkyReels-A1支持生成的視頻(下中)沒有失真,且還原了驅動視頻的微表情和肢體表演,效果優于Runway Act-One生成的視頻(右下)。
SkyReels-A1不僅支持側臉的表情控制生成、還能實現更加逼真的眉眼微表情生成和更大幅度的頭部與自然身體動作。
例如同一句臺詞表演,從下面視頻可以看出,最右邊的人物有明顯變樣失真,和原始人物形象不一致,而SkyReels-A1支持和驅動下的人物表演,不僅人物不失真,且表演細節更真實,還可以實現神情與身體動作的自然完美融合。
SkyReels-A1能夠實現更大幅度的人物表情驅動。在下面視頻中可以看到,相比Runway的Act-One(無法生成),SkyReels-A1可以遷移更復雜的表情動作,生成的人物面部神情可以配合肢體及畫面內容實現更栩栩如生的表演。
以開源之姿,以破局之勢,昆侖萬維致力于推動全球AI短劇創作生態繁榮發展
昆侖萬維一直堅持開源,推動技術平權。自2023年8月23日,昆侖萬維發布國內第一款AI搜索產品「天工AI搜索」以來,持續開源大模型回饋開發者和行業。
早在2023年10月,昆侖萬維宣布開源百億級大語言模型「天工」Skywork-13B系列,并配套開源了600GB、150B Tokens的超大高質量開源中文數據集。2024年開始,公司陸續開源了數字智能體全流程研發工具包AgentStudio、「天工大模型3.0」4000億參數MoE超級模型、2千億稀疏大模型Skywork-MoE、Skywork-o1-Open等模型。
視頻生成模型是整個AI短劇創作當中最難的一個環節,盡管過去一年行業內的模型生成能力已有大幅提升,但還遠遠不夠,同時還面臨視頻生成成本高的問題。
昆侖萬維同時將SOTA級別的SkyReels-V1和SkyReels-A1進行開源,是AI短劇行業首例,也是昆侖萬維SkyReels回饋行業邁出的一小步,更是促進AI短劇創作和視頻生成行業枝繁葉茂的一大步。
相信在進行推理優化的升級和可控算法的開源后,它們將為用戶帶來低成本、可控性更強的AIGC能力。昆侖萬維希望通過更多優秀視頻生成模型的開源和極致的AI短劇產品能力,為用戶帶來低成本實現AI短劇創作的可能性、突破行業目前視頻生成一致性差的問題,讓大眾通過自己的電腦生成精細且可控的人物表演。
昆侖萬維董事長兼CEO方漢表示,「AIGC能力的出現,包括我們現在做的視頻生成能力的出現,一定會將一部好萊塢大片質量的電影制作成本,從現在的一億美金,讓其迅速下降到幾十萬美金甚至幾千美金,幾年之后幾百美金都是有可能的。這樣會讓所有語言的人都會用AI來創作屬于本民族的內容產品。這樣的結果將會實現文化的平權,而這個紅利,很有可能是中國企業去吃到」。
此次開源的視頻大模型,不僅是一次技術突破,有助于縮小全球內容產業的數字鴻溝,更是文化產業生產力的一次革命。未來,短劇與游戲、虛擬現實等領域的跨界發展,將會加速產業融合。AI短劇也有希望從「技術實驗」邁向「主流創作」,成為全球文化輸出的新載體。
「實現通用人工智能,讓每個人更好地塑造和表達自我」是公司的使命,未來,昆侖萬維及SkyReels還將開源更多視頻生成模型和算法、通用模型,通過開源實現AGI平權,推動AI短劇生態的持續建設和繁榮,促進開源社區、開發生態以及AI行業的發展。