國產(chǎn)動(dòng)漫視頻AI火了!二次元老婆隨意捏,哥特、夢(mèng)幻、機(jī)甲一鍵get
現(xiàn)在,各位二次元萌新們,不用再等「太太」出圖啦!
我們不僅可以自己產(chǎn)糧,而且還是會(huì)動(dòng)的那種。
圖片
圖片
如今,AI視頻生成這個(gè)賽道,可謂是殺得如火如荼。這些更新更強(qiáng)的模型,思路和Scaling Law一脈相承,主打一個(gè)「又大又全」。
然而出圖效果如何,全靠「抽卡」運(yùn)氣,更別提真實(shí)視頻生成的恐怖谷效應(yīng)、動(dòng)漫視頻生成的畫風(fēng)突變。
圖片
和大語言模型類似,在應(yīng)用落地上想要全盤通吃的,就很難根據(jù)行業(yè)特征和專屬訴求去進(jìn)行專注的服務(wù)。
尤其是對(duì)于「二刺螈」小編來說,一直以來都沒有找到合適的模型。
畢竟,作為普通動(dòng)漫愛好者,想要和喜愛的角色同框出鏡,或二創(chuàng),沒有繪畫技能也只能空想。
從腳本構(gòu)思、關(guān)鍵幀繪圖、骨骼綁定到動(dòng)態(tài)渲染,都需要付出大量的時(shí)間和精力。
圖片
來源網(wǎng)絡(luò)
最近,小編發(fā)現(xiàn)了一個(gè)專為二次元打造的創(chuàng)作網(wǎng)站「YoYo」——
只需通過文字提示或者上傳圖片等簡單操作,即可一鍵獲得生成高質(zhì)量一致性強(qiáng)的動(dòng)漫內(nèi)容,讓喜歡的角色栩栩如生地出現(xiàn)在「同人視頻」中了!
圖片
大陸站傳送門:yoyo.avolutionai.com
國際站傳送門:yoyo.art
同人視頻一鍵get
可以看到,YoYo不僅創(chuàng)作界面簡潔,而且操作起來也非常容易上手。
而且最重要的是,對(duì)于動(dòng)漫愛好者和創(chuàng)作者來說,二次元氛圍沉浸感極強(qiáng)。
不管是提示詞還是圖片,都有著非常豐富的高質(zhì)量素材——幾十個(gè)流行人物角色,以及通用、平涂、機(jī)甲等各種風(fēng)格,可謂是一站式集齊,讓人直呼過癮。
這些定制選擇,可以在生成過程中控制角色的設(shè)計(jì)、故事走向,甚至是每一個(gè)細(xì)微的動(dòng)畫效果。
圖文生動(dòng)漫
話不多說,先來一波實(shí)測。
櫻花飄落、頷首淺笑,再加上精致的的背景和服裝,日漫的氛圍感一下就出來了。
圖片
prompt:穿著和服的女子在開滿印花的庭院
燃燒的蠟燭,火焰般的眼眸,黑色的lolita,詭異的氛圍,拿捏得十分到位。
圖片
prompt:最高品質(zhì),杰作,插圖,超級(jí)詳細(xì),(1女性:1.2),及肩長發(fā),哥特服飾,鬧鬼的大廈,拿著蠟燭,詭異
接下來,再看看出色的人物一致性。(白毛控狂喜)
從嫉惡如仇的屠龍少女——
圖片
prompt:1girl ,hair between eyes ,white hair, blue eyes,long hair,no hat,white dress ,elf,pointy ears, fight with a big dragon, sword
到林間散步的青澀女孩——
圖片
prompt:1girl,white hair,elf,blue eyes,long hair,pointy ears,sitting in river,stars,white dress,pink canvas backpack,taking a walk in the forest
亦或是坐在水中的精靈公主——
圖片
prompt:1girl,white hair,elf,blue eyes,long hair,pointy ears,sitting in river,stars,white dress,sitting quietly on the water
順便一提,中英混合的prompt也是可以支持的。
圖片
prompt:1girl,hair between eyes,white hair,blue eyes,long hair,no hat,white dress,elf,pointy ears,瀑布,坐在瀑布下面,雙手合十,閉眼
從上面這些動(dòng)圖可見,AI還原出了精準(zhǔn)而富有表現(xiàn)力的人物表情,讓短短幾秒的視頻充滿了故事感。
頭發(fā)、蒲公英和身上的裙子,一同在隨風(fēng)飄動(dòng)非常自然。
圖片
prompt:一個(gè)紫色長發(fā)的女孩,在長滿蒲公英的草原迎風(fēng)微笑,天空中閃爍極光
落下的雪和杯中的熱氣升騰,即使相互交織在一起也能一眼分清。
圖片
prompt:一個(gè)圍著圍巾的短發(fā)女孩,在大雪天喝著熱茶
一臺(tái)巨大的「蘿卜」矗立在城市里,林立的高樓描繪出震撼的場景。
圖片
prompt:機(jī)甲,無人,獨(dú)自,云,武器,科幻,發(fā)光,天空,拿著武器,建筑物,城市
除了人物角色之外,背景的生成也非常有電影鏡頭的感覺。
圖片
prompt:夢(mèng)幻的森林大陸的鳥瞰全貌,有森林湖泊,有小小的城鎮(zhèn),也有遠(yuǎn)遠(yuǎn)的高山
圖片
prompt:一個(gè)古樸小鎮(zhèn)熱鬧的街市
從此,不論我們腦海有多么奇幻的場景,都可以讓它在動(dòng)畫中還原出來了!
圖片
prompt:夢(mèng)幻的森林大陸上的森林,小兔子,小松鼠,五彩的蘑菇
圖片
prompt:一只通體雪白,角生梅花的鹿站在雪山頂峰眺望遠(yuǎn)方,身邊發(fā)出微光
畫面一鍵「復(fù)刻」
在「風(fēng)物」這個(gè)場景中,我們可以一鍵「復(fù)刻」同好們生成的心儀場景。
圖片
選擇「取材」后,模型根據(jù)同樣的prompt,就生成了類似風(fēng)格的圖。
圖片
接著點(diǎn)「生成視頻」——穿著JK制服的長發(fā)女孩,和彈鋼琴的白色貓貓,這畫面簡直不要太美。
圖片
生成模型
當(dāng)前AI生成的視頻存在兩大技術(shù)缺陷,一是可控性,二是生成速度。
以往的模型大多使用圖像或文本指令作為生成條件,但缺少對(duì)視頻中動(dòng)作的精確、交互式控制。在生成視頻時(shí)速度也非常慢,這對(duì)于C端應(yīng)用來說也會(huì)嚴(yán)重影響用戶體驗(yàn)。
為了解決這些模型缺陷,鹿影團(tuán)隊(duì)長期專注于技術(shù)攻關(guān),并取得了豐碩的成果,發(fā)表了多篇「干貨滿滿」的高水平論文。
Motion-I2V
今年1月剛剛發(fā)表的Motion-I2V論文提出了創(chuàng)新的圖生視頻框架,對(duì)于復(fù)雜圖像,也能生成一致且可控的視頻。
圖片
論文地址:https://arxiv.org/abs/2401.15977
之前的方法,例如AnimateDiff架構(gòu),通常會(huì)讓模型同時(shí)負(fù)責(zé)運(yùn)動(dòng)建模和視頻生成,直接學(xué)習(xí)從圖像到視頻的映射關(guān)系。
論文提出,這種合二為一的做法會(huì)導(dǎo)致細(xì)節(jié)上的動(dòng)作失真和時(shí)序不一致。Motion-I2V則選擇解耦這兩個(gè)過程。
第一階段使用基于擴(kuò)散模型的運(yùn)動(dòng)場預(yù)測器(motion field predictor),參考給定的圖像和文本提示,專注于像素級(jí)的運(yùn)動(dòng)軌跡推斷,預(yù)測參考幀和所有未來幀之間的運(yùn)動(dòng)場映射。
第二階段則提出了一種新穎的運(yùn)動(dòng)增強(qiáng)時(shí)序?qū)樱糜谠鰪?qiáng)模型中有限的一維時(shí)間注意力。這個(gè)操作可以擴(kuò)大時(shí)序感受域,減輕了同時(shí)學(xué)習(xí)時(shí)空模式的復(fù)雜性。
圖片
有了第一階段軌跡預(yù)測的指導(dǎo),第二階段的模型能更有效地將所給圖像的特征傳播至合成的視頻幀,加上稀疏的軌跡控制網(wǎng)絡(luò)Control-Net,Motion-I2V還可以支持用戶對(duì)運(yùn)動(dòng)軌跡和運(yùn)動(dòng)區(qū)域的精準(zhǔn)控制。
與僅依賴文本prompt相比,這種方法為I2V過程提供了更多的可控性。此外,第二階段的模型還天然地支持零樣本生成,以及視頻到視頻的轉(zhuǎn)換。
與現(xiàn)有方法相比,即使在運(yùn)動(dòng)幅度較大、視角變化的情況下,Motion-I2V也能生成更一致的視頻。
從demo中可以明顯看出,相比Pika、Gen-2等模型,Motion-I2V的確能模擬出更好的運(yùn)動(dòng)形態(tài),視覺細(xì)節(jié)也更逼真。
圖片
AnimateLCM
在文生視頻方面,今年2月發(fā)表的AnimateLCM模型公開了源代碼和預(yù)訓(xùn)練權(quán)重,僅需4個(gè)迭代步驟就能生成質(zhì)量優(yōu)秀的動(dòng)畫,因此受到了開源社區(qū)的廣泛歡迎,僅單月下載量就超過6萬。
圖片
倉庫地址:https://huggingface.co/wangfuyun/AnimateLCM
文章提出,擴(kuò)散模型的雖然有優(yōu)秀的生成效果,但其中迭代去噪過程包含30~50個(gè)步驟,計(jì)算量很大且比較費(fèi)時(shí),因而對(duì)實(shí)際應(yīng)用造成了限制。
團(tuán)隊(duì)從潛在一致性模型(Latent Consistency Model,LCM)中得到啟發(fā),旨在用最少步驟生成高質(zhì)量的逼真模型。
圖片
論文地址:https://arxiv.org/abs/2402.00769
AnimateLCM沒有直接在原始的視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練,而是從訓(xùn)練好的Stable Diffusion模型中蒸餾出先驗(yàn)知識(shí)。并且采用了解耦策略,將圖像生成和運(yùn)動(dòng)生成的先驗(yàn)分開,再對(duì)圖像模型進(jìn)行3D膨脹,能夠提高訓(xùn)練效率和生成質(zhì)量。
圖片
此外,為了讓AnimateLCM模型更好地適應(yīng)社區(qū)中被廣泛應(yīng)用的各種適配器(adapter),論文提出了一種不需要額外教師模型的「加速」策略來訓(xùn)練適配器。
實(shí)驗(yàn)證明,這種策略行之有效。搭配圖像條件適配器或布局條件適配器時(shí)都有很好的兼容性,不僅沒有損害采樣效率,還實(shí)現(xiàn)了模型功能的擴(kuò)展。
除了文生視頻和圖生視頻,AnimateLCM還能在零樣本情況下進(jìn)行高效的視頻風(fēng)格遷移,或者用于擴(kuò)展視頻長度,最多可達(dá)到基本長度的4倍,并且實(shí)現(xiàn)了近乎完美的一致性。
圖片
Phased Consistency Model
雖然AnimateLCM已經(jīng)取得了很好的效果,但開發(fā)團(tuán)隊(duì)并沒有就此止步,而是選擇在此基礎(chǔ)上進(jìn)一步探索。
在5月發(fā)表的最新論文中,作者指出,潛在一致性模型依舊存在一些本質(zhì)缺陷。論文逐個(gè)調(diào)查了這些缺陷背后的成因,并提出了改進(jìn)過的階段一致性模型(Phased Consistency Model,PCM),實(shí)現(xiàn)了顯著的提升。
圖片
論文地址:https://arxiv.org/abs/2405.18407
CM和LCM的設(shè)計(jì)局限主要體現(xiàn)在三方面:
1. 可控性:在圖像和視頻生成中,有一個(gè)名為CFG的重要參數(shù)(classifier-free guidance),控制文本提示對(duì)生成結(jié)果的影響程度。CFG值越高,圖像或視頻與提示的相關(guān)程度就越高,但也提高了畫面失真的可能性。
Stable Diffusion模型在較大的CFG值范圍內(nèi)(2~15)都能生成出較好的畫面,但LCM可接受的CFG值一般不能超過2,否則就會(huì)出現(xiàn)過度曝光問題。
無法提高CFG值,大大限制了文本提示對(duì)生成視頻的可控性。此外,LCM對(duì)負(fù)面提示也非常不敏感,比如下圖的第一個(gè)例子中,模型會(huì)「明目張膽」地?zé)o視提示要求,偏要生成一只帶黑色毛的狗。
2. 一致性:這兩種模型都只能使用隨機(jī)的多步采樣算法,因此即使采用同一個(gè)種子開始生成,在推理過程中也能看到各步驟之間明顯的不一致。
圖片
3. 效率:除了上面兩個(gè)硬傷之外,作者發(fā)現(xiàn),LCM在少于4步的少步驟推理中無法給出較好的生成結(jié)果,因而限制了采樣效率。
PCM的架構(gòu)設(shè)計(jì)就很好地解決了以上三個(gè)缺陷:
- PCM模型支持確定性采樣,能夠保持多個(gè)推理步驟中的圖像一致性
- PCM可以使用LCM中不可用的普通常微分方程求解器,代替原有的CFG增強(qiáng)的求解策略,從而讓模型能夠接受更高的CFG值
- 在隱空間中引入對(duì)抗性損失來確保圖像分布的一致性,大大提升了少步驟推理情況下的生成效果
實(shí)施了針對(duì)性的解決措施后,PCM在1~4步推理時(shí)生成的視頻效果相比LCM有了肉眼可見的顯著優(yōu)化。后續(xù)的消融實(shí)驗(yàn)也證明了PCM這些創(chuàng)新設(shè)計(jì)的必要性。
圖片
從MotionI2V到AnimateLCM,再到最新的PCM,鹿影團(tuán)隊(duì)逐步的迭代中不斷尋求突破和提升,實(shí)現(xiàn)了PCM的驚艷效果,模型的先進(jìn)性能從基準(zhǔn)測試的得分和橫向?qū)Ρ戎芯涂梢娨话摺?/span>
在單步推理生成圖像時(shí),PCM方法在2個(gè)數(shù)據(jù)集、5個(gè)指標(biāo)上幾乎都超過了Stable Diffusion-Turbo的得分,一致性得分的優(yōu)勢(shì)更加顯著,從SD-Turbo的0.71提升至0.81。
圖片
當(dāng)推理步驟從第1步逐漸增大到第16步時(shí),這種優(yōu)勢(shì)依舊明顯。多數(shù)情況下,使用普通ODE求解方法的更勝一籌。
圖片
使用CLIP分?jǐn)?shù)、光流估計(jì)、CLIP一致性三個(gè)指標(biāo)量化評(píng)估視頻生成質(zhì)量時(shí),PCM模型依舊在少步驟推理(≤4步)中取得了明顯的優(yōu)勢(shì),相比其他兩個(gè)Diffusion架的構(gòu)基線模型DDIM、DPM以及AnimateLCM都有大幅度提升。
圖片
值得一提的是,鹿影科技的研發(fā)并非一朝一夕之功,他們的技術(shù)創(chuàng)新持續(xù)數(shù)年并不斷迭代。
比如2022年提出的新穎架構(gòu)FlowFormer在當(dāng)時(shí)的Sintel光流基準(zhǔn)測試中排名第一,2023年發(fā)布的視頻光流估計(jì)框架VideoFlow在所有公共基準(zhǔn)測試上刷新了SOTA。
圖片
論文地址:https://arxiv.org/abs/2203.16194
圖片
論文地址:https://arxiv.org/abs/2303.08340
MPI Sintel是由華盛頓大學(xué)、佐治亞理工學(xué)院和馬克·普朗克研究所的多名研究人員共同開發(fā)的開源數(shù)據(jù)集,是目前光流算法領(lǐng)域使用最廣泛的基準(zhǔn)之一。其中的樣本很好地代表了自然場景和運(yùn)動(dòng),對(duì)當(dāng)前的方法極具挑戰(zhàn)性。
在最新的排行榜上,前五名中VideoFlow系列就占據(jù)了三個(gè)位置,其中ViCo_VideoFlow_MOF更是排名第一,足可見鹿影團(tuán)隊(duì)的技術(shù)沉淀和硬實(shí)力。
圖片
一直以來,我們高喊國漫崛起,但新作品發(fā)展遲緩,始終未能實(shí)現(xiàn)真正的突破。
未來,有了AI的入局,會(huì)讓動(dòng)漫制作的現(xiàn)狀和創(chuàng)意,得到極大地改善。
對(duì)于鹿影科技,接下來要做的是,讓科研成果迅速轉(zhuǎn)化,讓AI工具幫助原創(chuàng)動(dòng)漫實(shí)現(xiàn)指數(shù)級(jí)增長。