微軟發(fā)布Mora視頻模型,吊打Sora?
微軟與理海大學(xué)合作開(kāi)發(fā)的多智能體視頻生成框架Mora,近日正式亮相,標(biāo)志著人工智能在視頻創(chuàng)造領(lǐng)域的一次重大突破。Mora的問(wèn)世不僅是對(duì)閉源的Sora模型的成功復(fù)現(xiàn)和擴(kuò)展,更是向我們展示了AI技術(shù)向“去中心化”發(fā)展的可能性,為未來(lái)的AI系統(tǒng)架構(gòu)、管理和倫理問(wèn)題的討論打開(kāi)了新的篇章。
體驗(yàn)網(wǎng)址:https://github.com/lichao-sun/Mora
Mora框架的核心是整合了多個(gè)先進(jìn)視覺(jué)AI智能體,模擬了Sora展現(xiàn)的通用視頻生成能力,包括文本到視頻生成、基于文本的圖像到視頻生成、擴(kuò)展已生成視頻、視頻到視頻編輯、視頻拼接以及模擬數(shù)字世界等任務(wù)。實(shí)驗(yàn)結(jié)果顯示,Mora在這些任務(wù)中的表現(xiàn)已經(jīng)接近了Sora的水平,在文本到視頻生成任務(wù)中,Mora的表現(xiàn)更是超越了現(xiàn)有的開(kāi)源模型,位列所有模型中的第二名,這一成績(jī)足以證明Mora在視頻生成領(lǐng)域的潛力。
Mora的設(shè)計(jì)思想,即將視頻生成過(guò)程分解為多個(gè)子任務(wù),并為每個(gè)任務(wù)指派專門(mén)的智能體,這種多智能體協(xié)同工作的方式,提供了出色的編輯靈活性和視覺(jué)真實(shí)度,打開(kāi)了視頻創(chuàng)作的新視角。特別值得一提的是,Mora在推理過(guò)程中生成的中間圖像或視頻,保持了文本到圖像模型中的視覺(jué)多樣性、風(fēng)格和質(zhì)量,增強(qiáng)了編輯功能。Mora框架中的智能體可以分為五種基本類型,涵蓋了從文本處理到視頻拼接的整個(gè)視頻生成流程,展現(xiàn)了從文本到視頻的全流程生成能力。
效果表現(xiàn)
在基于文本條件的圖像生成任務(wù)中,盡管Sora的表現(xiàn)無(wú)疑是最完美的,但Mora的結(jié)果與之相差甚微。
在視頻到視頻編輯以及視頻拼接任務(wù)中,Mora同樣展現(xiàn)出了接近Sora的實(shí)力。它不僅能夠保持視覺(jué)和風(fēng)格的連貫性,還能實(shí)現(xiàn)將不同視頻進(jìn)行無(wú)縫拼接。
在模擬數(shù)字世界的任務(wù)中,Mora同樣展現(xiàn)出了創(chuàng)建虛擬環(huán)境世界的能力。盡管在質(zhì)量方面與Sora相比仍有一定差距,但這一成果無(wú)疑為Mora在虛擬環(huán)境創(chuàng)建領(lǐng)域的應(yīng)用奠定了基礎(chǔ)。
總而言之,Mora的問(wèn)世是視頻生成技術(shù)領(lǐng)域的一次重大進(jìn)展,它不僅推動(dòng)了視頻生成技術(shù)的發(fā)展,也為未來(lái)的AI研究和應(yīng)用探索了新的路徑。隨著技術(shù)的不斷進(jìn)步和研究的深入,我們有理由相信,Mora在視頻生成領(lǐng)域的作用將越來(lái)越大,為我們打開(kāi)通往更加豐富多彩數(shù)字世界的大門(mén)。
本文轉(zhuǎn)載自 ??百川智能AI??,作者: glu
