RTX 4090可跑、完全開源,最快視頻生成模型問世,實測一言難盡
這個周末,押注開源人工智能視頻的初創(chuàng)公司 Lightricks,有了重大動作。
該公司推出了最快的視頻生成模型 LTX-Video,它是首個可以實時生成高質(zhì)量視頻的 DiT 視頻生成模型。
在一塊 Nvidia H100 上,LTX-Video 只需要 4 秒就能生成 5 秒時長的 24FPS 視頻,分辨率 768x512,可以說視頻生成速度比視頻觀看速度還要快。同時 LTX-Video 完全開源,包括代碼庫和模型權(quán)重。
LTX-Video共同作者和負責(zé)人。
「有史以來最快的文生視頻模型誕生了。」
首先來看幾個視頻生成官方 Demo。
目前,用戶可以在 GitHub Hugging Face 上體驗預(yù)覽版 LTX Video。完整版發(fā)布之后將免費供個人和商業(yè)使用,并即將集成到 LTX Studio 中。
項目地址:https://github.com/Lightricks/LTX-Video
我們嘗試生成了兩個視頻,比如「a dog chasing a boy who is skateboarding」。
再比如「a girl with an umbrella standing on a bridge, and a handsome man walking towards her」。
試用地址:https://huggingface.co/spaces/akhaliq/anychat
接著來了解一下 LTX-Video 的細節(jié)。
LTX Video 是一個文本到視頻和圖像到視頻模型,能夠以驚人的速度和精度實時創(chuàng)建動態(tài)視頻。該模型可以在 RTX 4090 等消費級 GPU 上本地運行,無需專用設(shè)備即可以低成本地生成高質(zhì)量視頻。
另外,LTX Video 基于開發(fā)人員的反饋和真實世界用例構(gòu)建,可以提供自然逼真的結(jié)果。該模型做了高級定制化設(shè)計,可以流暢地集成各種外部工具,從而輕松地增強工作流。
在生成過程中,LTX Video 最大程度減少了閃爍和偽影,創(chuàng)建出具有出色細節(jié)和清晰度的高保真視頻。每一幀都在精心制作下呈現(xiàn)清晰銳利、栩栩如生,符合用戶的視覺效果。
最后,LTX Video 實現(xiàn)了無縫的跨幀一致性,從角色到環(huán)境,可以保持連貫的視覺效果,將每個細節(jié)整合在一起。
未來,LTX-Video 還會有技術(shù)報告放出。