成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI視頻的DeepSeek時(shí)刻!開源13B模型生成提速30倍,5090跑出好萊塢特效

人工智能 新聞
最新開源模型LTXV-13B,免費(fèi)可商用、推理速度快、游戲顯卡就能跑,視覺效果也不錯(cuò)。要素都齊了,想不火都難。

AI視頻的DeepSeek時(shí)刻什么時(shí)候來?沒想到吧,這就來了。

最新開源模型LTXV-13B,免費(fèi)可商用、推理速度快、游戲顯卡就能跑,視覺效果也不錯(cuò)。要素都齊了,想不火都難。

圖片

從官方透露的信息看,新模型在速度質(zhì)量控制三個(gè)方面有所提升。

生成速度——同類產(chǎn)品的30倍,提出想法可以獲得接近實(shí)時(shí)的反饋。

視頻質(zhì)量——眼見為實(shí),請(qǐng)看VCR。

可控制性——支持逐幀控制,能讓你按照自己想法來打造視頻,創(chuàng)作自由度直接拉滿。

這個(gè)13B參數(shù)的模型,官方證實(shí)在24G顯存的4090/5090上就能跑,也難怪網(wǎng)友紛紛為之瘋狂。

圖片

大家曬出的“買家秀”,效果比官方賣家秀看起來也毫不縮水:

開源視頻生成新標(biāo)桿

LTX-Video支持文本轉(zhuǎn)圖像、圖像轉(zhuǎn)視頻、基于關(guān)鍵幀的動(dòng)畫、視頻擴(kuò)展(正向和反向)、視頻轉(zhuǎn)視頻,以及上述所有這些功能的任意排列組合。

  • 視覺效果爆炸

LTXV-13B擁有超130億個(gè)參數(shù),即使在快速復(fù)雜的場(chǎng)景,也能提供更流暢的運(yùn)動(dòng)、更少的偽影和更清晰的視覺效果。

那么下面再直觀感受一下效果。

Prompt:一位有著棕色長(zhǎng)發(fā)和白皙皮膚的女人對(duì)著另一位女人微笑……一位有著棕色長(zhǎng)發(fā)、膚色白皙的女子正對(duì)著另一位有著金色長(zhǎng)發(fā)的女子微笑。這位棕色頭發(fā)的女子身穿黑色夾克,右臉頰上長(zhǎng)著一顆幾乎難以察覺的小痣。鏡頭角度為特寫鏡頭,聚焦于這位棕色頭發(fā)女子的臉部。光線溫暖自然,似乎是落日的余暉,在場(chǎng)景中投射出柔和的光芒。這幅場(chǎng)景似乎是真實(shí)拍攝的。

還可以不斷地調(diào)整拍攝角度,營(yíng)造出非常自然的航拍效果。

Prompt:海浪沖擊著海岸線上嶙峋的巖石……海浪拍打著海岸線上嶙峋的巖石,濺起陣陣?yán)嘶ār石呈深灰色,邊緣鋒利,裂縫深邃。海水清澈碧綠,浪花拍打巖石的地方泛起白色的泡沫。天空呈淺灰色,幾朵白云點(diǎn)綴在地平線上。

這下誰還能分清什么是現(xiàn)實(shí)什么又是AI生成的呢?

但記得要在生成之前放大圖片,不要像下面這位網(wǎng)友一樣:

圖片

  • 生成速度提升

相較于同類產(chǎn)品,LTXV-13B生成速度領(lǐng)先近30倍,但質(zhì)量可是一點(diǎn)都沒打折扣,相當(dāng)適合快速迭代、實(shí)時(shí)反饋和大規(guī)模生產(chǎn)場(chǎng)景。

不僅效率大幅度提升,成本也跟著降低,用消費(fèi)級(jí)GPU就能搞定,也可以選擇官方平臺(tái)LTX Studio云體驗(yàn)。

  • 精細(xì)創(chuàng)意控制

此外,LTXV還有強(qiáng)大的創(chuàng)意控制功能,提供多關(guān)鍵幀調(diào)節(jié)(起始幀和結(jié)束幀)、攝像機(jī)控制(推拉、變焦、搖臂、軌道等)、面部表情控制等。

圖片

LTXV-Video:實(shí)時(shí)視頻潛空間擴(kuò)散模型

官方透露,LTX Video做到更流暢的運(yùn)動(dòng)和更一致的幀間連貫性,關(guān)鍵在于多尺度渲染技術(shù),即同時(shí)以多種空間分辨率分析場(chǎng)景,保留精細(xì)細(xì)節(jié)的同時(shí)理解大規(guī)模結(jié)構(gòu)。

圖片

如下面的例子,可以看到從左到右人物臉上的細(xì)節(jié)越來越豐富。

從團(tuán)隊(duì)幾個(gè)月前發(fā)布的2B參數(shù)模型論文也可以看出,訓(xùn)練階段就同時(shí)使用了多種分辨率和時(shí)長(zhǎng)組合的數(shù)據(jù)。

訓(xùn)練時(shí)通過調(diào)整原始視頻大小,使輸入樣本包含大致相同數(shù)量的token,并采用隨機(jī)丟棄token的策略,避免復(fù)雜的token填充或打包操作,保持?jǐn)?shù)據(jù)多樣性。

圖片

上一代2B參數(shù)的模型就以速度和效率見長(zhǎng),能夠以超過實(shí)時(shí)的速度生成高質(zhì)量視頻,在H100 GPU上僅需2秒就能生成5秒、24幀每秒、768×512分辨率的視頻。

圖片

優(yōu)化生成速度的秘訣在于一種整體式Latent Diffusion方法,將Video-VAE和去噪Transformer的任務(wù)無縫融合,在它們之間共享去噪目標(biāo)。

圖片

另外Video VAE部分對(duì)時(shí)空維度進(jìn)行32×32×8的下采樣壓縮,將高分辨率的視頻數(shù)據(jù)轉(zhuǎn)換到低分辨率的潛在空間進(jìn)行處理,通過空間和時(shí)間壓縮來降低冗余。

它實(shí)現(xiàn)了1:192的壓縮比,超過當(dāng)時(shí)的主流開源模型如MovieGen、CogVideoX等的1:48或1:96的壓縮比。

為實(shí)現(xiàn)這種高壓縮率,團(tuán)隊(duì)將圖像塊化操作(patchify)從Transformer的輸入移到了VAE的輸入,使每個(gè)token能夠表示更多的像素信息,幫助Transformer計(jì)算全時(shí)空自注意力(full spatiotemporal self-attention)。

圖片

高壓縮率雖好,但會(huì)限制對(duì)細(xì)節(jié)的表示能力。為了解決這個(gè)問題,LTX-Video還采取了多種新策略。

在訓(xùn)練Video VAE時(shí)引入GAN,減少高壓縮率下L2 loss產(chǎn)生的模糊問題。

為此提出改進(jìn)的Reconstruction GAN,判別器同時(shí)接收原始樣本和重建樣本,通過判斷哪個(gè)是原始的、哪個(gè)是重建的,簡(jiǎn)化了判別器的任務(wù),提高了其引導(dǎo)生成器的能力,使生成的視頻在保持與原始樣本相似性的同時(shí),能更有效地平衡保真度和感知質(zhì)量。

圖片

此外還有一些小的改動(dòng)如下:

  • 多層噪聲注入:受StyleGAN啟發(fā),在VAE解碼器的多個(gè)層注入噪聲,允許生成更多樣化的高頻細(xì)節(jié)。
  • 統(tǒng)一對(duì)數(shù)方差:使用寬潛空間(大量channels)時(shí),標(biāo)準(zhǔn)KL損失會(huì)導(dǎo)致不均勻的利用。團(tuán)隊(duì)使用了所有潛通道共享的單一預(yù)測(cè)對(duì)數(shù)方差,均勻分配KL損失的影響。
  • 視頻DWT損失:引入了spatio-temporal Discrete Wavelet Transform (DWT) loss,確保高頻細(xì)節(jié)的重建。

LTX-Video同時(shí)支持文本生成視頻和圖像生成視頻兩種能力。

對(duì)于文本條件生成,團(tuán)隊(duì)使用了預(yù)訓(xùn)練的T5-XXL文本編碼器生成初始文本嵌入,并采用了交叉注意力機(jī)制,而非MM-DiT方法。

而對(duì)于圖像條件生成,他們擴(kuò)展了Open-Sora的方法,利用擴(kuò)散時(shí)間步作為條件指示器,允許無縫條件化視頻的任何部分。

這種方法不需要特殊的tokens或?qū)iT為圖像到視頻任務(wù)訓(xùn)練的模型,大大簡(jiǎn)化了流程。

圖片

2013年成立的老牌團(tuán)隊(duì)

LTX-Video開發(fā)團(tuán)隊(duì)Lightricks成立于2013年,前大模型時(shí)代有兩個(gè)招牌產(chǎn)品,為美顏相機(jī)應(yīng)用Facetune和視頻剪輯應(yīng)用Videoleap,在蘋果商店至今仍排得上號(hào)。

圖片

2023轉(zhuǎn)型AI后,推出LTX Studio視頻生成平臺(tái),支持逐鏡頭地構(gòu)建視頻和時(shí)間線編輯,可以精細(xì)控制每個(gè)場(chǎng)景,并保持角色一致性,主要面向影視、廣告和個(gè)人視頻創(chuàng)作者。

飛書文檔 - 圖片

除開源模型外,Lightricks還提供配套的訓(xùn)練工具,支持微調(diào)、預(yù)處理數(shù)據(jù)集、為視頻添加字幕、分割場(chǎng)景等使用功能。

LTX Video 13B模型推出后開源社區(qū)也非常感興趣,已經(jīng)有人在一天之內(nèi)就為其訓(xùn)練好了LoRA,讓不同類型角色的眼睛都能冒電光特效,引起網(wǎng)友圍觀。

感興趣(且趁24GB顯存)的朋友們,可以下載起來了。

Github:
https://github.com/Lightricks/LTX-Video

論文:
https://arxiv.org/pdf/2501.00103

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-06-03 10:43:34

2025-04-15 09:08:51

系統(tǒng)數(shù)據(jù)模型

2023-10-31 10:11:50

昆侖萬維大模型

2023-10-13 19:58:33

Mistral7B模型

2023-10-21 12:42:06

數(shù)據(jù)模型

2024-02-22 10:09:00

開源模型

2023-09-12 14:45:18

2023-11-18 09:37:49

2018-03-28 14:10:10

GoPython代碼

2024-03-27 09:09:57

模型AI開源

2024-07-09 00:00:06

RAG參數(shù)模型

2015-04-30 10:25:55

2025-03-13 12:39:22

2021-07-06 10:21:55

Facebook AI開源

2025-02-24 10:03:21

2025-02-18 13:52:02

2022-07-28 14:18:09

深度學(xué)習(xí)模型計(jì)算

2025-04-07 02:25:00

DeepSeek模型訓(xùn)練GRPO

2024-12-18 15:02:48

2021-09-06 14:57:24

AI 數(shù)據(jù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 午夜久久久 | 色播久久久| 乳色吐息在线观看 | 天天色影视综合 | 亚洲国产片 | 99精品福利视频 | 欧美激情亚洲激情 | 超碰人人人人 | 久久九七 | 香蕉久久a毛片 | 成人动漫一区二区 | 在线看av网址 | 亚洲一区二区三区免费在线观看 | 一区二区久久 | 黄色成人免费在线观看 | av官网在线 | 精品一区视频 | 欧美性生交大片免费 | 亚洲人成人一区二区在线观看 | 天堂av中文 | 一起操网站| 97av视频| 五月天婷婷久久 | 欧美精品久久久久久久久久 | 亚洲精品国产成人 | 亚洲电影一区二区三区 | 五月天婷婷综合 | 美女一级a毛片免费观看97 | 久久三级影院 | 一区二区av | 欧美成人hd | 欧美 日韩 国产 成人 在线 91 | 国产精品成人久久久久 | 欧美日韩成人影院 | 亚洲精品一区在线 | 日韩高清中文字幕 | 精品一区欧美 | h视频免费在线观看 | 久久av一区二区三区 | 在线中文视频 | 黑人中文字幕一区二区三区 |