4090單卡可跑，6秒直出電影級畫質，智譜版Sora正式開源！

duhorse

發布于 2024-8-7 09:35

瀏覽

0收藏

7月26日，智譜發布AI 生視頻產品「清影」，30秒將任意文圖生成視頻，并上線在他們的AI助手「智譜清言」上，被譽為是國內首個人人可用的Sora。

就在發布6天后，「清影」生成到視頻數便已突破了百萬量級。

今天，智譜AI宣布將與「清影」同源的視頻生成模型——CogVideoX正式開源。

團隊表示，希望每一位開發者、每一家企業都能自由地開發屬于自己的視頻生成模型，從而推動整個行業的快速迭代與創新發展。

4090單卡可跑，6秒直出電影級畫質，智譜版Sora正式開源！-AI.x社區

打開AI助手「智譜清言」即可體驗

隨著大型模型技術的持續發展，視頻生成技術正逐步走向成熟。

以Sora、Gen-3等閉源視頻生成模型為代表的技術，正在重新定義行業的未來格局。

然而，截至目前，仍未有一個開源的視頻生成模型，能夠滿足商業級應用的要求。

CogVideoX系列包含多個不同尺寸大小的開源模型。

目前已經開源的CogVideoX-2B，提示詞上限為226個token，視頻長度為6秒，幀率為8幀/秒，視頻分辨率為720×480。

它在FP-16精度下的推理僅需18GB顯存，微調則只需要40GB顯存。這意味著單張4090顯卡即可進行推理，而單張A6000顯卡即可完成微調。

4090單卡可跑，6秒直出電影級畫質，智譜版Sora正式開源！-AI.x社區

代碼倉庫：https://github.com/THUDM/CogVideo

模型下載：https://huggingface.co/THUDM/CogVideoX-2b

技術報告：???https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf??

目前，該項目已在GitHub上斬獲了3.8k星。

4090單卡可跑，6秒直出電影級畫質，智譜版Sora正式開源！-AI.x社區

下面，我們就來看看CogVideoX生成的效果到底如何？

一個木制玩具船，在模擬海浪的藍色地毯上航行，宛如在真的海水行駛一般。

4090單卡可跑，6秒直出電影級畫質，智譜版Sora正式開源！-AI.x社區

A detailed wooden toy ship with intricately carved masts and sails is seen gliding smoothly over a plush, blue carpet that mimics the waves of the sea. The ship's hull is painted a rich brown, with tiny windows. The carpet, soft and textured, provides a perfect backdrop, resembling an oceanic expanse. Surrounding the ship are various other toys and children's items, hinting at a playful environment. The scene captures the innocence and imagination of childhood, with the toy ship's journey symbolizing endless adventures in a whimsical, indoor setting.

一輛白色越野車沿著松樹環繞的陡峭土路快速行駛，可以看到車尾的塵土飛揚。

其實這個場景對于AI來說，相對較難，只有正確理解了物理世界，才不會讓生成的塵土在車前揚起。

4090單卡可跑，6秒直出電影級畫質，智譜版Sora正式開源！-AI.x社區

The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.

下面這幅在戰亂中，人物表情細節的刻畫，細膩豐富。

4090單卡可跑，6秒直出電影級畫質，智譜版Sora正式開源！-AI.x社區

In the haunting backdrop of a war-torn city, where ruins and crumbled walls tell a story of devastation, a poignant close-up frames a young girl. Her face is smudged with ash, a silent testament to the chaos around her. Her eyes glistening with a mix of sorrow and resilience, capturing the raw emotion of a world that has lost its innocence to the ravages of conflict.

針對更宏觀的場景，CogVideoX也能將白雪皚皚的森林、無人穿梭的寧靜小路，生動地描繪出來。

4090單卡可跑，6秒直出電影級畫質，智譜版Sora正式開源！-AI.x社區

A snowy forest landscape with a dirt road running through it. The road is flanked by trees covered in snow, and the ground is also covered in snow. The sun is shining, creating a bright and serene atmosphere. The road appears to be empty, and there are no people or animals visible in the video. The style of the video is a natural landscape shot, with a focus on the beauty of the snowy forest and the peacefulness of the road.

舌尖上的美食，還得看國產AI視頻模型。燒烤架上烤制的雞肉和青椒烤串，讓人看了垂涎欲滴。

4090單卡可跑，6秒直出電影級畫質，智譜版Sora正式開源！-AI.x社區

Extreme close-up of chicken and green pepper kebabs grilling on a barbeque with flames. Shallow focus and light smoke. vivid colours

CogVideoX

見識到CogVideoX驚艷視頻生成能力，你一定非常好奇這是怎么做到的？

4090單卡可跑，6秒直出電影級畫質，智譜版Sora正式開源！-AI.x社區

VAE

視頻數據因包含空間和時間信息，其數據量和計算負擔遠超圖像數據。

為應對此挑戰，團隊提出了基于3D變分自編碼器（3D VAE）的視頻壓縮方法。

其中，3D VAE通過三維卷積同時壓縮視頻的空間和時間維度，實現了更高的壓縮率和更好的重建質量。

4090單卡可跑，6秒直出電影級畫質，智譜版Sora正式開源！-AI.x社區

模型結構包括編碼器、解碼器和潛在空間正則化器，并通過四個階段的下采樣和上采樣實現壓縮。

時間因果卷積確保了信息的因果性，減少了通信開銷。而上下文并行技術的采用，則可以適應大規模視頻處理。

實驗中，團隊發現大分辨率編碼易于泛化，而增加幀數則挑戰較大。

因此，可將分兩階段訓練模型：

- 首先在較低幀率和小批量上訓練；

- 然后通過上下文并行在更高幀率上進行微調。

訓練損失函數結合了L2損失、LPIPS感知損失和3D判別器的GAN損失。

專家Transformer

團隊使用VAE的編碼器將視頻壓縮至潛在空間，然后將潛在空間分割成塊并展開成長的序列嵌入z_vision。

同時，使用T5將文本輸入編碼為文本嵌入z_text，然后將z_text和z_vision沿序列維度拼接。拼接后的嵌入被送入專家Transformer塊堆棧中處理。

最后，反向拼接嵌入來恢復原始潛在空間形狀，并使用VAE進行解碼以重建視頻。

4090單卡可跑，6秒直出電影級畫質，智譜版Sora正式開源！-AI.x社區

數據

視頻生成模型訓練需篩選高質量視頻數據，以學習真實世界動態。但視頻可能因人工編輯或拍攝問題而不準確。

為此，團隊開發了負面標簽來識別和排除低質量視頻，如過度編輯、運動不連貫、質量低下、講座式、文本主導和屏幕噪音視頻。

通過video-llama訓練的過濾器，團隊標注并篩選了20,000個視頻數據點。同時，計算光流和美學分數，動態調整閾值，確保生成視頻的質量。

視頻數據通常沒有文本描述，需要轉換為文本描述以供文本到視頻模型訓練。然而，現有的視頻字幕數據集字幕較短，無法全面描述視頻內容。

為了解決一問題，團隊提出了一種從圖像字幕生成視頻字幕的管道，并微調端到端的視頻字幕模型以獲得更密集的字幕。

這種方法通過Panda70M模型生成簡短字幕，使用CogView3模型生成密集圖像字幕，然后使用GPT-4模型總結生成最終的短視頻。

除此之外，團隊還微調了一個基于CogVLM2-Video和Llama 3的CogVLM2-Caption模型，使用密集字幕數據進行訓練，以加速視頻字幕生成過程。

4090單卡可跑，6秒直出電影級畫質，智譜版Sora正式開源！-AI.x社區

性能

為了評估文本到視頻生成的質量，團隊使用了VBench中的多個指標，如人類動作、場景、動態程度等。并排除了不適用于評估需求的指標，例如顏色指標，因為它可能誤導視頻生成模型。

此外，團隊還使用了兩個額外的視頻評估工具：Devil中的Dynamic Quality和Chrono-Magic中的GPT4o-MT Score，這些工具專注于視頻的動態特性。

4090單卡可跑，6秒直出電影級畫質，智譜版Sora正式開源！-AI.x社區

值得一提的是，團隊已經驗證了scaling law在視頻生成方面的有效性！

未來會在不斷scale up數據規模和模型規模的同時，探究更具突破式創新的新型模型架構、更高效地壓縮視頻信息、更充分地融合文本和視頻內容。

團隊表示，目前的視頻質量還有很廣闊的提升空間，期待開發者們在提示詞優化、視頻長度、幀率、分辨率、場景微調以及圍繞視頻的各類功能開發上貢獻開源力量。

此外，性能更強參數量更大的模型正在路上，敬請關注與期待。

本文轉自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/XwIdZY_7RC3ySAIQicL_Tg??

標簽

視頻

生成

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

4090單卡可跑，6秒直出電影級畫質，智譜版Sora正式開源！

打開AI助手「智譜清言」即可體驗

CogVideoX

VAE

專家Transformer

數據

目錄