智譜版Sora開源爆火：狂攬4K Star，4090單卡運行，A6000可微調

作者：機器之心 2024-08-07 09:20:00

人工智能新聞

「清影」的出現被譽為是國內首個人人可用的 Sora。發布 6 天，「清影」生成視頻數就突破百萬量級。

國內視頻生成領域越來越卷了。剛剛，智譜 AI 宣布將與「清影」同源的視頻生成模型 ——CogVideoX 開源。短短幾個小時狂攬 4k 星標。

代碼倉庫：https://github.com/THUDM/CogVideo
模型下載：https://huggingface.co/THUDM/CogVideoX-2b
技術報告：https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

7 月 26 日，智譜 AI 正式發布視頻生成產品「清影」，得到大家廣泛好評。只要你有好的創意（幾個字到幾百個字），再加上一點點耐心（30 秒），「清影」就能生成 1440x960 清晰度的高精度視頻。

官宣即日起，清影上線清言 App，所有用戶都可以全方位體驗。想要嘗試的小伙伴可以去「智譜清言」上體驗「清影」生視頻的能力。

「清影」的出現被譽為是國內首個人人可用的 Sora。發布 6 天，「清影」生成視頻數就突破百萬量級。

PC 端訪問鏈接：https://chatglm.cn/
移動端訪問鏈接：https://chatglm.cn/download?fr=web_home

為何智譜 AI 開源模型如此爆火？要知道雖然現在視頻生成技術正逐步走向成熟，然而，仍未有一個開源的視頻生成模型，能夠滿足商業級應用的要求。大家熟悉的 Sora、Gen-3 等都是閉源的。CogVideoX 的開源就好比 OpenAI 將 Sora 背后的模型開源，對廣大研究者而言，意義重大。

CogVideoX 開源模型包含多個不同尺寸大小的模型，目前智譜 AI 開源 CogVideoX-2B，它在 FP-16 精度下的推理僅需 18GB 顯存，微調則只需要 40GB 顯存，這意味著單張 4090 顯卡即可進行推理，而單張 A6000 顯卡即可完成微調。

CogVideoX-2B 的提示詞上限為 226 個 token，視頻長度為 6 秒，幀率為 8 幀 / 秒，視頻分辨率為 720*480。智譜 AI 為視頻質量的提升預留了廣闊的空間，期待開發者們在提示詞優化、視頻長度、幀率、分辨率、場景微調以及圍繞視頻的各類功能開發上貢獻開源力量。

性能更強參數量更大的模型正在路上，敬請關注與期待。

模型

VAE

視頻數據因包含空間和時間信息，其數據量和計算負擔遠超圖像數據。為應對此挑戰，智譜提出了基于 3D 變分自編碼器（3D VAE）的視頻壓縮方法。3D VAE 通過三維卷積同時壓縮視頻的空間和時間維度，實現了更高的壓縮率和更好的重建質量。

模型結構包括編碼器、解碼器和潛在空間正則化器，通過四個階段的下采樣和上采樣實現壓縮。時間因果卷積確保了信息的因果性，減少了通信開銷。智譜采用上下文并行技術以適應大規模視頻處理。

實驗中，智譜 AI 發現大分辨率編碼易于泛化，而增加幀數則挑戰較大。因此，智譜分兩階段訓練模型：首先在較低幀率和小批量上訓練，然后通過上下文并行在更高幀率上進行微調。訓練損失函數結合了 L2 損失、LPIPS 感知損失和 3D 判別器的 GAN 損失。

專家 Transformer

智譜 AI 使用 VAE 的編碼器將視頻壓縮至潛在空間，然后將潛在空間分割成塊并展開成長的序列嵌入 z_vision。同時，智譜 AI 使用 T5，將文本輸入編碼為文本嵌入 z_text，然后將 z_text 和 z_vision 沿序列維度拼接。拼接后的嵌入被送入專家 Transformer 塊堆棧中處理。最后，反向拼接嵌入來恢復原始潛在空間形狀，并使用 VAE 進行解碼以重建視頻。

Data

視頻生成模型訓練需篩選高質量視頻數據，以學習真實世界動態。視頻可能因人工編輯或拍攝問題而不準確。智譜 AI 開發了負面標簽來識別和排除低質量視頻，如過度編輯、運動不連貫、質量低下、講座式、文本主導和屏幕噪音視頻。通過 video-llama 訓練的過濾器，智譜 AI 標注并篩選了 20,000 個視頻數據點。同時，計算光流和美學分數，動態調整閾值，確保生成視頻的質量。

視頻數據通常沒有文本描述，需要轉換為文本描述以供文本到視頻模型訓練。現有的視頻字幕數據集字幕較短，無法全面描述視頻內容。智譜 AI 提出了一種從圖像字幕生成視頻字幕的管道，并微調端到端的視頻字幕模型以獲得更密集的字幕。這種方法通過 Panda70M 模型生成簡短字幕，使用 CogView3 模型生成密集圖像字幕，然后使用 GPT-4 模型總結生成最終的短視頻。智譜 AI 還微調了一個基于 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型，使用密集字幕數據進行訓練，以加速視頻字幕生成過程。

性能

為了評估文本到視頻生成的質量，智譜 AI 使用了 VBench 中的多個指標，如人類動作、場景、動態程度等。智譜 AI 還使用了兩個額外的視頻評估工具：Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score，這些工具專注于視頻的動態特性。如下表所示。

智譜 AI 已經驗證了 scaling law 在視頻生成方面的有效性，未來會在不斷 scale up 數據規模和模型規模的同時，探究更具突破式創新的新型模型架構、更高效地壓縮視頻信息、更充分地融合文本和視頻內容。

最后，我們看看「清影」的效果。

提示語：「一艘精致的木制玩具船，桅桿和船帆雕刻精美，平穩地滑過一塊模仿海浪的藍色毛絨地毯。船體漆成濃郁的棕色，有小窗戶。地毯柔軟而有質感，提供了完美的背景，類似于廣闊的海洋。船周圍還有各種玩具和兒童用品，暗示著一個好玩的環境。這個場景捕捉到了童年的純真和想象力，玩具船的旅程象征著在異想天開的室內環境中無盡的冒險。」

提示語：「鏡頭跟隨一輛裝著黑色車頂行李架的白色老式 SUV，它在陡峭的山坡上沿著松樹環繞的土路加速行駛，輪胎揚起塵土，陽光照射在沿著土路飛馳的 SUV 身上，為場景投下溫暖的光芒。土路緩緩彎曲向遠方延伸，看不到其他汽車或車輛。道路兩旁的樹木都是紅杉，點綴著一片片綠植。從后面看，汽車輕松地順著彎道行駛，讓人覺得它正在崎嶇的地形上行駛。土路周圍是陡峭的山丘和山脈，頭頂是湛藍的天空，上面飄著薄薄的云彩。」

提示語：「一片白雪皚皚的森林景觀，一條土路穿過其中。道路兩旁是被白雪覆蓋的樹木，地面也被白雪覆蓋。陽光燦爛，營造出明亮而寧靜的氛圍。道路上空無一人，視頻中看不到任何人或動物。視頻的風格是自然風景拍攝，重點是白雪皚皚的森林之美和道路的寧靜。」

提示語：「雞肉和青椒烤肉串在燒烤架上燒烤的特寫。淺焦和淡煙。色彩鮮艷」

責任編輯：張燕妮來源：機器之心

視頻生成

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

智譜版Sora開源爆火：狂攬4K Star，4090單卡運行，A6000可微調

模型

性能