智譜版Sora開源爆火:狂攬4K Star,4090單卡運行,A6000可微調
國內視頻生成領域越來越卷了。剛剛,智譜 AI 宣布將與「清影」同源的視頻生成模型 ——CogVideoX 開源。短短幾個小時狂攬 4k 星標。
- 代碼倉庫:https://github.com/THUDM/CogVideo
- 模型下載:https://huggingface.co/THUDM/CogVideoX-2b
- 技術報告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
7 月 26 日,智譜 AI 正式發布視頻生成產品「清影」,得到大家廣泛好評。只要你有好的創意(幾個字到幾百個字),再加上一點點耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度視頻。
官宣即日起,清影上線清言 App,所有用戶都可以全方位體驗。想要嘗試的小伙伴可以去「智譜清言」上體驗「清影」生視頻的能力。
「清影」的出現被譽為是國內首個人人可用的 Sora。發布 6 天,「清影」生成視頻數就突破百萬量級。
- PC 端訪問鏈接:https://chatglm.cn/
- 移動端訪問鏈接:https://chatglm.cn/download?fr=web_home
為何智譜 AI 開源模型如此爆火?要知道雖然現在視頻生成技術正逐步走向成熟,然而,仍未有一個開源的視頻生成模型,能夠滿足商業級應用的要求。大家熟悉的 Sora、Gen-3 等都是閉源的。CogVideoX 的開源就好比 OpenAI 將 Sora 背后的模型開源,對廣大研究者而言,意義重大。
CogVideoX 開源模型包含多個不同尺寸大小的模型,目前智譜 AI 開源 CogVideoX-2B,它在 FP-16 精度下的推理僅需 18GB 顯存,微調則只需要 40GB 顯存,這意味著單張 4090 顯卡即可進行推理,而單張 A6000 顯卡即可完成微調。
CogVideoX-2B 的提示詞上限為 226 個 token,視頻長度為 6 秒,幀率為 8 幀 / 秒,視頻分辨率為 720*480。智譜 AI 為視頻質量的提升預留了廣闊的空間,期待開發者們在提示詞優化、視頻長度、幀率、分辨率、場景微調以及圍繞視頻的各類功能開發上貢獻開源力量。
性能更強參數量更大的模型正在路上,敬請關注與期待。
模型
VAE
視頻數據因包含空間和時間信息,其數據量和計算負擔遠超圖像數據。為應對此挑戰,智譜提出了基于 3D 變分自編碼器(3D VAE)的視頻壓縮方法。3D VAE 通過三維卷積同時壓縮視頻的空間和時間維度,實現了更高的壓縮率和更好的重建質量。
模型結構包括編碼器、解碼器和潛在空間正則化器,通過四個階段的下采樣和上采樣實現壓縮。時間因果卷積確保了信息的因果性,減少了通信開銷。智譜采用上下文并行技術以適應大規模視頻處理。
實驗中,智譜 AI 發現大分辨率編碼易于泛化,而增加幀數則挑戰較大。因此,智譜分兩階段訓練模型:首先在較低幀率和小批量上訓練,然后通過上下文并行在更高幀率上進行微調。訓練損失函數結合了 L2 損失、LPIPS 感知損失和 3D 判別器的 GAN 損失。
專家 Transformer
智譜 AI 使用 VAE 的編碼器將視頻壓縮至潛在空間,然后將潛在空間分割成塊并展開成長的序列嵌入 z_vision。同時,智譜 AI 使用 T5,將文本輸入編碼為文本嵌入 z_text,然后將 z_text 和 z_vision 沿序列維度拼接。拼接后的嵌入被送入專家 Transformer 塊堆棧中處理。最后,反向拼接嵌入來恢復原始潛在空間形狀,并使用 VAE 進行解碼以重建視頻。
Data
視頻生成模型訓練需篩選高質量視頻數據,以學習真實世界動態。視頻可能因人工編輯或拍攝問題而不準確。智譜 AI 開發了負面標簽來識別和排除低質量視頻,如過度編輯、運動不連貫、質量低下、講座式、文本主導和屏幕噪音視頻。通過 video-llama 訓練的過濾器,智譜 AI 標注并篩選了 20,000 個視頻數據點。同時,計算光流和美學分數,動態調整閾值,確保生成視頻的質量。
視頻數據通常沒有文本描述,需要轉換為文本描述以供文本到視頻模型訓練。現有的視頻字幕數據集字幕較短,無法全面描述視頻內容。智譜 AI 提出了一種從圖像字幕生成視頻字幕的管道,并微調端到端的視頻字幕模型以獲得更密集的字幕。這種方法通過 Panda70M 模型生成簡短字幕,使用 CogView3 模型生成密集圖像字幕,然后使用 GPT-4 模型總結生成最終的短視頻。智譜 AI 還微調了一個基于 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型,使用密集字幕數據進行訓練,以加速視頻字幕生成過程。
性能
為了評估文本到視頻生成的質量,智譜 AI 使用了 VBench 中的多個指標,如人類動作、場景、動態程度等。智譜 AI 還使用了兩個額外的視頻評估工具:Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score,這些工具專注于視頻的動態特性。如下表所示。
智譜 AI 已經驗證了 scaling law 在視頻生成方面的有效性,未來會在不斷 scale up 數據規模和模型規模的同時,探究更具突破式創新的新型模型架構、更高效地壓縮視頻信息、更充分地融合文本和視頻內容。
最后,我們看看「清影」的效果。
提示語:「一艘精致的木制玩具船,桅桿和船帆雕刻精美,平穩地滑過一塊模仿海浪的藍色毛絨地毯。船體漆成濃郁的棕色,有小窗戶。地毯柔軟而有質感,提供了完美的背景,類似于廣闊的海洋。船周圍還有各種玩具和兒童用品,暗示著一個好玩的環境。這個場景捕捉到了童年的純真和想象力,玩具船的旅程象征著在異想天開的室內環境中無盡的冒險。」
提示語:「鏡頭跟隨一輛裝著黑色車頂行李架的白色老式 SUV,它在陡峭的山坡上沿著松樹環繞的土路加速行駛,輪胎揚起塵土,陽光照射在沿著土路飛馳的 SUV 身上,為場景投下溫暖的光芒。土路緩緩彎曲向遠方延伸,看不到其他汽車或車輛。道路兩旁的樹木都是紅杉,點綴著一片片綠植。從后面看,汽車輕松地順著彎道行駛,讓人覺得它正在崎嶇的地形上行駛。土路周圍是陡峭的山丘和山脈,頭頂是湛藍的天空,上面飄著薄薄的云彩。」
提示語:「一片白雪皚皚的森林景觀,一條土路穿過其中。道路兩旁是被白雪覆蓋的樹木,地面也被白雪覆蓋。陽光燦爛,營造出明亮而寧靜的氛圍。道路上空無一人,視頻中看不到任何人或動物。視頻的風格是自然風景拍攝,重點是白雪皚皚的森林之美和道路的寧靜。」
提示語:「雞肉和青椒烤肉串在燒烤架上燒烤的特寫。淺焦和淡煙。色彩鮮艷」