成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

智譜版Sora開源爆火:狂攬4K Star,4090單卡運行,A6000可微調

人工智能 新聞
「清影」的出現被譽為是國內首個人人可用的 Sora。發布 6 天,「清影」生成視頻數就突破百萬量級。

國內視頻生成領域越來越卷了。剛剛,智譜 AI 宣布將與「清影」同源的視頻生成模型 ——CogVideoX 開源。短短幾個小時狂攬 4k 星標。

圖片

  • 代碼倉庫:https://github.com/THUDM/CogVideo
  • 模型下載:https://huggingface.co/THUDM/CogVideoX-2b
  • 技術報告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

7 月 26 日,智譜 AI 正式發布視頻生成產品「清影」,得到大家廣泛好評。只要你有好的創意(幾個字到幾百個字),再加上一點點耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度視頻。

官宣即日起,清影上線清言 App,所有用戶都可以全方位體驗。想要嘗試的小伙伴可以去「智譜清言」上體驗「清影」生視頻的能力。

「清影」的出現被譽為是國內首個人人可用的 Sora。發布 6 天,「清影」生成視頻數就突破百萬量級。

  • PC 端訪問鏈接:https://chatglm.cn/
  • 移動端訪問鏈接:https://chatglm.cn/download?fr=web_home

為何智譜 AI 開源模型如此爆火?要知道雖然現在視頻生成技術正逐步走向成熟,然而,仍未有一個開源的視頻生成模型,能夠滿足商業級應用的要求。大家熟悉的 Sora、Gen-3 等都是閉源的。CogVideoX 的開源就好比 OpenAI 將 Sora 背后的模型開源,對廣大研究者而言,意義重大。

CogVideoX 開源模型包含多個不同尺寸大小的模型,目前智譜 AI 開源 CogVideoX-2B,它在 FP-16 精度下的推理僅需 18GB 顯存,微調則只需要 40GB 顯存,這意味著單張 4090 顯卡即可進行推理,而單張 A6000 顯卡即可完成微調。

CogVideoX-2B 的提示詞上限為 226 個 token,視頻長度為 6 秒,幀率為 8 幀 / 秒,視頻分辨率為 720*480。智譜 AI 為視頻質量的提升預留了廣闊的空間,期待開發者們在提示詞優化、視頻長度、幀率、分辨率、場景微調以及圍繞視頻的各類功能開發上貢獻開源力量。

性能更強參數量更大的模型正在路上,敬請關注與期待。

模型

圖片

VAE

視頻數據因包含空間和時間信息,其數據量和計算負擔遠超圖像數據。為應對此挑戰,智譜提出了基于 3D 變分自編碼器(3D VAE)的視頻壓縮方法。3D VAE 通過三維卷積同時壓縮視頻的空間和時間維度,實現了更高的壓縮率和更好的重建質量。

圖片

模型結構包括編碼器、解碼器和潛在空間正則化器,通過四個階段的下采樣和上采樣實現壓縮。時間因果卷積確保了信息的因果性,減少了通信開銷。智譜采用上下文并行技術以適應大規模視頻處理。

實驗中,智譜 AI 發現大分辨率編碼易于泛化,而增加幀數則挑戰較大。因此,智譜分兩階段訓練模型:首先在較低幀率和小批量上訓練,然后通過上下文并行在更高幀率上進行微調。訓練損失函數結合了 L2 損失、LPIPS 感知損失和 3D 判別器的 GAN 損失。

專家 Transformer

智譜 AI 使用 VAE 的編碼器將視頻壓縮至潛在空間,然后將潛在空間分割成塊并展開成長的序列嵌入 z_vision。同時,智譜 AI 使用 T5,將文本輸入編碼為文本嵌入 z_text,然后將 z_text 和 z_vision 沿序列維度拼接。拼接后的嵌入被送入專家 Transformer 塊堆棧中處理。最后,反向拼接嵌入來恢復原始潛在空間形狀,并使用 VAE 進行解碼以重建視頻。

圖片

Data

視頻生成模型訓練需篩選高質量視頻數據,以學習真實世界動態。視頻可能因人工編輯或拍攝問題而不準確。智譜 AI 開發了負面標簽來識別和排除低質量視頻,如過度編輯、運動不連貫、質量低下、講座式、文本主導和屏幕噪音視頻。通過 video-llama 訓練的過濾器,智譜 AI 標注并篩選了 20,000 個視頻數據點。同時,計算光流和美學分數,動態調整閾值,確保生成視頻的質量。

視頻數據通常沒有文本描述,需要轉換為文本描述以供文本到視頻模型訓練。現有的視頻字幕數據集字幕較短,無法全面描述視頻內容。智譜 AI 提出了一種從圖像字幕生成視頻字幕的管道,并微調端到端的視頻字幕模型以獲得更密集的字幕。這種方法通過 Panda70M 模型生成簡短字幕,使用 CogView3 模型生成密集圖像字幕,然后使用 GPT-4 模型總結生成最終的短視頻。智譜 AI 還微調了一個基于 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型,使用密集字幕數據進行訓練,以加速視頻字幕生成過程。

圖片

性能

為了評估文本到視頻生成的質量,智譜 AI 使用了 VBench 中的多個指標,如人類動作、場景、動態程度等。智譜 AI 還使用了兩個額外的視頻評估工具:Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score,這些工具專注于視頻的動態特性。如下表所示。

圖片

智譜 AI 已經驗證了 scaling law 在視頻生成方面的有效性,未來會在不斷 scale up 數據規模和模型規模的同時,探究更具突破式創新的新型模型架構、更高效地壓縮視頻信息、更充分地融合文本和視頻內容。

最后,我們看看「清影」的效果。

提示語:「一艘精致的木制玩具船,桅桿和船帆雕刻精美,平穩地滑過一塊模仿海浪的藍色毛絨地毯。船體漆成濃郁的棕色,有小窗戶。地毯柔軟而有質感,提供了完美的背景,類似于廣闊的海洋。船周圍還有各種玩具和兒童用品,暗示著一個好玩的環境。這個場景捕捉到了童年的純真和想象力,玩具船的旅程象征著在異想天開的室內環境中無盡的冒險。」

提示語:「鏡頭跟隨一輛裝著黑色車頂行李架的白色老式 SUV,它在陡峭的山坡上沿著松樹環繞的土路加速行駛,輪胎揚起塵土,陽光照射在沿著土路飛馳的 SUV 身上,為場景投下溫暖的光芒。土路緩緩彎曲向遠方延伸,看不到其他汽車或車輛。道路兩旁的樹木都是紅杉,點綴著一片片綠植。從后面看,汽車輕松地順著彎道行駛,讓人覺得它正在崎嶇的地形上行駛。土路周圍是陡峭的山丘和山脈,頭頂是湛藍的天空,上面飄著薄薄的云彩。」

提示語:「一片白雪皚皚的森林景觀,一條土路穿過其中。道路兩旁是被白雪覆蓋的樹木,地面也被白雪覆蓋。陽光燦爛,營造出明亮而寧靜的氛圍。道路上空無一人,視頻中看不到任何人或動物。視頻的風格是自然風景拍攝,重點是白雪皚皚的森林之美和道路的寧靜。」

提示語:「雞肉和青椒烤肉串在燒烤架上燒烤的特寫。淺焦和淡煙。色彩鮮艷」

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-09-10 10:40:08

2023-10-19 13:25:00

AI訓練

2023-06-20 16:05:58

AI代碼

2023-10-16 13:16:03

2023-10-04 19:52:33

模型論文

2024-12-17 09:38:00

2023-08-07 13:30:08

平臺MetaGPTAI

2023-02-13 13:58:15

模型開源

2022-02-15 15:48:03

GitHub工具圖像

2024-02-22 10:17:39

AI模型

2023-04-25 15:41:59

2025-02-12 12:45:59

2020-12-30 10:35:49

程序員技能開發者

2015-08-28 10:17:25

顯卡NVIDIAQuadro M600

2015-07-01 13:48:04

華曦達

2023-10-10 13:42:56

訓練數據

2024-05-20 12:50:52

AI模型

2024-07-15 12:18:39

2023-10-16 13:43:00

AI模型

2024-11-18 10:25:00

AI模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产高清视频一区二区 | 最新国产视频 | 在线观看国产视频 | 天天插天天狠天天透 | 成人黄视频在线观看 | 国产精品日日做人人爱 | 在线亚州| 成人免费大片黄在线播放 | 国产又爽又黄的视频 | 日日夜夜操天天干 | 中文字幕日韩三级 | 久久看片 | 久久久国产网站 | 午夜久久久久 | 午夜影院在线观看 | 国产在视频一区二区三区吞精 | 欧美日韩在线播放 | 一道本不卡视频 | 一区二区在线免费观看 | 精品www | 色妹子综合网 | 日韩中文字幕 | 99国产视频| 欧美精品第一页 | 999www视频免费观看 | 日韩视频在线一区 | 精品一区二区三区91 | 日韩中文字幕视频 | 国产亚洲一区精品 | 99精品免费久久久久久日本 | 在线国产一区 | 黄色精品| 日韩av成人| 在线黄色网 | 亚洲成人一区 | 欧美 日韩 综合 | 美女天天操 | 精品一区二区三区四区 | 97人人澡人人爽91综合色 | 欧美www在线观看 | 亚洲一区 中文字幕 |