騰訊出手了！開源最大AI視頻模型，130億參數，性能媲美閉源，擊敗Runway Gen-3、Luma 1.6 原創

51CTO技術棧

發布于 2024-12-4 13:34

瀏覽

0收藏

編輯 | 伊風

出品 | 51CTO技術棧（微信號：blog51cto）

AI視頻領域持續不斷有新玩家入局！

12月3日，騰訊出手了，不僅在元寶APP里上線AI視頻功能，還直接開源了混元視頻模型！

騰訊出手了！開源最大AI視頻模型，130億參數，性能媲美閉源，擊敗Runway Gen-3、Luma 1.6-AI.x社區圖片

（打開元寶APP，若沒有找到入口的話，可以檢查是否更新到了最新版本，目前可能會有排隊時間。）

騰訊一來就干了票大的：直接開源了AI視頻里最大的模型——130 億參數！

開源地址：https://github.com/Tencent/HunyuanVideo

混元團隊對HunyuanVideo的性能也很有信心，“其視頻生成性能可與領先的閉源模型媲美，甚至在某些方面更勝一籌”。

這源于背后能打的戰績，混元一挑5個閉源模型，排位第一！（注：GEN-3來自Runway 公司；Luma 1.6來自 Luma AI，CNTop系列來自系列騰訊旗下的映技派）

騰訊出手了！開源最大AI視頻模型，130億參數，性能媲美閉源，擊敗Runway Gen-3、Luma 1.6-AI.x社區圖片

AI視頻生成的文本對齊、動作質量和視覺質量沒有統一的“題庫”，需要人的判斷。

我們先來看看騰訊自己的demo。

騰訊出手了！開源最大AI視頻模型，130億參數，性能媲美閉源，擊敗Runway Gen-3、Luma 1.6-AI.x社區

然后小編又用Sora經典的Prompt測試了一下，大家來看看效果如何：

騰訊出手了！開源最大AI視頻模型，130億參數，性能媲美閉源，擊敗Runway Gen-3、Luma 1.6-AI.x社區

電影預告片，講述了一位30歲的太空人的冒險故事。他戴著一頂紅色羊毛針織摩托車頭盔，背景是藍天和鹽堿沙漠。影片采用電影化風格，使用35毫米膠片拍攝，色彩鮮艷。

騰訊出手了！開源最大AI視頻模型，130億參數，性能媲美閉源，擊敗Runway Gen-3、Luma 1.6-AI.x社區

一段超真實的特寫視頻，展示了兩艘海盜船在一杯咖啡中激烈交戰，咖啡的液面如同海洋，船只在其中航行，波濤洶涌，炮火四射。

看完了視頻生成效果，我們來看看HunyuanVideo的4個技術層面的特點！

1.統一圖像和視頻生成架構

HunyuanVideo 采用的也是 Transformer 設計，使用了全注意力機制來實現統一的圖像和視頻生成。

具體而言，混元采用了“從雙流到單流”的混合模型設計進行視頻生成。在雙流階段，視頻和文本標記通過多個 Transformer 塊獨立處理，使每種模態能夠學習其適當的調制機制，而不相互干擾。在單流階段，我們將視頻和文本標記連接起來，并將它們輸入到后續的 Transformer 塊，以有效地融合多模態信息。

這一設計捕捉了視覺和語義信息之間的復雜交互，增強了整體模型性能。

2.MLLM 文本編碼器

不同于文本到視頻模型通常使用預訓練的 CLIP 和 T5-XXL 作為文本編碼器（其中 CLIP 使用 Transformer 編碼器，而 T5 使用編碼器-解碼器結構。）

混元采用了預訓練的多模態大型語言模型（MLLM）。

根據他們的技術報告，采用解碼器-only 結構作為文本編碼器，有以下優點：

(i) 與 T5 相比，經過視覺指令微調后的 MLLM 在特征空間中具有更好的圖像-文本對齊性，從而緩解了擴散模型中指令跟隨的難度；(ii) 與 CLIP 相比，MLLM 在圖像細節描述和復雜推理上表現出了更強的能力；(iii) MLLM 可以通過跟隨系統指令來作為零樣本學習者，幫助文本特征更好地關注關鍵信息。此外，MLLM 基于因果注意力，而 T5-XXL 使用的是雙向注意力，后者為擴散模型提供了更好的文本指導。因此，我們引入了額外的雙向標記細化器來增強文本特征。