被誤解的「中文版Sora」背后，字節跳動有哪些技術？

作者：機器之心 2024-03-12 12:16:54

人工智能新聞

此前有消息稱，字節跳動在 Sora 發布之前就研發出了一款名為 Boximator 的視頻生成模型。

2024 開年，OpenAI 就在生成式 AI 領域扔下了重磅炸彈：Sora。

這幾年，視頻生成領域的技術迭代持續加速，很多科技公司也公布了相關技術進展和落地成果。在此之前，Pika、Runway 都曾推出過類似產品，但 Sora 放出的 Demo，顯然以一己之力抬高了視頻生成領域的標準。

在今后的這場競爭中，哪家公司將率先打造出超越 Sora 的產品，仍是未知數。

國內這邊，目光聚集于一眾科技大廠。

此前有消息稱，字節跳動在 Sora 發布之前就研發出了一款名為 Boximator 的視頻生成模型。

Boximator 提供了一種能夠精確控制視頻中物體的生成方法。用戶無需編寫復雜的文本提示，可以直接在參考圖像中通過在物體周圍畫方框來選擇目標，然后添加一些方框和線條來定義目標的結束位置或跨幀的整個運動路徑，如下圖所示：

對此，字節跳動保持了低調的態度：相關人士回復媒體，Boximator 是視頻生成領域控制對象運動的技術方法研究項目。目前還無法作為完善的產品落地，距離國外領先的視頻生成模型在畫面質量、保真率、視頻時長等方面還有很大差距。

在對應的技術論文介紹（https://arxiv.org/abs/2402.01566）中，我們也能看到，Boximator 是以插件的形式運行，可與現有的視頻生成模型無縫集成，在保持視頻質量的同時，增加運動控制功能。

視頻生成背后的技術涉及多個細分方向，與圖像 / 視頻理解、圖像生成、超分辨率等技術都有關系。深挖之后，我們發現在眾多分支領域，字節跳動已公開發表了一些研究成果。

這篇文章將介紹來自字節跳動智能創作團隊的 9 項研究，涉及文生圖、文生視頻、圖生視頻、視頻理解等多項最新成果。我們不妨從這些研究中，追蹤探索視覺生成類模型的技術進展。

關于視頻生成，字節有哪些成果？

在今年 1 月上旬，字節跳動就發布過一個視頻生成模型 MagicVideo-V2，一度引發社區熱議。

論文標題：MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
論文鏈接：https://arxiv.org/abs/2401.04468
項目地址：https://magicvideov2.github.io/

MagicVideo-V2 的創新在于將文本到圖像模型、視頻運動生成器、參考圖像嵌入模塊和幀插值模塊集成到端到端視頻生成 pipeline 中。得益于這一架構設計，MagicVideo-V2 在「審美」上能夠保持著穩定的高水平表現，不僅生成美觀的高分辨率視頻，還兼具比較好的保真度和流暢度。

具體而言，研究者首先使用 T2I 模塊創建一個 1024×1024 的圖像，封裝所描述的場景。隨后，I2V 模塊對該靜態圖像進行動畫處理，生成 600×600×32 的幀序列，之前的潛在噪聲確保了初始幀的連續性。V2V 模塊將這些幀增強到 1048×1048 分辨率，同時完善視頻內容。最后，插值模塊將序列擴展到 94 個幀，得到 1048×1048 分辨率的視頻，所生成視頻具有較高的美學質量和時間平滑性。

研究者進行的大規模用戶評估證明：MagicVideo-V2 比一些知名的 T2V 方法更受青睞（綠色、灰色和粉色條分別代表 MagicVideo-V2 被評為較好、相當或較差）。

高質量視頻生成背后

統一視覺和語言學習的研究范式

從 MagicVideo-V2 的論文中，我們可以看出，視頻生成技術的進展，離不開文生圖、圖生視頻等 AIGC 技術的鋪路。而生成高審美水準內容的基礎在于理解，特別是模型對于視覺和語言兩種模態學習、融合能力的進步。

近年來，大語言模型的可擴展性和通用能力，催生出了統一視覺和語言學習的研究范式。為了跨越「視覺」和「語言」兩種模態之間的天然鴻溝，研究者們將預訓練好的大語言模型和視覺模型的表征連接起來，提取跨模態特性，完成如視覺問題解答、圖像字幕、視覺知識推理和對話等任務。

在這些方向上，字節跳動也有相關探索。

比如，針對開放世界視覺任務中的多目標推理分割挑戰，字節跳動聯合北京交通大學、北京科技大學的研究者提出了高效像素級推理大模型 PixelLM，并將其開源。

論文標題：PixelLM:Pixel Reasoning with Large Multimodal Model
論文鏈接：https://arxiv.org/pdf/2312.02228.pdf
項目地址：https://pixellm.github.io/

PixelLM 能夠熟練地處理具有任意數量的開放集目標和不同推理復雜性的任務，下圖展示了 PixelLM 在各種分割任務中生成高質量目標掩碼的能力。

PixelLM 的核心是一個新穎的像素解碼器和一個分割 codebook：codebook 包含了可學習的 token，這些 token 編碼了與不同視覺尺度目標參考相關的上下文和知識，像素解碼器根據 codebook token 的隱藏嵌入和圖像特征生成目標掩碼。在保持 LMM 基本結構的同時，PixelLM 可以在沒有額外的、昂貴的視覺分割模型的情況下生成高質量的掩碼，從而提高了效率和向不同應用程序的可遷移性。

值得關注的是，研究者構建了一個全面的多目標推理分割數據集 MUSE。他們從 LVIS 數據集中選取了共 910k 個高質量實例分割掩碼以及基于圖像內容的詳細文本描述，利用這些構建了 246k 個問題 - 答案對。

相比于圖像，如果涉及視頻內容，模型遭遇的挑戰難度就又增加了不少。因為視頻不僅包含豐富多變的視覺信息，還涉及時間序列的動態變化。

現有的多模態大模型在處理視頻內容時，通常將視頻幀轉化為一系列的視覺 token，并與語言 token 結合以生成文本。但隨著生成文本長度的增加，視頻內容的影響會逐漸減弱，導致生成的文本越來越多地偏離原視頻內容，產生所謂的「幻覺」。

面對這一問題，字節跳動聯合浙江大學提出了專門針對視頻內容的復雜性設計的多模態大模型 Vista-LLaMA。

論文標題：Vista-LLaMA:Reliable Video Narrator via Equal Distance to Visual Tokens
論文鏈接：https://arxiv.org/pdf/2312.08870.pdf
項目地址：https://jinxxian.github.io/Vista-LLaMA/

Vista-LLaMA 采用了一種改良的注意力機制 —— 視覺等距離 token 注意力（EDVT），在處理視覺與文本 token 時去除了傳統的相對位置編碼，同時保留了文本與文本之間的相對位置編碼。這種方法大幅提高了語言模型對視頻內容的理解深度和準確性。

特別是，Vista-LLaMA 引入的序列化視覺投影器為視頻中的時間序列分析問題提供了新的視角，它通過線性投影層編碼視覺 token 的時間上下文，增強了模型對視頻動態變化的理解能力。

在最近被 ICLR 2024 接收的一項研究中，字節跳動的研究者還探討了一種提升模型對視頻內容學習能力的預訓練方法。

由于視頻 - 文本訓練語料的規模和質量有限，大多數視覺語言基礎模型都采用圖像 - 文本數據集進行預訓練，并主要關注視覺語義表征建模，而忽略了時間語義表征和相關性。

為了解決這個問題，他們提出了 COSA，一種串聯樣本預訓練視覺語言基礎模型。

論文標題：COSA: Concatenated Sample Pretrained Vision-Language Foundation Model
論文鏈接：https://arxiv.org/pdf/2306.09085.pdf
項目主頁：https://github.com/TXH-mercury/COSA

COSA 僅使用圖像 - 文本語料庫對視覺內容和事件級時間線索進行聯合建模。研究者將多個圖像 - 文本對按順序串聯起來，作為預訓練的輸入。這種轉換能有效地將現有的圖像 - 文本語料庫轉換成偽長格式視頻 - 段落語料庫，從而實現更豐富的場景轉換和明確的事件 - 描述對應關系。實驗證明，COSA 能夠持續提高各種下游任務的性能，包括長 / 短視頻 - 文本任務和圖像 - 文本任務（如檢索、字幕和問題解答）。

從圖像到視頻

被重新認識的「擴散模型」

在視覺 - 語言模型之外，擴散模型同樣是大部分視頻生成模型采用的技術。

通過在大量圖像 - 文本配對數據集上進行嚴格訓練，擴散模型能夠完全根據文本信息生成細節豐富的圖像。除了圖片生成，擴散模型還可用于音頻生成、時間序列生成、3D 點云生成等等。

比如在一些短視頻應用中，用戶只需要提供一張圖片，就能生成一段以假亂真的動作視頻。

數百年來保持神秘微笑的蒙娜麗莎，都能馬上跑起來：

這項有趣應用背后的技術，是新加坡國立大學和字節跳動的研究者聯合推出的「MagicAnimate」。

MagicAnimate 是一個基于擴散的人類圖像動畫框架，在根據特定的運動序列生成視頻的任務中，能夠很好地保證整個動畫的時間一致性并提升動畫保真度。而且，MagicAnimate 項目是開源的。

論文標題：MagicAnimate:Temporally Consistent Human Image Animation using Diffusion Model
論文鏈接：https://arxiv.org/pdf/2311.16498.pdf
項目地址：https://showlab.github.io/magicanimate/

為了解決生成動畫普遍存在的「閃爍」問題，研究者通過將時間注意力（temporal attention）塊合并到擴散主干網絡中，來構建用于時間建模的視頻擴散模型。

MagicAnimate 將整個視頻分解為重疊的片段，并簡單地對重疊幀的預測進行平均。最后，研究者還引入圖像 - 視頻聯合訓練策略，以進一步增強參考圖像保留能力和單幀保真度。雖然僅接受了真實人類數據的訓練，MagicAnimate 卻展現出了泛化到各種應用場景的能力，包括對未見過的領域數據進行動畫處理、與文本 - 圖像擴散模型的集成以及多人動畫等。

另一項基于擴散模型思想的研究「DREAM-Talk」，則解決了從單張肖像圖像生成會說話的情緒化人臉的任務。

論文標題：DREAM-Talk:Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation
論文鏈接：https://arxiv.org/pdf/2312.13578.pdf
項目地址：https://dreamtalkemo.github.io/

我們知道，在這項任務中，很難同時實現富有表現力的情感對話和準確的唇語同步，通常為了保證唇語同步的準確性，表現力往往會大打折扣。

「DREAM-Talk」是一個基于擴散的音頻驅動框架，分為兩個階段：首先，研究者提出了一個新穎的擴散模塊 EmoDiff，可根據音頻和參考情緒風格生成多種高度動態的情緒表情和頭部姿勢。鑒于唇部動作與音頻之間的強相關性，研究者隨后利用音頻特征和情感風格對動態進行了改進，從而提高了唇部同步的準確性，此外還部署了一個視頻到視頻渲染模塊，實現了將表情和唇部動作轉移到任意肖像。

從效果上看，DREAM-Talk 在表現力、唇部同步準確性和感知質量方面的確不錯：

但不管是圖像生成還是視頻生成，當前基于擴散模型路線的研究都還有一些基礎挑戰需要解決。

比如很多人關心生成內容的質量問題（對應 SAG、DREAM-Talk），這可能與擴散模型的生成過程中的一些步驟有關，比如引導采樣。

擴散模型中的引導采樣大致可分為兩類：需要訓練的和無需訓練的。免訓練引導采樣是利用現成的預訓練網絡（如美學評估模型）來引導生成過程，旨在以更少的步驟和更高的精度從預訓練的模型中獲取知識。當前的訓練無指導采樣算法基于對干凈圖像的一步估計來獲得指導能量函數。然而，由于預訓練網絡是針對干凈圖像進行訓練的，因此干凈圖像的一步估計過程可能不準確，尤其是在擴散模型的早期階段，導致早期時間步驟的指導不準確。

針對該問題，字節跳動和新加坡國立大學的研究者共同提出了 Symplectic Adjoint Guidance (SAG)。

論文標題：Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint Method
論文鏈接：https://arxiv.org/pdf/2312.12030.pdf

SAG 通過兩個內階段計算梯度引導：首先，SAG 通過 n 個函數調用估計干凈圖像，其中 n 作為一個靈活的參數，可以根據特定的圖像質量要求進行調整。其次，SAG 使用對稱偶方法精確高效地獲得關于內存需求的梯度。這種方法可支持各種圖像和視頻生成任務，包括風格引導圖像生成、美學改進和視頻風格化，并有效提升了生成內容的質量。

最近入選 ICLR 2024 的一篇論文，則著重討論了「擴散概率模型梯度反向傳播的臨界靈敏度方法」。

論文標題：Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models
論文鏈接：https://arxiv.org/pdf/2307.10711.pdf

由于擴散概率模型的采樣過程涉及對去噪 U-Net 的遞歸調用，因此 na?ve 梯度反向傳播需要存儲所有迭代的中間狀態，從而導致極高的內存消耗。

在這篇論文中，研究者提出的 AdjointDPM 首先通過求解相應的概率流 ODE 從擴散模型中生成新樣本。然后，通過求解另一個增強的 ODE，使用鄰接靈敏度方法反向傳播模型參數（包括調節信號、網絡權重和初始噪聲）損失的梯度。為了減少前向生成和梯度反向傳播過程中的數值誤差，研究者使用指數積分進一步將概率流 ODE 和增強型 ODE 重新參數化為簡單的非剛性 ODE。

研究者指出，AdjointDPM 在三個任務中極具價值：將視覺效果轉換為識別文本嵌入、針對特定類型的風格化對擴散概率模型進行微調，以及優化初始噪聲以生成用于安全審計的對抗樣本，以減少優化工作中的成本。

對于視覺類的感知任務，采用文本到圖像的擴散模型作為特征提取器的方法也受到越來越多的關注。在這一方向上，字節跳動的研究者在論文中提出了一種簡單而有效的方案。

論文標題；Harnessing Diffusion Models for Visual Perception with Meta Prompts
論文鏈接：https://arxiv.org/pdf/2312.14733.pdf

這篇論文的核心創新是在預訓練的擴散模型中引入可學習的嵌入（元提示）以提取感知特征，不依賴額外的多模態模型來生成圖像標題，也不使用數據集中的類別標簽。

元提示有兩方面的作用：首先，作為 T2I 模型中文本嵌入的直接替代物，它可以在特征提取過程中激活與任務相關的特征；其次，它將用于重新排列提取的特征，以確保模型專注于與手頭任務最相關的特征。此外，研究者還設計了一種循環細化訓練策略，充分利用擴散模型的特性，從而獲得更強的視覺特征。

「中文版 Sora」誕生之前

還有多遠的路要走？

在這幾篇新論文中，我們已經了解到字節跳動這樣的國內科技公司，在視頻生成技術上的一系列積極的探索。

但是與 Sora 相比，無論是字節跳動，還是 AI 視頻生成領域的一眾明星公司，都存在肉眼可見的差距。Sora 的優勢建立在對 Scaling Law 的信仰和突破性的技術創新上：通過 patchs 統一視頻數據，依托 Diffusion Transformer 等技術架構和 DALL?E 3 的語義理解能力，真正做到了「遙遙領先」。

從 2022 年文生圖的大爆發，到 2024 年 Sora 的橫空出世，人工智能領域的技術迭代速度，已經超過了大家的想象。2024 年，相信這一領域還會出現更多的「爆款」。

字節顯然也在加緊投入技術研發。近期，谷歌 VideoPoet 項目負責人蔣路，開源多模態大模型 LLaVA 團隊成員之一、前微軟研究院首席研究員 Chunyuan Li 均被曝出已加入字節跳動智能創作團隊。該團隊還在大力招聘，官網上已放出多個大模型算法相關崗位。

不僅僅是字節，BAT 等老牌巨頭也放出眾多令人矚目的視頻生成研究成果，一眾大模型創業公司更是極具沖勁。文生視頻技術又將出現哪些新的突破？我們拭目以待。

責任編輯：張燕妮來源：機器之心

AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看