微軟新作「Mora」，復原了Sora

發布于 2024-3-28 11:04

瀏覽

0收藏

微軟版Sora誕生了！

Sora雖爆火但閉源，給學術界帶來了不小的挑戰。學者們只能嘗試使用逆向工程來對Sora復現或擴展。盡管提出了Diffusion Transformer和空間patch策略，但想要達到Sora的性能還是很難，何況還缺乏算力和數據集。不過，研究者發起的新一波復現Sora的沖鋒，這不就來了么！就在剛剛，理海大學聯手微軟團隊一種新型的多AI智能體框架———Mora。

微軟新作「Mora」，復原了Sora-AI.x社區圖片

論文地址：
???https://arxiv.org/abs/2403.13248??

沒錯，理海大學和微軟的思路，是靠AI智能體。Mora更像是Sora的通才視頻生成。通過整合多個SOTA的視覺AI智能體，來復現Sora展示的通用視頻生成能力。

微軟新作「Mora」，復原了Sora-AI.x社區

具體來說，Mora能夠利用多個視覺智能體，在多種任務中成功模擬Sora的視頻生成能力，包括：

- 文本到視頻生成

- 基于文本條件的圖像到視頻生成

- 擴展已生成視頻

- 視頻到視頻編輯

- 拼接視頻

- 模擬數字世界

微軟新作「Mora」，復原了Sora-AI.x社區

實驗結果表明，Mora在這些任務中取得了接近Sora的表現。值得一提的是，它在文本到視頻生成任務中的表現超越了現有的開源模型，在所有模型中排名第二，僅次于Sora。不過，在整體性能上，與Sora還有著明顯差距。

微軟新作「Mora」，復原了Sora-AI.x社區

Mora可根據文字提示生成高分辨率、時間連貫的視頻，分辨率為1024 × 576，時長12秒，共75幀。

復刻Sora所有能力

Mora基本上還原了Sora的所有能力，怎么體現？

文本到視頻生成

微軟新作「Mora」，復原了Sora-AI.x社區

提示：A vibrant coral reef teeming with life under the crystal-clear blue ocean, with colorful fish swimming among the coral, rays of sunlight filtering through the water, and a gentle current moving the sea plants.

微軟新作「Mora」，復原了Sora-AI.x社區

提示：A majestic mountain range covered in snow, with the peaks touching the clouds and a crystal-clear lake at its base, reflecting the mountains and the sky, creating a breathtaking natural mirror.

微軟新作「Mora」，復原了Sora-AI.x社區

提示：In the middle of a vast desert, a golden desert city appears on the horizon, its architecture a blend of ancient Egyptian and futuristic elements.The city is surrounded by a radiant energy barrier, while in the air, seve

基于文本條件圖像到視頻的生成

輸入這張經典的「SORA字樣的逼真云朵圖像」。

微軟新作「Mora」，復原了Sora-AI.x社區

提示：An image of a realistic cloud that spells “SORA”.Sora模型生成的效果是這樣的。

微軟新作「Mora」，復原了Sora-AI.x社區

Mora生成出來的視頻，絲毫不差。

微軟新作「Mora」，復原了Sora-AI.x社區

還有輸入一張小怪獸圖片。

微軟新作「Mora」，復原了Sora-AI.x社區

提示：Monster Illustration in flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas, a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.Sora將其轉換為視頻的效果，讓這些小怪獸們活靈活現動起來。

微軟新作「Mora」，復原了Sora-AI.x社區

Mora雖也讓小怪獸們動起來，但是明顯可以看出有些不穩定，圖中卡通人物樣子沒有保持一致。

微軟新作「Mora」，復原了Sora-AI.x社區

擴展已生成的視頻

先給到一個視頻

微軟新作「Mora」，復原了Sora-AI.x社區

Sora能夠生成穩定的AI視頻，而且風格一致。

微軟新作「Mora」，復原了Sora-AI.x社區

但Mora生成的視頻中，前面騎自行車的人最后自行車沒了，人也變形了，效果不是很好。

微軟新作「Mora」，復原了Sora-AI.x社區

視頻到視頻編輯

給到一個提示「將場景切換到20世紀20年代的老式汽車」，并輸入一個視頻。

微軟新作「Mora」，復原了Sora-AI.x社區

Sora經過風格替換后，整體看起來非常絲滑。

微軟新作「Mora」，復原了Sora-AI.x社區

Mora這段老式汽車的生成，破舊的有點不真實。

微軟新作「Mora」，復原了Sora-AI.x社區

拼接視頻

輸入兩個視頻，然后將其完成拼接。

微軟新作「Mora」，復原了Sora-AI.x社區

Mora拼接后的視頻

微軟新作「Mora」，復原了Sora-AI.x社區

模擬數字世界

微軟新作「Mora」，復原了Sora-AI.x社區

整體接近，但不如Sora

一大波演示之后，大家對Mora的視頻生成能力有了一定了解。與OpenAI Sora相比，Mora在六個任務中的表現非常接近，不過也存在著很大的不足。

文本到視頻生成

具體來說，Mora的視頻質量得分0.792，僅次于第一名Sora的0.797，并且超過了當前最好的開源模型（如VideoCrafter1）。在對象一致性方面，Mora得分0.95，與Sora持平，在整個視頻中都表現出了卓越的一致性。

微軟新作「Mora」，復原了Sora-AI.x社區

在下圖中，Mora文本到視頻生成的視覺保真度非常引人注目，體現了高分辨率圖像以及對細節的敏銳關注，和對場景的生動描繪。

微軟新作「Mora」，復原了Sora-AI.x社區

在基于文本條件的圖像生成任務中，模型在將圖片和文本指令，轉化成連貫視頻能力上，Sora肯定是最完美的。不過Mora的結果，與Sora相差很小。

微軟新作「Mora」，復原了Sora-AI.x社區

擴展生成的視頻

再來看擴展生成視頻測試中，在連續性和質量上的結果，也是Mora與Sora比較接近。

微軟新作「Mora」，復原了Sora-AI.x社區

盡管Sora處于領先地位，但Mora的能力，特別是在遵循時間風格和擴展現有視頻而不顯著損失質量方面，證明了其在視頻擴展領域的有效性。

微軟新作「Mora」，復原了Sora-AI.x社區

視頻到視頻編輯+視頻拼接

針對視頻到視頻編輯，Mora在保持視覺和風格連貫性的能力方面接近Sora。還有拼接視頻任務中，Mora也可以實現將不同視頻進行無縫拼接。

微軟新作「Mora」，復原了Sora-AI.x社區

在這個示例中，Sora和Mora都被指示將設置修改為1920年代風格，同時保持汽車的紅色。

微軟新作「Mora」，復原了Sora-AI.x社區

模擬數字世界

還有最后的模擬數字世界的任務，Mora也能像Sora一樣具備創建虛擬環境世界的能力。不過質量方面，比Sora差一些。

微軟新作「Mora」，復原了Sora-AI.x社區

Mora：基于智能體的視頻生成

Mora這個多智能體框架，是如何解決當前視頻生成模型的局限的？它的關鍵，就是通過將視頻生成過程分解為多個子任務，并為每個任務指派專門的智能體，來靈活地完成一系列視頻生成任務，滿足用戶的多樣化需求。在推理過程中，Mora會生成一個中間圖像或視頻，從而保持文本到圖像模型中的視覺多樣性、風格和質量，并增強編輯功能。

微軟新作「Mora」，復原了Sora-AI.x社區

通過高效地協調處理從文本到圖像、從圖像到圖像、從圖像到視頻以及從視頻到視頻的轉換任務的智能體，Mora能夠處理一系列復雜的視頻生成任務，提供出色的編輯靈活性和視覺真實度。總結來說，團隊的主要貢獻如下：

創新性的多智能體框架，以及一個直觀的界面，方便用戶配置不同的組件和安排任務流程。
作者發現，通過多個智能體的協同工作（包括將文本轉換成圖像、圖像轉換成視頻等），可以顯著提升視頻的生成質量。這一過程從文本開始，先轉化為圖像，然后將圖像和文本一起轉換成視頻，最后對視頻進行優化和編輯。
Mora在6個與視頻相關的任務中都展現出了卓越的性能，超過了現有的開源模型。這不僅證明了Mora的高效性，也展示了其作為一個多用途框架的潛力。

智能體的定義

在視頻生成的不同任務中，通常需要多個具有不同專長的智能體協同工作，每個智能體都提供其專業領域的輸出。為此，作者定義了5種基本類型的智能體：提示選擇與生成、文本到圖像生成、圖像到圖像生成、圖像到視頻生成、以及視頻到視頻生成。

微軟新作「Mora」，復原了Sora-AI.x社區

提示選擇與生成智能體：在開始生成初始圖像之前，文本提示會經過一系列嚴格的處理和優化步驟。這個智能體可以利用大型語言模型（如GPT-4）來精確分析文本，提取關鍵信息和動作，大大提高生成圖像的相關性和質量。
文本到圖像生成智能體：這個智能體負責將豐富的文本描述轉化為高質量的圖像。它的核心功能是深入理解和可視化復雜的文本輸入，從而能夠根據提供的文本描述創建詳細、準確的視覺圖像。
圖像到圖像生成智能體：根據特定的文本指令修改已有的源圖像。它能夠精確解讀文本提示，并據此調整源圖像（從細微修改到徹底改造）。通過使用預訓練模型，它能夠將文本描述與視覺表現有效拼接，實現新元素的整合、視覺風格的調整或圖像構成的改變。
圖像到視頻生成智能體：在初始圖像生成之后，這個智能體負責將靜態圖像轉化為動態視頻。它通過分析初始圖像的內容和風格，生成后續的幀，確保視頻的連貫性和視覺一致性，展現了模型理解、復制初始圖像，以及預見并實現場景邏輯發展的能力。
視頻拼接智能體：這個智能體通過選擇性使用兩段視頻的關鍵幀，確保它們之間平滑且視覺上一致的過渡。它能夠準確識別兩個視頻中的共同元素和風格，生成既連貫又具有視覺吸引力的視頻。

智能體的實現

文本到圖像的生成

研究者利用預訓練的大型文本到圖像模型，來生成高質量且具有代表性的第一張圖像。第一個實現，用的是Stable Diffusion XL。

微軟新作「Mora」，復原了Sora-AI.x社區

它引入了文本到圖像合成的潛在擴散模型的架構和方法的重大演變，在該領域樹立了新的基準。其架構的核心，就是一個擴大的UNet主干網絡，它比Stable Diffusion 2之前版本中使用的主干大三倍。

微軟新作「Mora」，復原了Sora-AI.x社區

這種擴展主要是通過增加注意力塊的數量和更廣泛的交叉注意力上下文來實現的，并通過集成雙文本編碼器系統來促進。第一個編碼器基于OpenCLIP ViT-bigG，而第二個編碼器則利用CLIP ViT-L，通過拼接這些編碼器的輸出，來允許對文本輸入進行更豐富、更細致的解釋。

微軟新作「Mora」，復原了Sora-AI.x社區

這種架構創新輔以多種新穎的調節方案的引入，這些方案不需要外部監督，從而增強了模型的靈活性和生成跨多個長寬比的圖像的能力。此外，SDXL還具有一個細化模型，該模型采用事后圖像到圖像轉換來提高生成圖像的視覺質量。此細化過程利用噪聲去噪技術，進一步完善輸出圖像，而不會影響生成過程的效率或速度。

圖像到圖像的生成

在這個過程中，研究者用初始框架，實現了使用InstructPix2Pix作為圖像到圖像生成智能體。

微軟新作「Mora」，復原了Sora-AI.x社區

InstructPix2Pix經過精心設計，可以根據自然語言指令進行有效的圖像編輯。該系統的核心集成了兩個預訓練模型的廣泛知識：GPT-3用于根據文本描述生成編輯指令和編輯后的標題；Stable Diffusion用于將這些基于文本的輸入轉換為視覺輸出。這種巧妙的方法首先在精選的圖像標題數據集和相應的編輯指令上微調GPT-3，從而產生一個可以創造性地建議合理編輯并生成修改后的標題的模型。在此之后，通過Prompt-to-Prompt技術增強的Stable Diffusion模型，會根據GPT-3生成的字幕生成圖像對(編輯前和后)。

微軟新作「Mora」，復原了Sora-AI.x社區

然后在生成的數據集上訓練InstructPix2Pix核心的條件擴散模型。InstructPix2Pix直接利用文本指令和輸入圖像，在單次前向傳遞中執行編輯。通過對圖像和指令條件采用無分類器指導，進一步提高了這種效率，使模型能夠平衡原始像的保真度和遵守編輯指令。

圖像到視頻的生成

在文本到視頻生成智能體中，視頻生成代理在確保視頻質量和一致性方面發揮著重要作用。研究者的第一個實現，是利用目前的SOTA視頻生成模型Stable Video Diffusion來生成視頻。

微軟新作「Mora」，復原了Sora-AI.x社區

SVD架構利用最初為圖像合成而開發的LDMs Stable Diffusion v2.1的優勢，將其功能擴展到處理視頻內容固有的時間復雜性，從而引入了一種生成高分辨率視頻的先進方法。SVD模型的核心遵循三階段訓練體系，從文本到圖像相關開始，模型從一組不同的圖像中學習穩健的視覺表示。這個基礎，使模型能夠理解并生成復雜的視覺圖案和紋理。在第二階段，即視頻預訓練中，模型接觸大量視頻數據，使其能夠通過將時間卷積和注意力層與其空間對應層結合起來來學習時間動態和運動模式。訓練是在系統管理的數據集上進行的，確保模型從高質量且相關的視頻內容中學習。最后階段是高質量視頻微調，重點是改進模型使用更小但更高質量的數據集，生成分辨率和保真度更高的視頻的能力。這種分層訓練策略輔以新穎的數據管理流程，使SVD能夠出色地生成最先進的文本到視頻和圖像到視頻合成，并且隨著時間的推移，具有非凡的細節、真實性和連貫性。

拼接視頻

對于這個任務，研究者利用SEINE來拼接視頻。SEINE是基于預訓練的T2V模型LaVie智能體構建的。SEINE以隨機掩碼視頻擴散模型為中心，后者根據文本描述生成過渡。通過將不同場景的像與基于文本的控制相集成，SEINE可以生成保持連貫性和視覺質量的過渡視頻。此外，該模型還可以擴展到圖像到視頻動畫和白回歸視頻預測等任務。

討論

優勢

創新框架與靈活性：Mora引進了一種革命性的多智能體視頻生成框架，大大拓展了此領域的可能性，使得執行各種任務變得可能。它不僅簡化了將文本轉換成視頻的過程，還能模擬出數字世界，展現出前所未有的靈活性和效率。
開源貢獻：Mora的開源特性是對AI社區一個重要的貢獻，它通過提供一個堅實的基礎，鼓勵進一步的發展和完善，為未來的研究奠定了基礎。如此一來，不僅可以讓高級視頻生成技術更加普及，還促進了該領域內的合作和創新。

局限性

視頻數據至關重要：想捕捉人類動作的細微差別，就需要高分辨率、流暢的視頻序列。這樣才能夠詳細展現動力學的各個方面，包括平衡、姿勢及與環境的互動。但高質量的視頻數據集多來源于如電影、電視節目和專有游戲畫面等專業渠道。其中往往包含受版權保護的材料，不易合法收集或使用。而缺乏這些數據集，使得像Mora這樣的視頻生成模型難以模擬人類在現實環境中的動作，如走路或騎自行車。
質量與長度的差距：Mora雖然可以完成類似Sora的任務，但在涉及大量物體移動的場景中，生成的視頻質量明顯不高，質量隨視頻長度增加而降低，尤其是在超過12秒之后。
指令跟隨能力：Mora雖然可以在視頻中包含提示所指定的所有對象，但它難以準確解釋和展示提示中描述的運動動態，比如移動速度。此外，Mora還不能控制對象的運動方向，比如無法讓對象向左或向右移動。這些局限主要是因為Mora的視頻生成，是基于圖像轉視頻的方法，而不是直接從文本提示中獲取指令。
人類偏好對齊：由于視頻領域缺少人類的標注信息，實驗結果可能并不總是符合人類的視覺偏好。舉個例子，上面其中的一個視頻拼接任務，要求生成一個男性逐漸變成女性的過渡視頻，看起來非常不合邏輯。

本文轉載自夕小瑤科技說

原文鏈接：??https://mp.weixin.qq.com/s/G08_a5gkzjTIAt8MoprmMA??

標簽

微軟

Sora

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

微軟新作「Mora」，復原了Sora

復刻Sora所有能力

文本到視頻生成

基于文本條件圖像到視頻的生成

擴展已生成的視頻

視頻到視頻編輯

拼接視頻

模擬數字世界

整體接近，但不如Sora

文本到視頻生成

擴展生成的視頻

視頻到視頻編輯+視頻拼接

模擬數字世界

Mora：基于智能體的視頻生成

智能體的定義

智能體的實現

文本到圖像的生成

圖像到圖像的生成

圖像到視頻的生成

拼接視頻

討論

優勢

局限性

目錄