成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

復刻Sora的通用視頻生成能力,開源多智能體框架Mora來了

人工智能 新聞
來自理海大學、微軟研究院的研究者提出了一種多智能體框架 Mora,該框架整合了幾種先進的視覺 AI 智能體,以復制 Sora 所展示的通用視頻生成能力。

Sora 是首個引起社會廣泛關注的大規模通用視頻生成模型。自 OpenAI 在 2024 年 2 月推出以來,沒有其他視頻生成模型能夠在性能或支持廣泛視頻生成任務的能力上與 Sora 匹敵。此外,完全公開的視頻生成模型寥寥無幾,大多數都是閉源的。

為了彌補這一差距,來自理海大學、微軟研究院的研究者提出了一種多智能體框架 Mora,該框架整合了幾種先進的視覺 AI 智能體,以復制 Sora 所展示的通用視頻生成能力。特別是,Mora 能夠利用多個視覺智能體,在各種任務中成功模仿 Sora 的視頻生成能力,例如(1)文本到視頻生成,(2)文本條件下的圖像到視頻生成,(3)擴展生成的視頻,(4)視頻到視頻編輯,(5)連接視頻以及(6)模擬數字世界。廣泛的實驗結果表明,Mora 在各種任務中達到了接近 Sora 的性能。然而,當從整體上評估時,Mora 與 Sora 之間存在明顯的性能差距。總之,研究團隊希望這個項目能夠指導視頻生成的未來軌跡,通過協作的 AI 智能體實現。


  • 論文鏈接:https://arxiv.org/abs/2403.13248
  • 項目鏈接:https://github.com/lichao-sun/Mora

先來看下 Mora 的視頻生成效果,以文本到視頻生成任務為例。輸入 prompt:

A vibrant coral reef teeming with life under the crystal-clear blue ocean, with colorful fish swimming among the coral, rays of sunlight filtering through the water, and a gentle current moving the sea plants.

水晶般清澈的藍色海洋下,珊瑚礁充滿了生機,色彩繽紛的魚兒在珊瑚間游動,陽光透過水面,水在海洋植物間輕柔地流動。

Mora 的生成結果:

圖片

輸入 prompt:

In the middle of a vast desert, a golden desert city appears on the horizon, its architecture a blend of ancient Egyptian and futuristic elements.The city is surrounded by a radiant energy barrier, while in the air, seve

浩瀚的沙漠中,一座金色的沙漠之城出現在地平線上,它的建筑融合了古埃及和未來元素。這座城市被輻射能量屏障包圍,在空中,有七道光柱環繞

Mora 的生成結果:

圖片

論文講述了自 2022 年 11 月 ChatGPT 發布以來,生成性 AI 技術如何標志著交互方式和日常生活及產業各方面的重大轉變。盡管圖像生成模型(如 Midjourney、Stable Diffusion 和 DALL-E 3)領先于視覺 AI 領域,但視頻生成技術相較于圖像生成則發展較慢。

近期的視頻生成模型雖能產生多樣化和高質量的視頻,但在生成超過 10 秒視頻方面能力有限。OpenAI 推出的 Sora 模型開啟了視頻生成的新時代,能將文本提示轉換為詳細視頻,展現了復制物理世界動態的顯著潛力。Sora 不僅擅長文本到視頻生成,還能執行編輯、連接和擴展視頻等多種任務,生成內容以多視角透視和忠實于用戶指令的特性著稱。


然而,由于視頻生成模型大多閉源,Sora 等模型的創新給學術界帶來挑戰,難以復制或擴展其能力。為此,該工作提出了 Mora,一個多智能體框架,旨在實現類似 Sora 的文本到視頻能力。Mora 通過將視頻生成任務分解為多個子任務,并為每個子任務分配專門的智能體來執行,例如從文本提示生成圖像、基于條件編輯或細化圖像、從圖像生成制作視頻、連接視頻等。通過這種靈活的智能體合作,Mora 能完成廣泛的視頻生成任務,滿足用戶多樣化需求。該工作希望 Mora 項目能通過協作的 AI 智能體,引導視頻生成技術的未來發展。

方法概述

Mora 是一個面向視頻生成的多智能體框架,它通過將復雜的工作拆解為更小、更具體的任務,利用不同能力的智能體之間的協作來解決視頻生成任務。該框架定義了五種基本角色:文本選擇與生成智能體、文本到圖像生成智能體、圖像到圖像生成智能體、圖像到視頻生成智能體和視頻到視頻智能體。


  • 智能體的定義:

1. 文本選擇與生成智能體:在開始圖像生成之前,文本提示經過嚴格處理和優化,使用大型語言模型(如 GPT-4, Llama)精確分析文本,提取關鍵信息和動作,從而提高結果圖像的相關性和質量。

2. 文本到圖像生成智能體:這個智能體將豐富的文本描述轉換成高質量的初始圖像,深入理解并可視化復雜的文本輸入。

3. 圖像到圖像生成智能體:該智能體根據特定文本指令修改源圖像,能夠根據文本的意圖進行詳細識別,并將這些指示轉換成視覺上的修改。

4. 圖像到視頻生成智能體:負責將靜態圖像轉換成連貫的視頻序列,分析圖像的內容和風格,生成后續幀以確保時間上的穩定性和視覺上的一致性。

5. 視頻到視頻智能體:創建基于用戶提供的兩個輸入視頻的無縫過渡視頻,精準識別兩個視頻中的共同元素和風格,以確保輸出的連貫性和視覺吸引力。

  • 方法:

Mora 框架通過設定不同智能體的專長和工作方式,精心設計了六種文本到視頻生成任務,展現了在視頻生成領域的靈活應用和高度定制化。這些任務涵蓋了從基礎的文本直接生成視頻到復雜的視頻編輯和世界模擬,充分利用了各智能體之間的互動和協作,為用戶提供了一套全面的視頻生成解決方案。

1. 文本到視頻生成:用戶提供詳細的文本描述,文本到圖像智能體首先根據這些描述生成初始圖像。然后,圖像到視頻智能體基于此圖像生成一系列連續幀,逐步展現文本中描述的場景或動作,以形成連貫的視頻。

2. 條件文本圖像到視頻生成:與第一個任務相似,但區別在于輸入不僅包括文本描述還包括一個初始圖像。這種方法結合了文本和圖像的信息,為視頻生成提供了更加豐富和具體的上下文。

3. 擴展生成視頻:此任務旨在延續已有視頻的故事線。通過分析輸入視頻的最后一幀,視頻生成智能體生成新的幀序列,無縫擴展視頻內容,創造出更長的敘事視頻。

4. 視頻到視頻編輯:通過圖像到圖像智能體對視頻的第一幀進行編輯(根據用戶的文本提示),然后利用這個編輯過的圖像作為基礎,圖像到視頻智能體生成反映所需更改的新視頻序列。這個任務允許對視頻內容進行細微到顯著的修改。

5. 連接視頻:這個任務使用圖像到視頻智能體,通過分析第一個視頻的最后一幀和第二個視頻的第一幀,創造出一個平滑連接兩個視頻的新視頻,確保過渡自然且內容上的連貫性。

6. 模擬數字世界:專注于創造整個視頻序列在數字世界風格中的體驗。通過在編輯提示中添加特定短語,指示圖像到視頻智能體按照數字世界的美學生成視頻序列,或者使用圖像到圖像智能體將現實圖像轉換為數字風格,推動視頻生成的邊界,創造出沉浸式的數字環境。

每個任務都體現了 Mora 框架中各智能體的特定職能和它們在處理視頻生成任務時的互補性,從基本的文本解析到復雜的視覺轉換,再到視頻內容的延伸和編輯,為用戶打造了一個多樣化和高效的視頻生成平臺。

實驗

在實驗評估中,該研究采用了多個指標來衡量 Mora 的性能,包括視頻質量、對象一致性、背景一致性、動態程度、影像質量和時空風格一致性等。下面是一些關鍵的實驗結果和數字,這些結果展現了 Mora 在不同視頻生成任務中的性能表現:

1. 文本到視頻生成:Mora 在視頻質量方面得分為 0.792,接近 Sora 的 0.797,表明其生成的視頻質量與 Sora 相近。對象一致性得分為 0.95,與 Sora 相等,顯示出在視頻中保持對象外觀的一致性。動態程度的得分為 0.70,略高于 Sora 的 0.69,這表明 Mora 生成的視頻在展現動態變化方面有較好的表現。

圖片

2. 文本條件下的圖像到視頻生成:在這個任務中,Mora 的視頻與文本整合性(VideoTI)得分為 0.88,略低于 Sora 的 0.90,但依然表現出良好的文本理解和視頻生成能力。動態程度(Dynamic Degree)得分為 0.75,與 Sora 持平,說明 Mora 能夠在此任務中生成具有活動感的視頻。

圖片

3. 擴展生成的視頻:Mora 在時空一致性(Temporal Consistency)上的得分為 0.94,略低于 Sora 的 0.99,但仍顯示出其能夠有效延續視頻內容的能力。影像質量得分為 0.39,顯示出在擴展視頻時保持較高視覺質量的能力。

圖片

4. 視頻到視頻編輯:在這個任務中,Mora 的影像質量得分為 0.38,雖然低于 Sora 的 0.52,但考慮到 Mora 是一個開源模型,這一分數仍反映了其在視頻編輯方面的潛力。

圖片

5. 連接視頻:Mora 在連接視頻任務中的影像質量得分為 0.42,低于 Sora 的 0.52。這表明在生成流暢過渡視頻方面,Mora 與 Sora 之間存在一定的性能差距。

圖片

6. 模擬數字世界:在這項任務中,Mora 的影像質量得分為 0.52,略低于 Sora 的 0.62,但在外觀風格(Appearance Style)得分方面與 Sora 持平,均為 0.23。

圖片

這些實驗結果表明,盡管 Mora 在一些視頻生成任務中與 Sora 存在性能差距,但在多個方面仍表現出了強大的性能和潛力。特別是,Mora 在文本到視頻生成任務中表現出了與其他領先模型相當的性能,同時還具有開放源代碼的優勢,為未來的研究和開發提供了廣闊的可能性。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-03-22 13:05:23

數據訓練

2024-10-15 17:28:05

2024-04-07 14:56:22

技術應用

2024-02-26 16:55:51

Sora人工智能

2024-02-19 07:58:01

OpenAI模型GPT

2025-02-27 12:44:41

2024-07-23 14:10:48

2024-12-12 10:00:00

2024-09-23 15:40:00

2025-05-12 08:19:13

2025-02-26 09:44:14

2024-02-19 08:31:10

SoraAIOpenAI

2024-02-29 15:39:00

AI研究算力

2025-03-05 11:23:44

2023-04-03 10:04:44

開源模型

2024-10-28 07:30:00

2024-04-25 13:14:19

模型數據

2025-01-26 10:50:00

模型視頻生成

2024-10-12 12:30:18

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区在线不卡 | 日韩欧美在线视频 | 色播视频在线观看 | 成人污污视频 | 日韩综合在线视频 | 中文字幕 在线观看 | 成人欧美一区二区 | 日韩中文一区二区三区 | 日韩蜜桃视频 | 天天拍天天草 | 操视频网站| 99re在线视频 | 99精品欧美一区二区三区 | 国产精品人人做人人爽 | 亚洲欧美激情国产综合久久久 | 国产一区二区三区四区hd | 国内自拍第一页 | 国产精品一区在线观看 | 久久久精品网站 | 天天插天天干 | www.青青草 | 日韩精品免费在线观看 | 日韩在线精品 | 色综网 | 亚洲国产精品久久久久婷婷老年 | 亚洲精品视频免费看 | 久久神马 | 二区三区av | 国产91在线播放 | 国产日韩欧美在线 | 国产日韩欧美中文字幕 | 亚洲视频精品 | 日韩在线精品视频 | 精品一区二区三区四区在线 | 国产免费一区二区三区 | 视频在线一区二区 | 99爱在线视频 | 亚洲精品二区 | 国产精品日韩一区二区 | 国产精产国品一二三产区视频 | 国产不卡在线观看 |