成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

北大發起復現Sora,框架已搭!袁粒田永鴻領銜,AnimateDiff大神響應

人工智能 新聞
對于Sora視頻的可變長寬比,團隊通過參考上海AI Lab剛剛提出的FiT(Flexible Vision Transformer for Diffusion Model,即“升級版DiT”)實施一種動態掩碼策略,從而在并行批量訓練的同時保持靈活的長寬比。

重磅:

北大團隊聯合兔展發起了一項Sora復現計劃——Open Sora

圖片

框架、實現細節已出:

圖片

初始團隊一共13人:

帶隊的是北大信息工程學院助理教授、博導袁粒和北大計算機學院教授、博導田永鴻等人。

為什么發起這項計劃?

因為資源有限,團隊希望集結開源社區的力量,盡可能完成復現。

圖片

消息一出,就有人北大校友兼AnimateDiff貢獻者等人即刻響應:

圖片

還有人表示可以提供高質量數據集:

圖片

所以,“國產版Sora”的新挑戰者,就這么來了?

計劃細節,已完成3個初步功能

首先,來看目前公布的技術細節——即團隊打算如何復現Sora。

整體框架上,它將由三部分組成:

  • Video VQ-VAE
  • Denoising Diffusion Transformer(去噪擴散型Transformer)
  • Condition Encoder(條件編碼器)

這和Sora技術報告的內容基本差不多。

對于Sora視頻的可變長寬比,團隊通過參考上海AI Lab剛剛提出的FiT(Flexible Vision Transformer for Diffusion Model,即“升級版DiT”)實施一種動態掩碼策略,從而在并行批量訓練的同時保持靈活的長寬比。

圖片

具體來說, 我們將高分辨率視頻在保持長寬比的同時下采樣至最長邊為256像素, 然后在右側和底部用零填充至一致的256x256分辨率。這樣便于videovae以批量編碼視頻, 以及便于擴散模型使用注意力掩碼對批量潛變量進行去噪。

圖片

對于可變分辨率,團隊則表示在推理過程中,盡管在固定的256x256分辨率上進行訓練,,但使用位置插值來實現可變分辨率采樣。

具體而言:

我們將可變分辨率噪聲潛變量的位置索引從[0, seq_length-1]下調到[0, 255],以使其與預訓練范圍對齊。這種調整使得基于注意力的擴散模型能夠處理更高分辨率的序列。對于可變時長,則使用VideoGPT中的Video VQ-VAE,,將視頻壓縮至潛在空間,支持這一功能。

同時,還要在擴展空間位置插值至時空維度,實現對可變時長視頻的處理。

在此,主頁也先給了兩個demo,分別是10s視頻重建和18s重建,分辨率分別為256x256和196x196:

圖片

這三個功能都已經初步實現。

相關的訓練代碼也已經在對應的倉庫上上線:

圖片

成員介紹,目前的訓練是在8個A100-80G上進行的(明顯還遠遠不夠),輸入大小為8幀 128 128,大概需要1周時間才能生成類似ucf(一個視頻數據集)的效果。

圖片

而從目前已經列出的9項to do事項來看,除了可變長寬比、可變分辨率和可變時長,動態掩碼輸入、在embeddings上添加類條件這兩個任務也已完成。

未來要做的包括:

  • 采樣腳本
  • 添加位置插值
  • 在更高分辨率上微調Video-VQVAE
  • 合并SiT
  • 納入更多條件
  • 以及最重要的:使用更多數據和更多GPU進行訓練

圖片

袁粒、田永鴻領銜

嚴格來說,Open Sora計劃是北大-兔展AIGC聯合實驗室聯合發起的。

領銜者之一袁粒,為北大信息工程學院助理教授、博導,去年獲得福布斯30歲以下亞洲杰出人物榜單。

圖片

他分別在中國科學技術大學和新加坡國立大學獲得本科和博士學位。

研究方向為深度視覺神經網絡設計和多模態機器學習,代表性一作論文之一T2T-ViT被引次數1000+。

領銜者之二田永鴻,北京大學博雅特聘教授,博士生導師,IEEE、ACM等fellow,兼任鵬城實驗室(深圳)人工智能研究中心副主任,曾任中科院計算所助理研究員、美國明尼蘇達大學訪問教授。

圖片

從目前公布的團隊名單來看,其余成員大部分為碩士生。

包括袁粒課題組的林彬,他曾多次以一作或共同一作身份參與了“北大版多模態MoE模型”MoE-LLaVA、Video-LLaVA和多模態對齊框架LanguageBind(入選ICLR 2024)等工作。

圖片

兔展這邊,參與者包括兔展智能創始人、董事長兼CEO董少靈(他也是北大校友)和CTO周星。

完整名單:

圖片

誰能率先發布中文版Sora?

相比ChatGPT,引爆文生視頻賽道的Sora研發難度顯然更大。

誰能奪得Sora中文版的首發權,目前留給公眾的是一個大大的問號。

在這之中,傳聞最大的是字節

今年2月初,張楠辭去抖音集團CEO一職,轉而負責剪映,就引發了外界猜測。

很快,一款叫做“Boximator”的視頻生成模型浮出水面。

它基于PixelDance和ModelScope兩個之前的成果上完成訓練。

不過,很快字節就辟謠這不是“字節版sora”:

它的效果離Sora還有很大差距,暫時不具備落地條件,并且至少還需2-3個月才能上線demo給大家測試。

但,風聲并未就此平息。

去年11月,字節剪映悄悄上線了一個AI繪畫工具“Dreamina”,大家的評價還不錯。

現在,又有消息稱:

Dreamina即將上線類似sora的視頻生成功能(目前在內測)

圖片

不知道,這一次是不是字節亮出的大招呢?

Open Sora項目主頁:https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.htmlhttps://github.com/PKU-YuanGroup/Open-Sora-Plan

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-10-21 12:30:00

模型框架

2023-10-29 22:38:59

2024-03-01 09:10:31

360周鴻祎AI

2024-03-27 13:03:27

AI技術論壇

2013-08-23 14:41:58

周鴻祎創業

2024-10-24 23:37:33

2021-11-22 09:39:21

深度學習神經網絡人工智能

2025-04-25 13:34:53

R1DeepSeekAgent

2024-03-18 15:01:58

SoraAI人工智能

2021-01-08 15:25:55

AI 數據人工智能

2020-09-06 08:23:36

技術人工智能5G

2024-03-06 13:12:21

AI技術論文

2025-04-09 13:25:34

2025-06-27 08:47:12

2021-04-26 14:58:20

AI 數據人工智能

2023-05-19 11:00:19

數據集開源

2010-06-29 17:17:44

SQL Server鎖

2020-09-27 14:28:21

AI 數據人工智能

2024-10-09 13:42:29

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久在线看 | aaa国产大片 | 麻豆va| 亚洲美女一区二区三区 | 久久久精品网站 | 欧美一区二区黄 | 农村真人裸体丰满少妇毛片 | 日日摸夜夜添夜夜添精品视频 | 久草视频观看 | 日美女逼逼 | 亚洲精品视频在线 | 国产成人在线视频免费观看 | 欧美精品久久久久久久久老牛影院 | 色爱综合网 | 欧一区 | 四虎影音| 国产三级 | 亚洲欧美日韩国产 | 久久久久久久久国产成人免费 | 在线视频91 | 亚洲综合字幕 | 中国大陆高清aⅴ毛片 | 久久亚洲欧美日韩精品专区 | 成人福利在线 | 欧洲高清转码区一二区 | 亚洲国产福利视频 | 中文字幕av网 | 中文字幕一区二区三区不卡在线 | 久久黄色网 | 成人av片在线观看 | 一区二区三区四区在线免费观看 | 国产成人高清视频 | 欧美国产视频一区二区 | 中文字幕国产日韩 | 亚洲一区二区在线 | 99久久日韩精品免费热麻豆美女 | 人妖一区| 久久久精品黄色 | 午夜播放器在线观看 | av大片 | 激情五月婷婷在线 |