再談復現 Sora：被仰望與被遺忘的

2024-03-27 13:03:27

企業動態

機器之心 AI 技術論壇時刻保持對 AI 領域技術突破的敏感追蹤，為了深入探究 Sora 對技術的沖擊和對各行各業帶來的影響，我們特別策劃了「視頻生成技術與應用 — Sora 時代」AI 技術論壇。

2月16日，OpenAI 發布了視頻生成領域的重磅模型 —— Sora。

Sora 對 Scaling Law 的信仰及其突破性的技術創新，使它持續保持領先地位。同時，也再次證明了“大力出奇跡”依然適用于文生視頻領域。

Sora 披露的技術細節，遠遠不足以窺其全貌。同時 Sora 目前也未正式對外開放。源于此，針對 Sora 的思考和討論從未停止過。

OpenAI 發布的技術報告

Sora 給整個 AI 領域帶來的最大沖擊，莫過于如何優化和校正現有的視頻生成思路和框架。而由此也引發了持續至今的復現 Sora 的熱潮。

復現 Sora 的動力，一方面來自技術人員的技術執著與技術理想，另一方面也來自于未來可預期的商業價值。

另外，不容忽視的是，這家持續被戲稱為 CloseAI 的人工智能技術研究機構，已然成為了行業內的標桿，幾乎每次發布的產品都能帶來顛覆式的創新。但是 OpenAI 似乎在堅持閉源的道路上越走越遠，這更加點燃了大眾對復現 Sora 的激情。我們可以相信未來的幾個月內，多個類 Sora 模型將會陸續發布，并將開源出來。

Sora 發布后的這一個多月來，其相關技術創新的討論和復現的進度如何呢？下面我們一起來看看。

關于復現 Sora，本文從以下三方面展開：

距離 Sora 發布一個多月了，目前復現的進度如何？
復現的可能性有多大？國內有什么技術基礎？
Sora 到底是不是世界模型？能否幫助我們抵達 AGI？有沒有必要復現？

類 Sora 模型

目前已經推出且討論較多的三個模型分別是 Snap Video、Open-Sora 1.0，以及 Mora。

Snap Video

Snap Video 是2月29日發布的類 Sora 模型，它使用到了可擴展的時空 Transformer，來自開發出 SnapChat 圖片分享軟件的 Snap 公司，以及特倫托大學等機構。

傳送門：《首批類Sora模型出現，色拉布上線Snap Video，效果優于Pika、不輸Gen-2

Open-Sora 1.0

Open-Sora 1.0 是3月18日全面開源的首個類 Sora 模型，來自 Colossal-AI 團隊，該開源模型涵蓋了整個訓練流程，包括數據處理、所有訓練細節和模型權重。

傳送門：《沒等來OpenAI，等來了Open-Sora全面開源》

Mora

Mora 是幾天前由理海大學、微軟研究院的研究者提出的多智能體框架，該框架整合了幾種先進的視覺 AI 智能體，以復制 Sora 所展示的通用視頻生成能力。

傳送門：《復刻Sora的通用視頻生成能力，開源多智能體框架Mora來了》

盡管目前的模型復現效果依然無法企及 Sora，但是短短一月有余，已經有明顯的技術突破出現，不失為一個樂觀的信號。據不完全統計，國內已有近 10 支團隊在復現 Sora，讓我們拭目以待。

先于 DiT 的技術架構創新

Sora 使用的 DiT（Diffusion Transformer）架構目前來看是其最大的技術創新，但追溯來看，也許國內相關的進度更早一些。

U-ViT 架構

U-ViT 架構

2022年9月，清華團隊提交的名為《All are Worth Words: A ViT Backbone for Diffusion Models》的論文，比 DiT 還要早 2 個月。該論文提出用基于 Transformer 的網絡架構 U-ViT 替代基于 CNN 的 U-Net，這與 Sora 將 Transfomer 和擴散模型融合的思路不謀而合。

傳送門：《國內公司有望做出Sora嗎？這支清華系大模型團隊給出了希望》

VDT

2023年5月在 arXiv 網站上公開的 Video Diffusion Transformer (VDT)，是由中國人民大學研究團隊主導，并與加州大學伯克利分校、香港大學等進行合作的，基于 Transformer 的 Video 統一生成框架。對采用 Transformer 架構的原因也給出了詳細的解釋。

傳送門：《國內高校打造類Sora模型VDT，通用視頻擴散Transformer被ICLR 2024接收》

也許在核心技術的創新上，國內的探索并不落后，而是走在了前面。不過，囿于資源限制以及技術路線規劃等其他原因，沒能在之前實現類似 Sora 的效果。

Sora 無疑驗證出了一條技術可行性的道路，而我們本身在技術架構上的領先探索，將更有利于我們復現出 Sora，甚至可以更加樂觀地相信，在某些領域內超越 Sora 的效果。

Sora 是世界模型嗎？

由 Sora 引發的另一個熱點討論，是關于世界模型的。

Sora 生成的視頻無疑對物理世界有了一定了解，比如經典的“海盜船在咖啡杯里糾纏”，肉眼可見能涉及到專業的流體動力學、光線等物理世界的特征。

但是以 Yann LeCun 為代表的一部分科學家力證 Sora 的訓練方式和世界模型沒有關系。

那 Sora 是不是世界模型，到底懂不懂物理世界？關于這個討論已經蔓延至各個論壇和直播中。可見，對于究竟什么是世界模型這個話題，大家也是見仁見智的。

而我們能明確的是，如果 Sora 是世界模型，那通往通用人工智能（AGI）的理想，可能比我們預計的還要早到達。那復現 Sora 就有了一定的必要性。

關于 Sora，我們保持著好奇，并持續探求以下問題的可能答案。

Sora 之前的視頻生成架構/技術還能不能用？如何用？
Sora 之后，誰是被遺忘的？誰又是被仰望的？
Sora 之外，其他創業公司/團隊要如何做？做什么？
Sora 會改變主流的技術架構嗎？以 DiT 為代表的架構是以后主流的架構選擇嗎？
國內技術力量應不應該復現 Sora？為什么？
已知有近 10 支團隊在復現 Sora，我們可能看到的未來格局是什么？
為什么是 OpenAI? OpenAI 的模式能否復刻？
Sora 之后，全球的視頻生成格局是怎樣的？又將如何發展和變化？
如何看待一些明星創業公司公開表示不做 Sora?
多模態大模型的未來在哪里？
不同視角下，如何看待 Sora 的沖擊？（投資人、非技術人、央國企、AI 創業者、從業者等視角）
OpenAI 扮演著什么樣的社會角色？你如何看待這家公司？
……

Sora 帶來的沖擊是顛覆式的，因此對以上問題的求解將持續進行著。而作為聚焦于 AI 前沿技術探索和應用實踐的團隊，機器之心 AI 技術論壇再次將視線放在了視頻生成領域。

4月13日，在北京六道口，我們策劃了一期技術論壇，聚焦 Sora 發布后的技術創新、思考與應用實踐。活動現場匯聚多位重磅嘉賓，同時我們也會更加深入地探討上面提到的問題。

在可預見的未來，相信本次活動能產生一定的積極作用和啟發，以期推動我國 AI 開源社區的技術發展和傳播。

嘉賓陣容

本次論壇的嘉賓陣容強大，我們邀請到了：

業內的知名技術專家張俊林老師，來一場 Sora 核心技術的深度拆解
爆火的視頻生成模型 PixelDance 的作者，來自字節跳動的曾妍老師，分享 PixelDance 背后的技術創新和應用
類 Sora 模型 VDT 的團隊負責人，來自中國人民大學孵化的創業公司——智子引擎的 CEO 高一釗博士，詳細拆解 VDT 的技術創新和實踐
投資人是 AI 領域離不開的重要角色，陳石老師作為峰瑞資本的投資合伙人，將帶來投資人/機構視角下的獨特觀察
國央企在 Sora 發布后迅速響應，占據了 AI 領域一席之地，來自中移動信息技術有限公司的算法技術負責人童同老師，將會分享他的全新思考
類 Sora 模型 Open-Sora 1.0 的技術負責人，來自潞晨科技的 CTO 卞正達老師，更是會詳細拆解如何復現 Sora，以及來自他們團隊的獨特思考與實踐
還有更多重磅嘉賓，陸續邀請中……

張俊林

中國中文信息學會理事，中科院軟件所博士

目前擔任新浪微博新技術研發負責人，此前在阿里巴巴擔任資深技術專家，負責新技術團隊。技術書籍《這就是搜索引擎：核心技術詳解》、《大數據日知錄：架構與算法》作者。

曾妍

ByteDance Research 算法工程師

專注于視頻生成和多模態預訓練等領域的前沿研究。主導研發的模型為字節跳動的視頻生成、短視頻審核、電商客服、今日頭條、教育解題等業務提供了有力服務，并以第一作者身份將相關的八篇論文發表在 TPAMI, ICML, CVPR, ACL 等國際頂級會議和期刊，同時也擔任了 TPAMI, ICML, NIPS, ICLR 等會議的審稿人。主導研發的 PixelDance 視頻生成基礎模型在業界首次實現了高動態性和穩定性的結合，并首次生成了3分鐘的連續劇情動畫。

陳石

峰瑞資本投資合伙人

專注于科技、軟件、互聯網、消費等領域的投資。加入峰瑞資本前，擁有 5 年阿里巴巴管理層經歷，曾擔任阿里巴巴移動事業群副總裁、阿里巴巴文化娛樂集團高管、優酷和 UC 國際班委，深度參與 UC、高德、優酷、土豆、神馬搜索、UC 國際等產品線的業務決策和管理執行。

15+ 年連續創業，作為核心管理團隊成員深度參與 UC（全球最大第三方手機瀏覽器，2014 年被阿里巴巴收購）和拉卡拉（中國知名第三方支付公司，SZ:300773）的創業過程，分別擔任副總裁和 CTO；曾經是一名快樂的程序員，用戶增長專家，科技熱愛者。

擁有北京航空航天大學機電工程系本科和碩士學歷。2023 年獲評 EqualOcean「2023年出海全球化投資TOP30人」、甲子光年「2022-2023 年度人工智能與大數據最佳投資人TOP20」。

高一釗

智子引擎 CEO

中國人民大學高瓴人工智能學院博士。多模態大模型專家，發表多篇頂級期刊、會議論文，曾帶領多人團隊完成文瀾大模型訓練。全程參與智子引擎相關模型、產品的開發與推廣。

卞正達

潞晨科技 CTO

畢業于新加坡國立大學，曾在全球超算最頂尖會議 SC 上發表一作論文，擁有 7 年高性能 AI 系統經驗，Colossal-AI 系統核心開發者。

童同

中移動信息技術有限公司算法技術負責人

中國科學院自動化研究所 AI 博士。目前在中移動信息技術有限公司負責多模態大模型、數字人、智能體等領域研發工作，實現了文生圖、文生視頻、大模型動作識別與目標檢測等關鍵技術的落地應用。共發表論文 12 篇、公司專利 12 項、軟著 4 項。

更多專家正在確認中，敬請期待。

視頻生成技術與應用 - Sora 時代

希望助力廣大企業和從業者緊跟技術發展潮流，全面了解 Sora、視頻生成技術、多模態大模型等前沿領域的技術突破和應用實踐。

面對撲面而來的 AI 視頻生成，積極擁抱學習并敢于嘗試，才能抓住技術潮流，破局而生。

期待 2024.04.13，在北京海淀區，和你相遇。

論壇報名通道正式開啟，掃描海報中二維碼可直達活動頁面。由于嘉賓介紹發布時間較晚，本場論壇的早鳥優惠期有所延長。

即日起至04月07日23:55，購票參會即可直減 200 元，享受 699 元早鳥特惠門票（原價 899 元）。五人團購更有專屬優惠，詳見活動詳情頁。

機器之心 AI 技術論壇往期的參會者，請單獨添加 Alice 微信，直達專屬優惠鏈接。

活動亮點

贈送永久觀看上一期「視頻生成前沿研究與應用」論壇活動視頻及課件（上期活動已購請聯系 Alice 扣減，本期購買后記得找 Alice 兌換上一期視頻）
永久觀看本期「視頻生成技術與應用 - Sora 時代」論壇活動會后視頻及課件
匯聚高校教授及產業界重磅技術專家，掌握最新技術，拓寬技術視野
和技術大牛面對面交流，會后深度連接
覆蓋核心技術拆解、明星產品最佳實踐、技術未來探討及展望
全流程助力學習：會前會后學習資料大禮包
加入視頻生成高質量技術交流社群，及時跟進行業前沿技術與資訊
機器之心旗下相關付費活動享購票八五折優惠

技術交流社群

為了方便技術交流，我們也特意建立了視頻生成技術交流群，歡迎關心 Sora、視頻生成和多模態大模型的技術從業者掃碼加入對話，深入交流技術細節和行業觀察。

關于本次活動商務合作、團購、發票、內容等相關問題，歡迎添加本場活動負責人 Alice 或通過郵件進行咨詢。

微信：15650753618

郵箱：jiayaning@jiqizhixin.com

關于發票：報名成功后，可于活動結束后，在活動行 App 上自行申請發票，發票為電子版增值稅普票，開票成功后會發送到報名郵箱中。

成為論壇志愿者：參與活動現場的具體事項執行，如簽到、引導、秩序管理等，包工作餐。在校學生優先。有意者請聯系 Alice。

責任編輯：張燕妮來源：機器之心

AI 技術論壇

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看