再談復現 Sora:被仰望與被遺忘的
2月16日,OpenAI 發布了視頻生成領域的重磅模型 —— Sora。
Sora 對 Scaling Law 的信仰及其突破性的技術創新,使它持續保持領先地位。同時,也再次證明了“大力出奇跡”依然適用于文生視頻領域。
Sora 披露的技術細節,遠遠不足以窺其全貌。同時 Sora 目前也未正式對外開放。源于此,針對 Sora 的思考和討論從未停止過。
OpenAI 發布的技術報告
Sora 給整個 AI 領域帶來的最大沖擊,莫過于如何優化和校正現有的視頻生成思路和框架。而由此也引發了持續至今的復現 Sora 的熱潮。
復現 Sora 的動力,一方面來自技術人員的技術執著與技術理想,另一方面也來自于未來可預期的商業價值。
另外,不容忽視的是,這家持續被戲稱為 CloseAI 的人工智能技術研究機構,已然成為了行業內的標桿,幾乎每次發布的產品都能帶來顛覆式的創新。但是 OpenAI 似乎在堅持閉源的道路上越走越遠,這更加點燃了大眾對復現 Sora 的激情。我們可以相信未來的幾個月內,多個類 Sora 模型將會陸續發布,并將開源出來。
Sora 發布后的這一個多月來,其相關技術創新的討論和復現的進度如何呢?下面我們一起來看看。
關于復現 Sora,本文從以下三方面展開:
- 距離 Sora 發布一個多月了,目前復現的進度如何?
- 復現的可能性有多大?國內有什么技術基礎?
- Sora 到底是不是世界模型?能否幫助我們抵達 AGI?有沒有必要復現?
類 Sora 模型
目前已經推出且討論較多的三個模型分別是 Snap Video、Open-Sora 1.0,以及 Mora。
- Snap Video
Snap Video 是2月29日發布的類 Sora 模型,它使用到了可擴展的時空 Transformer,來自開發出 SnapChat 圖片分享軟件的 Snap 公司,以及特倫托大學等機構。
傳送門:《首批類Sora模型出現,色拉布上線Snap Video,效果優于Pika、不輸Gen-2
- Open-Sora 1.0
Open-Sora 1.0 是3月18日全面開源的首個類 Sora 模型,來自 Colossal-AI 團隊,該開源模型涵蓋了整個訓練流程,包括數據處理、所有訓練細節和模型權重。
傳送門:《沒等來OpenAI,等來了Open-Sora全面開源》
- Mora
Mora 是幾天前由理海大學、微軟研究院的研究者提出的多智能體框架,該框架整合了幾種先進的視覺 AI 智能體,以復制 Sora 所展示的通用視頻生成能力。
傳送門:《復刻Sora的通用視頻生成能力,開源多智能體框架Mora來了》
盡管目前的模型復現效果依然無法企及 Sora,但是短短一月有余,已經有明顯的技術突破出現,不失為一個樂觀的信號。據不完全統計,國內已有近 10 支團隊在復現 Sora,讓我們拭目以待。
先于 DiT 的技術架構創新
Sora 使用的 DiT(Diffusion Transformer) 架構目前來看是其最大的技術創新,但追溯來看,也許國內相關的進度更早一些。
- U-ViT 架構
U-ViT 架構
2022年9月,清華團隊提交的名為《All are Worth Words: A ViT Backbone for Diffusion Models》的論文,比 DiT 還要早 2 個月。該論文提出用基于 Transformer 的網絡架構 U-ViT 替代基于 CNN 的 U-Net,這與 Sora 將 Transfomer 和擴散模型融合的思路不謀而合。
傳送門:《國內公司有望做出Sora嗎?這支清華系大模型團隊給出了希望》
- VDT
2023年5月在 arXiv 網站上公開的 Video Diffusion Transformer (VDT),是由中國人民大學研究團隊主導,并與加州大學伯克利分校、香港大學等進行合作的,基于 Transformer 的 Video 統一生成框架。對采用 Transformer 架構的原因也給出了詳細的解釋。
傳送門:《國內高校打造類Sora模型VDT,通用視頻擴散Transformer被ICLR 2024接收》
也許在核心技術的創新上,國內的探索并不落后,而是走在了前面。不過,囿于資源限制以及技術路線規劃等其他原因,沒能在之前實現類似 Sora 的效果。
Sora 無疑驗證出了一條技術可行性的道路,而我們本身在技術架構上的領先探索,將更有利于我們復現出 Sora,甚至可以更加樂觀地相信,在某些領域內超越 Sora 的效果。
Sora 是世界模型嗎?
由 Sora 引發的另一個熱點討論,是關于世界模型的。
Sora 生成的視頻無疑對物理世界有了一定了解,比如經典的“海盜船在咖啡杯里糾纏”,肉眼可見能涉及到專業的流體動力學、光線等物理世界的特征。
但是以 Yann LeCun 為代表的一部分科學家力證 Sora 的訓練方式和世界模型沒有關系。
那 Sora 是不是世界模型,到底懂不懂物理世界?關于這個討論已經蔓延至各個論壇和直播中。可見,對于究竟什么是世界模型這個話題,大家也是見仁見智的。
而我們能明確的是,如果 Sora 是世界模型,那通往通用人工智能(AGI)的理想,可能比我們預計的還要早到達。那復現 Sora 就有了一定的必要性。
關于 Sora,我們保持著好奇,并持續探求以下問題的可能答案。
- Sora 之前的視頻生成架構/技術還能不能用?如何用?
- Sora 之后,誰是被遺忘的?誰又是被仰望的?
- Sora 之外,其他創業公司/團隊要如何做?做什么?
- Sora 會改變主流的技術架構嗎?以 DiT 為代表的架構是以后主流的架構選擇嗎?
- 國內技術力量應不應該復現 Sora?為什么?
- 已知有近 10 支團隊在復現 Sora,我們可能看到的未來格局是什么?
- 為什么是 OpenAI? OpenAI 的模式能否復刻?
- Sora 之后,全球的視頻生成格局是怎樣的?又將如何發展和變化?
- 如何看待一些明星創業公司公開表示不做 Sora?
- 多模態大模型的未來在哪里?
- 不同視角下,如何看待 Sora 的沖擊?(投資人、非技術人、央國企、AI 創業者、從業者等視角)
- OpenAI 扮演著什么樣的社會角色?你如何看待這家公司?
- ……
Sora 帶來的沖擊是顛覆式的,因此對以上問題的求解將持續進行著。而作為聚焦于 AI 前沿技術探索和應用實踐的團隊,機器之心 AI 技術論壇再次將視線放在了視頻生成領域。
4月13日,在北京六道口,我們策劃了一期技術論壇,聚焦 Sora 發布后的技術創新、思考與應用實踐。活動現場匯聚多位重磅嘉賓,同時我們也會更加深入地探討上面提到的問題。
在可預見的未來,相信本次活動能產生一定的積極作用和啟發,以期推動我國 AI 開源社區的技術發展和傳播。
嘉賓陣容
本次論壇的嘉賓陣容強大,我們邀請到了:
- 業內的知名技術專家張俊林老師,來一場 Sora 核心技術的深度拆解
- 爆火的視頻生成模型 PixelDance 的作者,來自字節跳動的曾妍老師,分享 PixelDance 背后的技術創新和應用
- 類 Sora 模型 VDT 的團隊負責人,來自中國人民大學孵化的創業公司——智子引擎的 CEO 高一釗博士,詳細拆解 VDT 的技術創新和實踐
- 投資人是 AI 領域離不開的重要角色,陳石老師作為峰瑞資本的投資合伙人,將帶來投資人/機構視角下的獨特觀察
- 國央企在 Sora 發布后迅速響應,占據了 AI 領域一席之地,來自中移動信息技術有限公司的算法技術負責人童同老師,將會分享他的全新思考
- 類 Sora 模型 Open-Sora 1.0 的技術負責人,來自潞晨科技的 CTO 卞正達老師,更是會詳細拆解如何復現 Sora,以及來自他們團隊的獨特思考與實踐
- 還有更多重磅嘉賓,陸續邀請中……
張俊林
中國中文信息學會理事,中科院軟件所博士
目前擔任新浪微博新技術研發負責人,此前在阿里巴巴擔任資深技術專家,負責新技術團隊。技術書籍《這就是搜索引擎:核心技術詳解》、《大數據日知錄:架構與算法》作者。
曾妍
ByteDance Research 算法工程師
專注于視頻生成和多模態預訓練等領域的前沿研究。主導研發的模型為字節跳動的視頻生成、短視頻審核、電商客服、今日頭條、教育解題等業務提供了有力服務,并以第一作者身份將相關的八篇論文發表在 TPAMI, ICML, CVPR, ACL 等國際頂級會議和期刊,同時也擔任了 TPAMI, ICML, NIPS, ICLR 等會議的審稿人。主導研發的 PixelDance 視頻生成基礎模型在業界首次實現了高動態性和穩定性的結合,并首次生成了3分鐘的連續劇情動畫。
陳石
峰瑞資本 投資合伙人
專注于科技、軟件、互聯網、消費等領域的投資。加入峰瑞資本前,擁有 5 年阿里巴巴管理層經歷,曾擔任阿里巴巴移動事業群副總裁、阿里巴巴文化娛樂集團高管、優酷和 UC 國際班委,深度參與 UC、高德、優酷、土豆、神馬搜索、UC 國際等產品線的業務決策和管理執行。
15+ 年連續創業,作為核心管理團隊成員深度參與 UC(全球最大第三方手機瀏覽器,2014 年被阿里巴巴收購)和拉卡拉(中國知名第三方支付公司,SZ:300773)的創業過程,分別擔任副總裁和 CTO;曾經是一名快樂的程序員,用戶增長專家,科技熱愛者。
擁有北京航空航天大學機電工程系本科和碩士學歷。2023 年獲評 EqualOcean「2023年出海全球化投資TOP30人」、甲子光年「2022-2023 年度人工智能與大數據最佳投資人TOP20」。
高一釗
智子引擎 CEO
中國人民大學高瓴人工智能學院博士。多模態大模型專家,發表多篇頂級期刊、會議論文,曾帶領多人團隊完成文瀾大模型訓練。全程參與智子引擎相關模型、產品的開發與推廣。
卞正達
潞晨科技 CTO
畢業于新加坡國立大學,曾在全球超算最頂尖會議 SC 上發表一作論文,擁有 7 年高性能 AI 系統經驗,Colossal-AI 系統核心開發者。
童同
中移動信息技術有限公司 算法技術負責人
中國科學院自動化研究所 AI 博士。目前在中移動信息技術有限公司負責多模態大模型、數字人、智能體等領域研發工作,實現了文生圖、文生視頻、大模型動作識別與目標檢測等關鍵技術的落地應用。共發表論文 12 篇、公司專利 12 項、軟著 4 項。
更多專家正在確認中,敬請期待。
視頻生成技術與應用 - Sora 時代
機器之心 AI 技術論壇時刻保持對 AI 領域技術突破的敏感追蹤,為了深入探究 Sora 對技術的沖擊和對各行各業帶來的影響,我們特別策劃了「視頻生成技術與應用 — Sora 時代」AI 技術論壇。
希望助力廣大企業和從業者緊跟技術發展潮流,全面了解 Sora、視頻生成技術、多模態大模型等前沿領域的技術突破和應用實踐。
面對撲面而來的 AI 視頻生成,積極擁抱學習并敢于嘗試,才能抓住技術潮流,破局而生。
期待 2024.04.13,在北京海淀區,和你相遇。
論壇報名通道正式開啟,掃描海報中二維碼可直達活動頁面。由于嘉賓介紹發布時間較晚,本場論壇的早鳥優惠期有所延長。
即日起至04月07日23:55,購票參會即可直減 200 元, 享受 699 元早鳥特惠門票(原價 899 元)。五人團購更有專屬優惠,詳見活動詳情頁。
機器之心 AI 技術論壇往期的參會者,請單獨添加 Alice 微信,直達專屬優惠鏈接。
活動亮點
- 贈送永久觀看上一期「視頻生成前沿研究與應用」論壇活動視頻及課件(上期活動已購請聯系 Alice 扣減,本期購買后記得找 Alice 兌換上一期視頻)
- 永久觀看本期「視頻生成技術與應用 - Sora 時代」論壇活動會后視頻及課件
- 匯聚高校教授及產業界重磅技術專家,掌握最新技術,拓寬技術視野
- 和技術大牛面對面交流,會后深度連接
- 覆蓋核心技術拆解、明星產品最佳實踐、技術未來探討及展望
- 全流程助力學習:會前會后學習資料大禮包
- 加入視頻生成高質量技術交流社群,及時跟進行業前沿技術與資訊
- 機器之心旗下相關付費活動享購票八五折優惠
技術交流社群
為了方便技術交流,我們也特意建立了視頻生成技術交流群,歡迎關心 Sora、視頻生成和多模態大模型的技術從業者掃碼加入對話,深入交流技術細節和行業觀察。
關于本次活動商務合作、團購、發票、內容等相關問題,歡迎添加本場活動負責人 Alice 或通過郵件進行咨詢。
微信:15650753618
郵箱:jiayaning@jiqizhixin.com
關于發票:報名成功后,可于活動結束后,在活動行 App 上自行申請發票,發票為電子版增值稅普票,開票成功后會發送到報名郵箱中。
成為論壇志愿者:參與活動現場的具體事項執行,如簽到、引導、秩序管理等,包工作餐。在校學生優先。有意者請聯系 Alice。