成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

中國如何復刻Sora,華人團隊長文解構!996 OpenAI研究員:Sora是視頻GPT-2時刻

人工智能 新聞
自曝996作息的OpenAI研究員Jason Wei表示,Sora代表著視頻生成的GPT-2時刻。競爭的關鍵,就是算力和數據了。國內有可能成功「復刻」Sora嗎?華人團隊的這份37頁技術報告,或許能給我們一些啟發。

今天,這張圖在AI社區熱轉。

它列舉了一眾文生視頻模型的誕生時間、架構和作者機構。

毫不意外,谷歌依然是視頻模型開山之作的作者。不過如今AI視頻的聚光燈,全被Sora搶去了。

同時,自曝996作息時間表的OpenAI研究員Jason Wei表示——

「Sora是一個里程碑,代表著視頻生成的GPT-2時刻。」

對于文字生成領域,GPT-2無疑是一個分水嶺。2018年GPT-2的推出,標志著能夠生成連貫、語法正確的文本段落的新時代。

當然,GPT-2也難以完成一篇完整無誤的文章,會出現邏輯不一致或捏造事實的情況。但是,它為后續的模型發展奠定了基礎。

在不到五年內,GPT-4已經能夠執行串聯思維這種復雜任務,或者寫出一篇長文章,過程中并不會捏造事實。

而今天,Sora已經也意味著這樣的時刻。

它能創作出既有藝術感又逼真的短視頻。雖然還不能創作出長達40分鐘的電視劇,但角色的一致性和故事性已經非常引人入勝!

Jason Wei相信,在Sora以及未來的視頻生成模型中,保持長期一致性、近乎完美的逼真度、創作有深度的故事情節這些能力,都會逐漸成型。

Sora會顛覆好萊塢嗎?它離電影大片還有多遠?

好萊塢知名導演Tyler Perry在看到Sora生成的視頻后,大為震驚,決定撤掉自己亞特蘭大工作室耗資8億美元的擴建計劃。

因為以后拍攝的大片中,可能不需要找取景地,或者搭建實景了。

所以,Sora會顛覆電影產業嗎?Jason Wei表示,它就像現在的GPT-4一樣,可以作為一種輔助工具提升作品質量,所以距離專業的電影制作還有一段距離。

而現在,視頻和文本的最大區別就是,前者的信息密度較低,所以在視頻推理等技能的學習上,就會需要大量的算力和數據。

因此,高質量視頻數據的競爭會非常激烈!就像現在各家都在爭搶高質量的文本數據集。

另外,將視頻與其他信息模式結合起來,作為學習過程的輔助信息將極為關鍵。

并且在未來,擁有視頻處理經驗的AI研究人員會變得非常搶手!不過,他們也需要像傳統的自然語言處理研究者那樣,適應新的技術發展趨勢。

沒有中間物理模型,但已具備革命性

OpenAI的TikTok賬號,還在不斷放出Sora的新作品。

Sora離好萊塢大片距離還有多遠?讓我們來看看這個電影中經常出現的場景——瓢潑大雨中,一輛車在夜色中飛速穿過城市街道。

圖片

A super car driving through city streets at night with heavy rain everywhere, shot from behind the car as it drives

再比如,Sora生成的工地上,叉車、挖掘機、腳手架和建筑工人們也都十分逼真。

并且,它還拍出了微型攝影的效果,讓一切都看起來像一個縮影。

圖片

當然,仔細看,畫面還會存在一些問題。

比如一個人會突然分裂成好幾個人。

或者,一個人忽然變成了另一個。

圖片

AI公司創始人swyx總結說,根本原因還是因為Sora沒有中間物理模型,這完全是LeCun所提世界模型的對立面。

不過,它依然為電影制作流程創造了質的飛躍,大大降低了成本。

雖然Runway可以實現類似功能,但Sora將一切都提升到了一個新的水平。

以下是Sora和Pika、Runway Gen-2、AnimateDiff和LeonardoAI的比較。

圖片

圖片

人人都能拍自己的電影

在不久的將來,或許我們每個人都可以在幾分鐘內生成自己的電影了。

比如,我們可以用ChatGPT幫忙寫出劇本,然后用Sora進行文字轉視頻。在未來,Sora一定會突破60s的時間限制。

圖片

想象一下,在你的腦海里拍出一部從未存在過的電影,是什么感覺

或者,我們可以用Dall-E或者Midjourney生成圖像,然后用Sora生成視頻。

圖片

D-ID可以讓角色的嘴部、身體動作和所說的臺詞保持一致。

此前風靡全網的《哈利波特》巴黎世家時尚大片

ElevenLabs,可以為視頻中的角色配音,增強視頻的情感沖擊力,創造視覺和聽覺敘事的無縫融合。

做自己的大片,就是這么簡單!

可惜的是,Sora的訓練成本大概要千萬美元級別。

去年ChatGPT發布后,一下子涌現出千模大戰的盛況。而這次Sora距離誕生已有半個月了,各家公司仍然毫無動靜。

中國公司該如何復刻Sora?

恰恰在最近,華人團隊也發布了非常詳細的Sora分析報告,或許能給這個問題一些啟發。

華人團隊逆向工程分析Sora

最近,來自理海大學的華人團隊和微軟副總裁高劍峰博士,聯合發布了一篇長達37頁的分析論文。

通過分析公開的技術報告和對模型的逆向工程研究,全面審視了Sora的開發背景、所依賴的技術、其在各行業的應用前景、目前面臨的挑戰,以及文本轉視頻技術的未來趨勢。

其中,論文主要針對Sora的開發歷程和構建這一「虛擬世界模擬器」的關鍵技術進行了研究,并深入探討了Sora在電影制作、教育、營銷等領域的應用潛力及其可能帶來的影響。

圖片

論文地址:https://arxiv.org/abs/2402.17177

項目地址:https://github.com/lichao-sun/SoraReview

如圖2所示,Sora能夠表現出精準地理解和執行復雜人類指令的能力。

而在制作能夠細致展現運動和互動的長視頻方面,Sora也取得了長足的進展,突破了以往視頻生成技術在視頻長度和視覺表現上的限制。這種能力標志著AI創意工具的重大飛躍,使得用戶能將文字敘述轉化為生動的視覺故事。

研究人員認為,Sora之所以能達到這種高水平,不僅是因為它能處理用戶輸入的文本,還因為它能理解場景中各個元素復雜的相互關系。

如圖3所示,過去十年里,生成式計算機視覺(CV)技術的發展路徑十分多樣,尤其是在Transformer架構成功應用于自然語言處理(NLP)之后,變化顯著。

研究人員通過將Transformer架構與視覺組件相結合,推動了其在視覺任務中的應用,比如開創性的視覺Transformer(ViT)和Swin Transformer。

與此同時,擴散模型在圖像與視頻生成領域也取得了突破,它們通過U-Net技術將噪聲轉化為圖像,展示了數學上的創新方法。

從2021年開始,AI領域的研究重點,便來到了那些能夠理解人類指令的語言和視覺生成模型,即多模態模型。

隨著ChatGPT的發布,我們在2023年看到了諸如Stable Diffusion、Midjourney、DALL-E 3等商業文本到圖像產品的涌現。

然而,由于視頻本身具有的時間復雜性,目前大多數生成工具僅能制作幾秒鐘的短視頻。

在這一背景下,Sora的出現象征著一個重大突破——它是第一個能夠根據人類指令生成長達一分鐘視頻的模型,其意義可與ChatGPT在NLP領域的影響相媲美。

如圖4所示,Sora的核心是一個可以靈活地處理不同維度數據的Diffusion Transformer,其主要由三個部分組成:

1. 首先,時空壓縮器會把原始視頻轉映射到潛空間中。

2. 接著,視覺Transformer(ViT)模型會對已經被分詞的潛表征進行處理,并輸出去除噪聲后的潛表征。

3. 最后,一個與CLIP模型類似的系統根據用戶的指令(已經通過大語言模型進行了增強)和潛視覺提示,引導擴散模型生成具有特定風格或主題的視頻。在經過多次去噪處理之后,會得到生成視頻的潛表征,然后通過相應的解碼器映射回像素空間。

圖片

數據預處理

- 可變的持續時間、分辨率和高寬比

如圖5所示,Sora的一大特色是它能夠處理、理解并生成各種大小的視頻和圖片,從寬屏的1920x1080p視頻到豎屏的1080x1920p視頻,應有盡有。

如圖6所示,與那些僅在統一裁剪的正方形視頻上訓練的模型相比,Sora制作的視頻展示了更好的畫面布局,確保視頻場景中的主體被完整捕捉,避免了因正方形裁剪而造成的畫面有時被截斷的問題。

圖片

Sora對視頻和圖片特征的精細理解和保留,在生成模型領域是一個重大的進步。

它不僅展現了生成更真實和吸引人的視頻的可能性,還突出了訓練數據的多樣性對生成式AI取得高質量結果的重要性。

- 統一的視覺表征

為了有效處理各種各樣的視覺輸入,比如不同長度、清晰度和畫面比例的圖片和視頻,一個重要的方法是把這些視覺數據轉換為統一的表征。這樣做還有利于對生成模型進行大規模的訓練。

具體來說,Sora首先將視頻壓縮到「低維潛空間」,然后再將表征分解成「時空patches」。

- 視頻壓縮網絡

如圖7所示,Sora的視頻壓縮網絡(或視覺編碼器)的目標是降低輸入數據的維度,并輸出經過時空壓縮的潛表征。

技術報告中的參考文獻顯示,這種壓縮技術是VAE或矢量量化-VAE(VQ-VAE)基礎上的。然而,根據報告,如果不進行圖像的大小調整和裁剪,VAE很難將不同尺寸的視覺數據映射到一個統一且大小固定的潛空間中。

針對這個問題,研究人員探討了兩種可能的技術實現方案:

1. 空間patches壓縮

這一過程需要將視頻幀轉換成固定大小的patches,與ViT和MAE模型采用的方法相似(如圖8所示),然后再將其編碼到潛空間中。

通過這種方式,模型可以高效地處理具有不同分辨率和寬高比的視頻,因為它能通過分析這些patches來理解整個視頻幀的內容。接下來,這些空間Token會按時間順序排列,形成空間-時間潛表征。

圖片

2. 空間-時間patches壓縮

這種技術包含了視頻數據的空間和時間維度,不僅考慮了視頻畫面的靜態細節,還關注了畫面之間的運動和變化,從而全面捕捉視頻的動態特性。利用三維卷積是實現這種整合的直接而有效的方法

- 潛空間patches

在壓縮網絡部分還有一個關鍵問題:在將patches送入Diffusion Transformer的輸入層之前,如何處理潛空間維度的變化(即不同視頻類型的潛特征塊或patches的數量)。

根據Sora的技術報告和相應的參考文獻,patch n' pack(PNP)很可能是一種解決方案。

如圖10所示,PNP將來自不同圖像的多個patches打包在一個序列中。

在這里,patch化和token嵌入步驟需要在壓縮網絡中完成,但Sora可能會像Diffusion Transformer那樣,進一步將潛在的patch化為Transformer token。

- Diffusion Transformer

建模

- 圖像Diffusion Transformer

DiT和U-ViT是最早將視覺Transformers用于潛在擴散模型的工作之一。與ViT一樣,DiT也采用多頭自注意力層和點卷積前饋網絡,交錯一些層歸一化和縮放層。

此外,DiT還通過自適應層歸一化(AdaLN)并增加了一個額外的MLP層進行零初始化,這樣初始化每個殘差塊為恒等函數,從而極大地穩定了訓練過程。

U-ViT將所有輸入,包括時間、條件和噪聲圖像patches,都視為token,并提出了淺層和深層Transformer層之間的長跳躍連接。結果表明,U-ViT在圖像和文本到圖像生成中取得了破紀錄的FID分數。

類似于掩碼自編碼器(MAE)的方法,掩碼擴散Transformer(MDT)也在擴散過程中加入了掩碼潛模型,有效提高了對圖像中不同對象部分之間上下文關系的學習能力。

如圖12所示,MDT會在訓練階段使用側插值進行額外的掩碼token重建任務,以提高訓練效率,并學習強大的上下文感知位置嵌入進行推理。與DiT相比,MDT實現了更好的性能和更快的學習速度。

在另一項創新工作中,Diffusion Vision Transformers(DiffiT)采用了時間依賴的自注意力(TMSA)模塊來對采樣時間步驟上的動態去噪行為進行建模。

此外,DiffiT還采用了兩種混合分層架構,分別在像素空間和潛空間中進行高效去噪,并在各種生成任務中實現了新的SOTA。

- 視頻Diffusion Transformer

由于視頻的時空特性,在這一領域應用DiT所面臨的主要挑戰是:

(1)如何從空間和時間上將視頻壓縮到潛空間,以實現高效去噪;

(2)如何將壓縮潛空間轉換為patches,并將其輸入到Transformer中;

(3)如何處理長距離的時空依賴性,并確保內容的一致性。

Imagen Video是谷歌研究院開發的文本到視頻生成系統,它利用級聯擴散模型(由7個子模型組成,分別執行文本條件視頻生成、空間超分辨率和時間超分辨率)將文本提示轉化為高清視頻。

如圖13所示,首先,凍結的T5文本編碼器會根據輸入的文本提示生成上下文嵌入。隨后,嵌入信息被注入基礎模型,用于生成低分辨率視頻,然后通過級聯擴散模型對其進行細化,以提高分辨率。

圖片

Blattmann等人提出了一種創新方法,可以將2D潛擴散模型(Latent Diffusion Model, LDM)轉換為視頻潛擴散模型(Video Latent Diffusion Model, Video LDM)。

語言指令跟隨

模型指令調優旨在增強AI模型準確跟隨提示的能力。

為了提高文本到視頻模型跟隨文本指令的能力,Sora采用了與DALL-E 3類似的方法。

該方法涉及訓練一個描述性字幕生成模型,并利用該模型生成的數據進一步微調。

通過這種指令調優,Sora能夠滿足用戶的各種要求,確保對指令中的細節給予精確的關注,進而生成的視頻能夠滿足用戶的需求。

提示工程

- 文本提示

文本提示對于指導Sora等文本到視頻模型,制作既具有視覺沖擊力,又能精確滿足用戶創建視頻需求至關重要。

這就需要制作詳細的說明來指導模型,以效彌補人類創造力與AI執行能力之間的差距。

Sora的提示涵蓋了廣泛的場景。

最近研究工作,如VoP、Make-A-Video和Tune-A-Video等,都展示了提示工程如何利用模型的NLP能力來解碼復雜指令,并將其呈現為連貫、生動和高質量的視頻敘事。

如圖15所示經典Sora演示,「一個時髦的女人走在霓虹燈閃爍的東京街頭...... 」

提示中,包含了人物的動作、設定、角色出場,甚至是所期望的情緒,以及場景氛圍。

就是這樣一個精心制作的文本提示,它確保Sora生成的視頻與預期的視覺效果非常吻合。

提示工程的質量取決于對詞語的精心選擇、所提供細節的具體性,以及對其對模型輸出影響的理解。

- 圖像提示

圖像提示就是要給生成的視頻內容和其他元素(如人物、場景和情緒),提供一個視覺錨點。

此外,文字提示還可以指示模型將這些元素動畫化,例如,添加動作、互動和敘事進展等層次,使靜態圖像栩栩如生。

通過使用圖像提示,Sora可以利用視覺和文本信息將靜態圖像轉換成動態、由敘事驅動的視頻。

在圖16中,展示了AI生成的視頻「一只頭戴貝雷帽、身穿高領毛衣的柴犬」、「一個獨特的怪物家族」、「一朵云組成了SORA一詞」,以及 「沖浪者在一座歷史悠久的大廳內乘著巨浪」。

這些例子展示了通過DALL-E生成的圖像提示Sora可以實現的功能。

圖片

- 視頻提示

視頻提示也可用于視頻生成。

最近的研究,如Fast-Vid2Vid表明,好的視頻提示需要具體,且靈活。

圖片

這樣既能確保模型在特定目標(如特定物體和視覺主題的描述)上獲得明確的指導,又能在最終輸出中富有想象力的變化。

例如,在視頻擴展任務中,提示可以指定擴展的方向(時間向前或向后)和背景或主題。

在圖17(a)中,視頻提示指示Sora向后延伸一段視頻,以探索原始起點的事件。

(b)所示,在通過視頻提示執行視頻到視頻的編輯時,模型需要清楚地了解所需的轉換,例如改變視頻的風格、場景或氛圍,或改變燈光或情緒等微妙的方面。

(c)中,提示指示Sora連接視頻,同時確保視頻中不同場景中的物體之間平滑過渡。

圖片

Sora對各行業的影響

最后,研究團隊還針對Sora可能在電影、教育、游戲、醫療保健和機器人領域產生的影響做了預測。

隨著以Sora為代表的視頻擴散模型成為前沿技術,其在不同研究領域和行業的應用正在迅速加速。

這項技術的影響遠遠超出了單純的視頻創作,為從自動內容生成到復雜決策過程等任務提供了變革潛力。

電影

視頻生成技術的出現預示著電影制作進入了一個新時代,用簡單的文本中自主制作電影的夢想正在變為現實。

研究人員已經涉足電影生成領域,將視頻生成模型擴展到電影創作中。

比如使用MovieFactory,利用擴散模型從ChatGPT制作的腳本中生成電影風格的視頻,整個工作流已經跑通了。

MobileVidFactory只需用戶提供簡單的文本,就能自動生成垂直移動視頻。

圖片

而Sora能夠毫不費力地讓用戶生成效果非常炸裂的電影片段,標志著人人都能制作電影的時刻來臨了。

這會大大降低了電影行業的準入門檻,并為電影制作引入了一個新的維度,將傳統的故事講述方式與人工智能驅動的創造力融為一體。

這些AI的影響不僅僅是讓電影制作變得簡單,還有可能重塑電影制作的格局,使其在面對不斷變化的觀眾喜好和發行渠道時,變得更加容易獲得,用途更加廣泛。

機器人

人們都說,2024年是機器人元年。

正是因為大模型的爆發,再加上視頻模型的迭代升級,讓機器人進入了一個新時代——

生成和解釋復雜的視頻序列,感知和決策能力增強。

尤其,視頻擴散模型釋放了機器人新能力,使其能夠與環境互動,并以前所未有的復雜度和精確度執行任務。

將web-scale擴散模型引入機器人技術,展示了利用大規模LLM增強機器人視覺和理解能力的潛力。

比如,在DALL-E加持下的機器人,能夠準確擺好餐盤。

另一種視頻預測新技術——潛在擴散模型(Latent diffusion model。

它可以通過語言指導,讓機器人能夠通過預測視頻中的動作結果,來理解和執行任務。

此外,機器人研究對環境模擬的依賴,可以通過視頻擴散模型——能創建高度逼真的視頻序列來解決。

這樣一來,就能為機器人生成多樣化的訓練場景,打破真實世界數據匱乏所帶來的限制。

研究人員相信,將Sora等技術整合到機器人領域有望取得突破性發展。

利用Sora的強大功能,未來的機器人技術將取得前所未有的進步,機器人可以無縫導航并與周圍環境進行互動。

另外,對于游戲、教育、醫療保健等行業,AI視頻模型也將為此帶來深刻的變革。

最后,好消息是,Sora現在雖然還沒有開放功能,但我們可以申請紅隊測試。

圖片

從申請表中可以看出,OpenAI正在尋找以下認知科學、化學、生物、物理、計算機、經濟學等領域的專家。

圖片

符合條件的同學,可以上手申請了!

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-02-19 09:10:46

OpenAISora功能

2024-02-19 14:03:38

數據訓練

2024-12-20 14:37:47

2024-04-28 08:50:00

模型數據

2022-07-15 10:37:22

AI研究數據

2024-12-18 07:15:00

2024-06-20 13:44:48

OpenAIV2A模型

2024-02-20 13:09:00

AI視頻

2024-02-23 15:53:13

OpenAISora人工智能

2024-02-22 08:00:00

SoraOpenAI

2025-03-05 11:23:44

2024-02-21 23:11:19

2024-02-19 07:58:01

OpenAI模型GPT

2024-03-22 13:05:23

數據訓練

2024-03-04 07:30:00

Sora論文研究

2024-03-25 00:30:00

AI框架

2024-03-27 18:19:26

OpenAIChatGPT數據

2024-02-28 16:14:28

2023-12-16 09:45:56

論文GPT-4AI

2024-12-10 09:56:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩成人在线播放 | 日韩理论电影在线观看 | 亚洲精品久久久久久久久久久久久 | 午夜网站视频 | 欧美日韩综合一区 | 欧日韩不卡在线视频 | 噜久寡妇噜噜久久寡妇 | 亚洲va欧美va天堂v国产综合 | 免费在线一区二区 | 日韩精品在线免费观看视频 | 国产99久久精品一区二区永久免费 | 香蕉一区 | 久久精品一区二区三区四区 | 色综合欧美 | 久久91 | 偷拍自拍网站 | 91精品国产乱码久久久 | 亚洲三级在线 | 精品国产一区二区三区性色 | av国产精品毛片一区二区小说 | 毛片一级片 | 日韩av一区二区在线观看 | 日韩在线中文 | 你懂的在线视频播放 | 亚洲xxxxx | 久精品久久 | av福利网 | 伊人伊人伊人 | 最新中文字幕一区 | 国产高清一区 | 懂色av一区二区三区在线播放 | 国产精品99久久久久久宅男 | 日日欧美 | www.4虎影院 国产999精品久久久影片官网 | 久久精品视频网站 | 婷婷五月色综合香五月 | 欧美 中文字幕 | 久久这里只有精品首页 | 成年人黄色一级毛片 | 日韩一区二区三区视频 | 国产成人高清视频 |