成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

等不及公開了!最新Sora模型細節揭秘:預計峰值需要72萬塊H100!每月至少4200塊H100!縮放定律依舊有效!

譯文 精選
人工智能
在這篇博文中,我們將深入探討 Sora 背后的一些技術細節。我們還討論了我們目前對這些視頻模型的影響的思考。最后,我們討論了關于用于訓練 Sora 等模型的計算的想法,并提出了訓練計算與推理相比如何的預測,這對估計未來 GPU 需求具有有意義的指示。

作者 | Matthias·Plappert

翻譯 | 言征

出品 | 51CTO技術棧(微信號:blog51cto)

OpenAI的Sora模型能夠生成各種場景的極其逼真的視頻,令世界驚嘆不已。除了一篇公開的技術報告和TikTok上放出的酷炫視頻,就只有OpenAI相關團隊的采訪能夠讓業界獲得零星的信息增量。

不過,研究人員的力量是無窮的。3月15日,專注于創新的投資公司Factorial Funds發表了一篇技術博客,詳細闡釋了自己對于Sora背后的參數規模、算力配置、訓練推理的邏輯和實現細節,以及后續的商業考量。值得感興趣的朋友一飽眼福。 

一、主要發現

在這篇博文中,我們將深入探討 Sora 背后的一些技術細節。我們還討論了我們目前對這些視頻模型的影響的思考。最后,我們討論了關于用于訓練 Sora 等模型的計算的想法,并提出了訓練計算與推理相比如何的預測,這對估計未來 GPU 需求具有有意義的指示。本報告的主要發現總結如下:

  • Sora 是一種建立在擴散Transformer (DiT)、潛在擴散之上的擴散模型,并且似乎顯著擴展了模型和訓練數據集。
  • Sora 證明了擴展視頻模型是值得的,并且類似于大型語言模型 (LLM) 的進一步擴展將成為快速改進模型的主要驅動力。
  • Runway、Genmo和Pika等公司正在致力于圍繞 Sora 等視頻生成模型構建直觀的界面和工作流程。這將決定它們的用途和可用性有多廣泛。
  • Sora 需要大量的計算能力來訓練,估計 1 個月需要 4,200-10,500 個 Nvidia H100 GPU。
  • 為了進行推斷,我們估計 Sora 每個 Nvidia H100 GPU 每小時最多可以生成約 5 分鐘的視頻。與LLM相比,像 Sora 這樣基于擴散的模型的推理成本要高出多個數量級。
  • 隨著類似 Sora 的模型得到廣泛部署,推理計算將取代訓練計算。“收支平衡點”估計為生成 15.3-3810 萬分鐘的視頻,之后用于推理的計算量將超過原始訓練。相比之下,每天上傳 1700 萬分鐘 (TikTok) 和 4300 萬分鐘 (YouTube) 的視頻。
  • 假設 TikTok(占所有視頻分鐘數的 50%)和 YouTube(占所有視頻分鐘數的 15%)等流行平臺上大量采用人工智能來生成視頻,并考慮到硬件利用率和使用模式,我們估計 Nvidia H100 的峰值需求約為 72 萬用于推理的 GPU。

總而言之,Sora 在視頻生成的質量和功能方面取得了重大進展,但也有可能大大增加對 GPU 推理計算的需求。

二、背景

Sora 是一個擴散模型。擴散模型是圖像生成的流行選擇,眾所周知的模型如OpenAI 的 DALL-E或Stability AI 的 Stable Diffusion。最近,Runway、Genmo和Pika 等公司已經探索了視頻生成,可能也利用了擴散模型。

從廣義上講,擴散模型是一種生成機器學習模型,它通過逐漸學習逆轉向數據添加隨機噪聲的過程來學習創建與訓練數據相似的數據,例如圖像或視頻。最初,這些模型從純噪聲模式開始,然后逐步消除這種噪聲,細化模式,直到它轉變為連貫且詳細的輸出。

圖片圖片

擴散過程圖解:逐步消除噪聲,直到看到詳細的視頻。圖片取自Sora 技術報告。

這與大型語言模型 (LLM) 在概念上的工作方式明顯不同:LLM 迭代地生成一個又一個標記1(這稱為自回歸采樣)。令牌一旦生成,就不會更改。在使用Perplexity或 ChatGPT等工具時,您可能已經看到過這種效果:答案逐漸逐字出現,就像有人在打字一樣。

三、Sora 的技術細節

OpenAI在 Sora 公告的同時還發布了一份技術報告。不幸的是,這份報告缺乏細節。然而,它的設計似乎深受“ Scalable Diffusion Models with Transformers ”研究論文的影響,其中作者2提出了一種基于 Transformer 的架構,稱為 DiT(Diffusion Transformers 的縮寫),用于圖像生成。看來 Sora 將這項工作擴展到了視頻生成。結合 Sora 技術報告和 DiT 論文,我們可以相當準確地了解 Sora 模型的工作原理。

Sora 包含三個重要部分:1)它不在像素空間中運行,而是在潛在空間中執行擴散(又名潛在擴散),2)它使用 Transformer 架構,3)它似乎使用非常大的數據集。

1.潛在擴散

要理解第一點(潛在擴散),請考慮生成圖像。您可以使用擴散生成每個像素。然而,這是非常低效的(例如,512x512 圖像有 262,144 個像素)。相反,您可以首先從像素映射到具有某種壓縮因子的潛在表示,在這個更緊湊的潛在空間中執行擴散,最后從潛在空間解碼回像素空間。這種映射顯著提高了計算復雜性:例如,您不必在 512x512 = 262,144 像素上運行擴散過程,而只需生成 64x64 = 4,096 個潛在變量。這一思想是《利用潛在擴散模型進行高分辨率圖像合成》研究論文的關鍵突破,是穩定擴散的基礎。

圖片

從像素(左)到潛在表示(右側的框網格)的映射圖示。圖片取自Sora 技術報告。

DiT 和 Sora 都采用了這種方法。對于 Sora 來說,另一個考慮因素是視頻具有時間維度:視頻是圖像的時間序列,也稱為幀。從 Sora 技術報告來看,從像素映射到潛在空間的編碼步驟在空間上(意味著壓縮每幀的寬度和高度)和時間上(意味著跨時間壓縮)發生。

2.Transformer

現在來說第二點,DiT 和 Sora 都用普通的Transformer 架構替換了常用的U-Net 架構。這很重要,因為 DiT 論文的作者觀察到,使用 Transformer 會導致可預測的擴展:當您應用更多的訓練計算(通過訓練模型更長時間或使模型更大,或兩者兼而有之)時,您將獲得更好的性能。Sora 技術報告指出了相同的內容,但針對視頻,并包含有用的插圖。

圖片

說明模型質量如何隨著訓練計算的函數而提高:基礎計算、4x 計算和 32x 計算(從左到右)。視頻取自Sora技術報告。

這種可以通過所謂的縮放定律來量化的縮放行為是一個重要的屬性,之前已經在大型語言模型(LLM)和其他模態的自回歸模型的背景下進行了研究。應用規模來獲得更好模型的能力是LLM快速進步的關鍵驅動力之一。由于圖像和視頻生成存在相同的屬性,因此我們應該期望相同的縮放配方也適用于此。

3.數據集

訓練像 Sora 這樣的模型所需的最后一個關鍵要素是標記數據,我們認為這是大部分秘密武器所在。要訓練像 Sora 這樣的文本到視頻模型,您需要成對的視頻及其文本描述。OpenAI 并沒有過多談論他們的數據集,但他們暗示它非常大:“我們從大型語言模型中獲得靈感,這些模型通過互聯網規模的數據訓練來獲得通才能力。“ (來源)。OpenAI還進一步發布了一種用詳細文本標簽對圖像進行注釋的方法,用于收集DALLE-3數據集。總體思路是在數據集的標記子集上訓練字幕生成器模型,并使用該字幕生成器模型自動標記其余部分。Sora 的數據集似乎應用了相同的技術。

四、影響

我們相信 Sora 有一些重要的意義。我們現在將簡要討論這些。

1.視頻模型開始真正有用

Sora 生成的視頻質量無論在細節水平還是時間一致性方面都明顯取得了突破(例如,當物體暫時被遮擋時,模型可以正確處理物體的持久性,并且可以準確地在水中產生反射) , 例如)。我們相信,視頻的質量現在足以滿足某些類型的場景,可以在實際應用中使用。例如,Sora 可能很快就會取代一些庫存視頻片段的使用。

視頻生成領域公司的市場地圖

但仍存在一些挑戰:目前尚不清楚 Sora 模型的可操縱性如何。由于模型輸出像素,編輯生成的視頻既困難又耗時。圍繞這些模型構建直觀的 UI 和工作流程對于使它們有用也是必要的。Runway、Genmo和Pika等公司(參見上面的市場地圖)已經在致力于解決這些問題。

2.縮放適用于視頻模型,因此我們預計會取得快速進展

DiT 論文的一個關鍵見解是,模型質量可以通過額外的計算直接提高,如上所述。這類似于大模型觀察到的縮放定律。因此,隨著這些模型接受越來越多的計算訓練,我們應該期望視頻生成模型的質量能夠取得快速的進一步進步。Sora 清楚地證明了這個方法確實有效,我們期望 OpenAI 和其他人在這方面加倍努力。

3.合成數據生成和數據增強

在機器人和自動駕駛汽車等領域,數據本質上是稀缺的:沒有充滿機器人執行任務或汽車駕駛的互聯網。因此,通常通過模擬訓練或在現實世界中大規模收集數據(或兩者的結合)來解決這些問題。然而,這兩種方法都很困難,因為模擬數據通常不切實際。大規模收集現實世界的數據成本高昂,而且為罕見事件收集足夠多的數據也具有挑戰性。

圖片圖片

通過修改視頻的某些屬性來增強視頻的插圖,在本例中,在茂密的叢林環境(右)中渲染原始視頻(左)。圖片取自Sora 技術報告。

我們相信像 Sora 這樣的模型在這里會非常有用。我們認為類似 Sora 的模型可以用來直接生成完全合成的數據。Sora 還可用于數據增強,將現有視頻轉換為不同的外觀。上面說明了第二點,Sora 將一輛紅色汽車在森林道路上行駛的視頻轉換為茂密的叢林風景。您可以想象使用相同的技術來重新渲染白天與夜晚的場景或改變天氣條件。

4.模擬和世界模型

一個有前途的研究方向是學習所謂的世界模型。如果足夠準確,這些世界模型允許人們直接在其中訓練代理,或者它們可以用于規劃和搜索。

像 Sora 這樣的模型似乎直接從視頻數據中隱式地學習了現實世界如何運作的基本模擬。這種“緊急模擬”目前存在缺陷,但仍然令人興奮:它表明我們也許能夠從視頻中大規模訓練這些世界模型。此外,Sora 似乎能夠模擬非常復雜的場景,如液體、光的反射、織物和頭發的運動。OpenAI 甚至將他們的技術報告命名為“視頻生成模型作為世界模擬器”,這清楚地表明他們認為這是他們模型最重要的方面。

最近,DeepMind 的Genie 模型展示了類似的效果:通過僅對視頻游戲視頻進行訓練,該模型學會模擬這些游戲(并提出新游戲)。在這種情況下,模型甚至可以在不直接觀察動作的情況下學習以動作為條件。同樣,我們的目標是在這些模擬中直接進行學習。

圖片圖片

來自 Google DeepMind 的“Genie:生成交互環境”介紹。

結合起來,我們相信像 Sora 和 Genie 這樣的模型可能會非常有用,最終可以大規模地訓練實體代理(例如機器人)來完成現實世界的任務。但也存在局限性:由于這些模型是在像素空間中訓練的,因此它們會模擬每個細節,例如風如何移動草葉,即使這與手頭的任務完全無關。雖然潛在空間被壓縮,但它仍然必須保留大量信息,因為我們需要能夠映射回像素,因此尚不清楚是否可以在這個潛在空間中有效地進行規劃。

五、算力大小估算

在 Factorial Funds,我們喜歡查看有多少計算量用于訓練和推理。這很有用,因為它可以預測未來需要多少計算。然而,估計這些數字也很困難,因為有關用于訓練 Sora 的模型大小和數據集的詳細信息很少。因此,需要注意的是,本節中的估計值高度不確定,因此應對它們持保留態度。

1.將訓練計算從 DiT 外推到 Sora

關于 Sora 的詳細信息非常少,但我們可以再次查看DiT 論文,它顯然是 Sora 的基礎,并推斷其中提供的計算數據。最大的 DiT 模型 DiT-XL 具有 6.75 億個參數,并且使用大約 10× 21 FLOPS 的總計算預算進行訓練。[3]為了使這個數字更容易理解,這相當于大約 0.4 個 Nvidia H100 1 個月(或單個 H100 12 天)。

現在,DiT 僅對圖像進行建模,而 Sora 是視頻模型。Sora 可以生成長達 1 分鐘的視頻。如果我們假設視頻以 24fps 編碼,則視頻最多包含 1,440 幀。Sora 的像素到潛在映射似乎在空間和時間上都進行了壓縮。如果我們假設與 DiT 論文 (8x) 相同的壓縮率,我們最終會在潛在空間中得到 180 幀。因此,當我們簡單地將其外推到視頻時,我們獲得了比 DiT 180 倍的計算乘數。

我們進一步認為 Sora 明顯大于 675M 參數。我們估計 20B 參數模型是可行的,這使我們的計算量比 DiT 多了 30 倍。

最后,我們相信 Sora 接受的訓練數據集比 DiT 大得多。DiT 在批量大小為 256 的情況下接受了 3M 訓練步驟的訓練,即總共 768M 圖像(請注意,由于 ImageNet 僅包含 14M 圖像,因此相同的數據重復了很多次)。Sora 似乎接受了圖像和視頻混合的訓練,但除此之外我們對數據集幾乎一無所知。因此,我們做出簡單的假設,Sora 的數據集由 50% 的靜態圖像和 50% 的視頻組成,并且該數據集比 DiT 使用的數據集大 10 倍到 100 倍。然而,DiT 在相同的數據點上重復訓練,如果有更大的數據集可用,這可能不是最佳的。因此,我們認為 4-10 倍的計算乘數是更合理的假設。

將上述內容放在一起并考慮附加數據集計算的低估計和高估計,我們得出以下計算:[4]

  • 低數據集估計:10 21 FLOPS × 30 × 4 × (180 / 2) ≈ 1.1x10 25 FLOPS
  • 高數據集估計:10 21 FLOPS × 30 × 10 × (180 / 2) ≈ 2.7x10 25 FLOPS

這相當于 1 個月內 4,211 - 10,528 臺 Nvidia H100。

這里,有一個計算公式:DiT 的基礎計算 × 模型大小增益 × 數據集大小增益× 由于 180 幀視頻數據但僅占數據集的 50% 而導致的計算系數

2.推理與訓練計算

我們傾向于關注的另一個重要考慮因素是訓練計算與推理計算的比較。從概念上講,訓練計算量非常大,但也是一次性成本。相比之下,推理計算要小得多,但每一代都會發生。因此,推理計算隨著用戶數量的增加而擴展,并且隨著模型的廣泛使用而變得越來越重要。

因此,查看“收支平衡點”是有用的,即用于推理的計算量多于訓練期間的計算量的點。

圖片圖片

DiT(左)和 Sora(右)的訓練與推理計算比較。對于 Sora 來說,我們的數據是基于上述估計,因此并不完全可靠。我們還展示了訓練計算的兩種估計:一種是低估計(假設數據集大小為 4 倍乘數),一種是高估計(假設數據集大小為 10 倍乘數)。

對于上面的數字,我們再次使用 DiT 來推斷 Sora。對于 DiT,最大的模型 (DiT-XL) 每步使用 524×10 9 FLOPS,而 DiT 使用 250 個擴散步驟來生成單個圖像,總共 131×10 12 FLOPS。我們可以看到,生成 760 萬張圖像后就達到了收支平衡點,此后推理計算占據主導地位。作為參考,用戶每天向 Instagram 上傳大約 9500 萬張圖片。

對于 Sora,我們將 FLOPS 推斷為 524×10 9 FLOPS × 30 × 180 ≈ 2.8×10 15 FLOPS。如果我們仍然假設每個視頻有 250 個擴散步驟,則每個視頻總共需要 708×10 15 FLOPS。作為參考,這相當于每個 Nvidia H100 每小時生成約 5 分鐘的視頻。[5]在生成 15.3M(低)到 38.1M(高)分鐘的視頻后達到收支平衡點,此后花費的推理量多于訓練計算量。作為參考,每天大約有 4300 萬分鐘的視頻上傳到 YouTube。

一些注意事項:對于推理而言,FLOPS 并不是對推理重要的唯一方面。例如,內存帶寬是另一個重要因素。此外,人們正在積極研究減少擴散步驟的數量,這可能會大大減少計算強度,從而加快推理速度。FLOPS 利用率在訓練和推理之間也可能有所不同,在這種情況下,它們就變得很重要。

3.跨不同模型的推理計算

我們還研究了每單位輸出的推理計算在不同模態的不同模型中的表現。這里的想法是了解不同類別的模型需要多少計算密集型推理,這對計算規劃和需求有直接影響。重要的是要了解每個模型的輸出單位都會變化,因為它們以不同的模式運行:對于 Sora,單個輸出是一個 1 分鐘長的視頻,對于 DiT 來說,它是單個 512x512px 圖像,對于 Llama 2 和 GPT-4我們將單個輸出定義為包含 1,000 個文本標記的單個文檔。[6]

圖片圖片

每個輸出單位的模型推理計算比較(對于 Sora,1 分鐘視頻,對于 GPT-4 和 LLama 2 1000 個文本標記,對于 DiT,單個 512x512px 圖像)。我們可以看到,我們對 Sora 推理的估計的計算成本要高出幾個數量級。

我們比較了 Sora、DiT-XL、LLama 2 70B 和 GPT-4,并將它們相互繪制出來(使用 FLOPS 的對數標度)。對于 Sora 和 DiT,我們使用上面的推斷估計。對于 Llama 2 和 GPT-4,我們使用FLOPS = 2 × 參數數量 × 生成令牌數量的經驗法則來估計 FLOPS 數量。對于 GPT-4,我們假設模型是專家混合 (MoE) 模型,每個專家有 220B 個參數,每個前向傳遞有 2 個活躍專家(來源)。請注意,對于 GPT-4,這些數字尚未得到 OpenAI 的確認,因此我們再次需要對它們持保留態度。

我們可以看到,DiT 和 Sora 等基于擴散的模型的推理成本要高得多:DiT-XL(具有 675M 的模型)消耗的推理計算量與 LLama 2(具有 70B 參數的模型)大致相同。我們可以進一步看到,對于推理工作負載,Sora 甚至比 GPT-4 還要昂貴幾個數量級。

再次需要注意的是,上述許多數字都是估計值,并且依賴于簡化的假設。例如,它們沒有考慮 GPU 的實際 FLOPS 利用率、內存容量和內存帶寬的限制以及推測解碼等先進技術。

4.假如類 Sora 模型獲得顯著的市場份額,推理的成本怎么算?

在本節中,我們根據 Sora 的計算要求進行推斷,看看需要多少 Nvidia H100 才能大規模運行類似 Sora 的模型,這意味著 AI 生成的視頻在 TikTok 和 YouTube 等流行視頻平臺上實現了顯著的市場滲透。

  • 我們假設每臺 Nvidia H100 每小時制作 5 分鐘的視頻(詳情見上文),相當于每臺 H100 每天制作 120 分鐘的視頻
  • TikTok:每天 1700 萬分鐘視頻(3400 萬視頻總數 × 平均時長 30 秒),假設人工智能滲透率為 50%(來源)
  • YouTube:每天 4300 萬分鐘視頻,假設人工智能滲透率為 15%(大部分視頻長度低于 2 分鐘)
  • AI 每天制作的視頻總數:850 萬 + 650 萬 = 1070 萬分鐘
  • 支持 TikTok 和 YouTube 上的創作者社區所需的 Nvidia H100 總數:1070 萬 / 120 ≈ 89k
  • 由于需要考慮多種因素,這個數字可能太低:
  • 我們假設 FLOPS 利用率為 100%,并且不考慮內存和通信瓶頸。實際上,50% 的利用率更為現實,這會增加 2 倍。
  • 需求并不是在時間上均勻分布的,而是突發性的。峰值需求尤其成問題,因為您需要成比例更多的 GPU 才能仍然服務所有流量。我們認為峰值需求使所需 GPU 的最大數量又增加了 2 倍。
  • 創作者可能會生成多個候選視頻,以從這些候選視頻中選擇最好的一個。我們做出保守的假設,即每個上傳視頻平均生成 2 個候選視頻,這又增加了 2 倍的系數。
  • 總共,我們在峰值時擁有約 72 萬個 Nvidia H100 GPU

這表明我們相信,隨著生成式人工智能模型變得越來越流行和依賴,推理計算將占據主導地位。對于像 Sora 這樣基于擴散的模型,更是如此。

另請注意,擴大模型規模將進一步大幅增加推理計算需求。另一方面,其中一些問題可以通過更優化的推理技術和跨堆棧的其他優化來應對。

說明性視頻內容創建用例將推動對 OpenAI 的 Sora 等模型的最直接需求說明性視頻內容創建用例將推動對 OpenAI 的 Sora 等模型的最直接需求


【備注】

  1. 一個“token”大致可以理解為一個英文單詞。
  2. 這篇論文由 William Peebles 共同撰寫,他后來被 OpenAI 聘用,并且是 Sora 技術報告的主要作者之一。
  3. 請參見“使用 Transformer 的可擴展擴散模型”,圖 9。
  4. 公式為:DiT 的基礎計算 × 模型大小增加 × 數據集大小增加 × 由于 180 幀視頻數據但僅占數據集的 50% 而導致的計算增加。
  5. 忽略內存限制,只考慮 FLOPS。
  6. 作為參考,維基百科文章平均每篇大約有 670 個單詞。
責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2024-04-07 00:20:00

2024-03-15 09:00:00

2024-01-19 13:21:21

OpenAI人工智能AGI

2024-01-19 12:34:39

2024-07-23 13:10:20

2024-07-16 13:29:52

2024-03-13 11:49:04

人工智能Meta數據中心

2025-01-20 07:30:00

2024-03-14 14:49:34

Meta人工智能

2024-05-27 00:50:00

2023-11-21 09:14:33

微軟Azure AI

2023-08-06 13:01:34

AI開發

2024-10-31 13:39:47

2024-05-27 13:05:20

2024-12-09 14:00:00

AI生成

2023-09-09 13:03:17

AI智能

2024-07-29 14:06:57

2023-08-13 07:44:18

GPU模型英偉達

2023-08-28 13:06:19

AI模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲欧美一区二区三区视频 | 国产视频二区在线观看 | 巨大黑人极品videos精品 | 美女久久久久久久 | 日韩国产一区二区三区 | 五月天综合影院 | 在线精品亚洲欧美日韩国产 | 国产午夜精品福利 | 天天操夜夜操免费视频 | 国产三区在线观看视频 | 人人做人人澡人人爽欧美 | 国产小u女发育末成年 | av毛片在线播放 | 黄色免费在线网址 | 欧美视频免费 | 国产成人高清成人av片在线看 | 久久这里只有精品首页 | 欧美伊人久久久久久久久影院 | 日韩爱爱网站 | 婷婷毛片| 国产免费一区二区 | 国产精品免费一区二区三区四区 | 午夜看片网站 | 日韩中文字幕视频 | 日批av| 欧美啪啪网站 | 一区二区三区视频在线观看 | 欧美激情一区二区三区 | 国产色网 | 日韩精品一区二区在线 | 黄色国产在线播放 | 九色网址| 亚洲国产aⅴ成人精品无吗 综合国产在线 | 久久er99热精品一区二区 | 九九热免费观看 | 久久精品国产免费 | 亚洲麻豆| 欧美一区二区成人 | 91亚洲欧美 | jdav视频在线观看免费 | 亚洲激情视频在线 |