成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek突襲公布成本利潤率:545%

人工智能 新聞
DeepSeek官方親自揭秘了DeepSeek-V3/R1推理系統。

五連開源后,DeepSeek還有One More Thing!

就在剛剛,DeepSeek官方親自揭秘了DeepSeek-V3/R1推理系統

圖片

重點包括,優化吞吐量和延遲的方法:

  • 跨節點EP驅動的批量擴展
  • 計算與通信重疊
  • 負載均衡

還公布了DeepSeek的在線服務數據統計:

  • 每個H800節點每秒有73.7k/14.8k個輸入/輸出token
  • 成本利潤率545%

更多細節,一起來看官方原文↓

更大的吞吐,更低的延遲

DeepSeek-V3/R1推理系統的優化目標是:更大的吞吐,更低的延遲。

為了實現這兩個目標,我們的方案是使用大規模跨節點專家并行(ExpertParallelism/EP)。

首先EP使得batch size大大增加,從而提高GPU矩陣乘法的效率,提高吞吐。其次EP使得專家分散在不同的GPU上,每個GPU只需要計算很少的專家(因此更少的訪存需求),從而降低延遲。

但EP同時也增加了系統的復雜性。復雜性主要體現在兩個方面:

  • EP引入跨節點的傳輸。為了優化吞吐,需要設計合適的計算流程使得傳輸和計算可以同步進行。
  • EP涉及多個節點,因此天然需要Data Parallelism(DP),不同的DP之間需要進行負載均衡。

因此,本文的主要內容是如何使用EP增大batch size,如何隱藏傳輸的耗時,如何進行負載均衡。

大規模跨節點專家并行(Expert Parallelism/EP)

由于DeepSeek-V3/R1的專家數量眾多,并且每層256個專家中僅激活其中8個。模型的高度稀疏性決定了我們必須采用很大的overall batch size,才能給每個專家提供足夠的expert batch size,從而實現更大的吞吐、更低的延時。需要大規模跨節點專家并行(Expert Parallelism/EP)。

我們采用多機多卡間的專家并行策略來達到以下目的:

  • Prefill:路由專家EP32、MLA和共享專家DP32,一個部署單元是4節點,32個冗余路由專家,每張卡9個路由專家和1個共享專家
  • Decode:路由專家EP144、MLA和共享專家DP144,一個部署單元是18節點,32個冗余路由專家,每張卡2個路由專家和1個共享專家

計算通信重疊

多機多卡的專家并行會引入比較大的通信開銷,所以我們使用了雙batch重疊來掩蓋通信開銷,提高整體吞吐。

對于prefill階段,兩個batch的計算和通信交錯進行,一個batch在進行計算的時候可以去掩蓋另一個batch的通信開銷;

圖片

△Prefill階段的雙batch重疊

對于decode階段,不同階段的執行時間有所差別,所以我們把attention部分拆成了兩個stage,共計5個stage的流水線來實現計算和通信的重疊。

圖片

△Decode階段的雙batch重疊

關于更多雙batch重疊的細節,可以參考我們的profiling數據的GitHub倉庫:https://github.com/deepseek-ai/profile-data。

盡可能地負載均衡

由于采用了很大規模的并行(包括數據并行和專家并行),如果某個GPU的計算或通信負載過重,將成為性能瓶頸,拖慢整個系統;同時其他GPU因為等待而空轉,造成整體利用率下降。因此我們需要盡可能地為每個GPU分配均衡的計算負載、通信負載。

  • Prefill Load Balancer

a.核心問題:不同數據并行(DP)實例上的請求個數、長度不同,導致core-attention計算量、dispatch發送量也不同

b.優化目標:各GPU的計算量盡量相同(core-attention計算負載均衡)、輸入的token數量也盡量相同(dispatch發送量負載均衡),避免部分GPU處理時間過長

  • Decode Load Balancer
  • 核心問題:不同數據并行(DP)實例上的請求數量、長度不同,導致core-attention計算量(與KVCache占用量相關)、dispatch發送量不同
  • 優化目標:各GPU的KVCache占用量盡量相同(core-attention計算負載均衡)、請求數量盡量相同(dispatch發送量負載均衡)
  • Expert-Parallel Load Balancer
  • 核心問題:對于給定MoE模型,存在一些天然的高負載專家(expert),導致不同GPU的專家計算負載不均衡
  • 優化目標:每個GPU上的專家計算量均衡(即最小化所有GPU的dispatch接收量的最大值)

參考架構圖

圖片

線上系統的實際統計數據

DeepSeekV3和R1的所有服務均使用H800 GPU,使用和訓練一致的精度,即矩陣計算和dispatch傳輸采用和訓練一致的FP8格式,core-attention計算和combine傳輸采用和訓練一致的BF16,最大程度保證了服務效果。

另外,由于白天的服務負荷高,晚上的服務負荷低,因此我們實現了一套機制,在白天負荷高的時候,用所有節點部署推理服務。晚上負荷低的時候,減少推理節點,以用來做研究和訓練。在最近的24小時里(北京時間2025/02/27 12:00至2025/02/28 12:00),DeepSeekV3和R1推理服務占用節點總和,峰值占用為278個節點,平均占用226.75個節點(每個節點為8個H800 GPU)。假定GPU租賃成本為2美金/小時,總成本為$87,072/天。

圖片

在24小時統計時段內,DeepSeekV3和R1:

輸入token總數為608B,其中342B tokens(56.3%)命中KVCache硬盤緩存。

輸出token總數為168B。平均輸出速率為20~22tps,平均每輸出一個token的KVCache長度是4989。

平均每臺H800的吞吐量為:對于prefill任務,輸入吞吐約73.7k tokens/s(含緩存命中);對于decode任務,輸出吞吐約14.8k tokens/s。

以上統計包括了網頁、APP和API的所有負載。如果所有tokens全部按照DeepSeek R1的定價*計算,理論上一天的總收入為$562,027,成本利潤率545%。

*DeepSeek R1的定價:$0.14/百萬輸入tokens(緩存命中),$0.55/百萬輸入tokens(緩存未命中),$2.19/百萬輸出tokens。

當然我們實際上沒有這么多收入,因為V3的定價更低,同時收費服務只占了一部分,另外夜間還會有折扣。

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-03-03 08:17:00

DeepSeek模型數據

2025-03-20 09:00:00

DeepSeek架構V3/R1

2025-03-03 08:46:27

2025-03-03 09:00:00

DeepSeekAI人工智能

2009-05-26 09:26:13

2012-07-05 15:39:28

互聯網手機小米

2012-08-16 10:07:05

思科

2015-04-14 11:50:10

Info倉庫管理

2015-06-11 09:57:06

2013-12-24 09:22:17

甲骨文商品云

2012-04-13 13:24:36

2022-02-16 16:40:36

AI人工智能通信服務

2011-11-25 10:20:50

云計算服務器

2023-03-30 14:22:41

2015-12-22 12:00:05

SDN云服務

2009-02-26 16:56:07

虛擬化ITVMware

2014-01-23 18:36:16

聯想IBM低端服務器

2015-07-29 20:21:58

IT世界網

2015-12-31 15:29:56

蘋果2015

2012-07-25 09:49:17

華為
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人做爰www免费看 午夜精品久久久久久久久久久久 | 久久久久久国产精品三区 | 国产福利视频 | 91久久夜色精品国产网站 | 国产一区二| 久久久久久亚洲 | 国产精品一区二区久久 | 四虎影视免费在线 | 99精品国产成人一区二区 | 欧美成人免费在线视频 | 91精品国产综合久久久久蜜臀 | 亚洲一区自拍 | 精品国产一二三区 | 麻豆一区一区三区四区 | 精品视频一区二区三区在线观看 | 亚洲一区二区三区免费视频 | 天堂色| 久久久久久成人 | 国产一区二区在线免费观看 | 欧美一区二区三区在线播放 | 国产午夜精品一区二区三区四区 | 国产999精品久久久久久 | 高清不卡毛片 | 99在线观看视频 | 久久亚洲精品久久国产一区二区 | 国产精品久久久久久久久免费相片 | 狠狠夜夜 | 成人精品在线观看 | 91在线综合| 99日韩 | 一级毛片成人免费看a | 精品自拍视频 | 日本一区高清 | 香蕉一区 | 日韩欧美在线免费观看视频 | 国产精品美女久久久久久免费 | 亚洲 自拍 另类 欧美 丝袜 | 亚洲精选一区 | 男女免费视频网站 | 97高清国语自产拍 | 国产精品免费av |