成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek開源第三彈:驚人的300行代碼驅動R1和V3的訓練與推理,超越各種專家內核

人工智能 新聞
這是由?DeepSeek-AI?團隊精心打造的?FP8 通用矩陣乘法 (GEMM) 加速庫,專為追求極致性能和代碼簡潔而生。

DeepSeek開源周第三彈!DeepSeek-AI 重磅發布高效FP8 GEMM庫 DeepGEMM:極致性能,代碼精簡,助力V3/R1模型訓練與推理!

簡單來說這是由 DeepSeek-AI 團隊精心打造的 FP8 通用矩陣乘法 (GEMM) 加速庫,專為追求極致性能和代碼簡潔而生

圖片

我們一起來扒一扒:

Hopper GPU 上狂飆 1350+ FP8 TFLOPS!

在算力為王的 AI 時代,矩陣乘法 (GEMM) 的效率至關重要。DeepGEMM 正是為了解決這一痛點!它充分利用 NVIDIA Hopper 架構 GPU的強大算力,在 FP8 精度下,性能 高達 1350+ TFLOPS!這意味著更快的模型訓練速度,更流暢的推理體驗,以及更低的計算成本!

DeepGEMM 不僅適用于傳統的 稠密模型,更完美支持 混合專家模型 (MoE) 的 GEMM 計算,無論是 DeepSeek-V3 還是 R1 模型,都能得到強力加速!

代碼極簡!核心邏輯僅 300 行,堪比教程級!

你沒聽錯!DeepGEMM 的核心 kernel 函數代碼量僅有 驚人的 ~300 行! DeepSeek-AI 團隊秉持著 “大道至簡” 的設計理念,在保證極致性能的同時,力求代碼的 可讀性 和 可維護性。 即使是剛入門 CUDA 開發的同學,也能輕松理解 DeepGEMM 的實現原理,甚至可以作為學習 Hopper FP8 矩陣乘法和優化的絕佳教程!

無需編譯!完全 Just-In-Time (JIT) 編譯,即裝即用! ?

告別繁瑣的編譯過程!DeepGEMM 采用了 全 Just-In-Time (JIT) 編譯 技術,所有 kernel 都在運行時動態編譯,無需在安裝時進行任何預編譯。 這意味著你可以 即裝即用 DeepGEMM,省去了大量的配置和編譯時間,讓你可以更專注于模型開發和實驗。

DeepGEMM 的 JIT 設計還帶來了額外的優勢:它可以根據不同的 GEMM 形狀、block size 等參數進行 動態優化,始終選擇最佳的 kernel 配置,保證在各種場景下都能發揮出最佳性能。

?? 硬核技術解析:DeepGEMM 的性能秘訣

DeepGEMM 在代碼簡潔的同時,性能卻能比肩甚至超越一些專家調優的庫,這背后離不開一系列硬核技術的加持:

  • 精細粒度 Scaling (Fine-grained Scaling): DeepGEMM 采用了 DeepSeek-V3 論文中提出的精細粒度 scaling 技術,更有效地利用 FP8 的動態范圍,提升計算精度和性能
  • CUDA-core 雙層累加 (Two-level Accumulation): 為了解決 FP8 tensor core 累加精度不足的問題,DeepGEMM 巧妙地使用了 CUDA-core 雙層累加技術,保證了計算結果的準確性
  • Persistent Warp-specialization (持久 Warp 特化): 借鑒 CUTLASS 的設計思想,DeepGEMM 的 kernel 進行了 warp 特化,實現了數據移動、tensor-core MMA 指令和 CUDA-core promotion 的高效重疊,最大化利用硬件資源
  • Tensor Memory Accelerator (TMA): DeepGEMM 充分利用 Hopper 架構引入的 TMA 特性,加速 LHS、RHS 矩陣和 scaling factor 的加載,以及輸出矩陣的存儲,實現更快的數據訪問速度
  • 統一優化 Block Scheduler 和 Rasterization (柵格化): DeepGEMM 采用統一的 block scheduler,并結合 Rasterization 技術,提升 L2 cache 的復用率,進一步優化性能
  • FFMA SASS Interleaving: DeepGEMM 甚至深入到 SASS 匯編層面進行優化,通過調整 FFMA 指令的 interleaving 模式,提升 warp 級別的并行度,榨干硬件的每一絲潛力

DeepGEMM 雖然借鑒了 CUTLASS 和 CuTe 的一些概念,但它并沒有過度依賴于復雜的模板或代數庫,而是更加注重 簡潔性 和 易用性。 這使得 DeepGEMM 不僅是一個高性能的計算庫,更是一個學習 Hopper FP8 矩陣乘法和優化的優秀資源

?? 實測性能數據:實力說話! ??

DeepGEMM 的性能究竟如何?我們用數據說話!在 DeepSeek-V3/R1 模型常用的各種 shape 上,DeepGEMM 都展現出了驚人的性能:

  • ? Normal GEMMs for dense models (稠密模型 GEMM)

M

N

K

Computation

Memory bandwidth

Speedup

64

2112

7168

206 TFLOPS

1688 GB/s

2.7x

64

24576

1536

289 TFLOPS

2455 GB/s

1.7x

...

...

...

...

...

...

4096

7168

2048

1025 TFLOPS

697 GB/s

1.1x

  • ? Grouped GEMMs for MoE models (contiguous layout) (MoE 模型 GEMM - 連續布局)

#Groups

M per group

N

K

Computation

Memory bandwidth

Speedup

4

8192

4096

7168

1297 TFLOPS

418 GB/s

1.2x

4

8192

7168

2048

1099 TFLOPS

681 GB/s

1.2x

...

...

...

...

...

...

...

8

4096

7168

2048

1093 TFLOPS

743 GB/s

1.1x

  • ? Grouped GEMMs for MoE models (masked layout) (MoE 模型 GEMM - Masked 布局)

#Groups

M per group

N

K

Computation

Memory bandwidth

Speedup

1

1024

4096

7168

1233 TFLOPS

924 GB/s

1.2x

1

1024

7168

2048

925 TFLOPS

968 GB/s

1.2x

...

...

...

...

...

...

...

4

256

7168

2048

815 TFLOPS

2047 GB/s

1.2x

從數據中可以看出,DeepGEMM 在各種矩陣 shape 下都表現出色,速度提升明顯! ??

快速上手 DeepGEMM:只需幾步!

想要體驗 DeepGEMM 的強大性能? 上手非常簡單!

環境要求:

  • ? NVIDIA Hopper 架構 GPU (sm_90a)
  • ? Python 3.8+
  • ? CUDA 12.3+ (推薦 12.8+ 獲得最佳性能)
  • ? PyTorch 2.1+
  • ? CUTLASS 3.6+ (可以通過 Git submodule 克隆)

安裝步驟:

  1. 1. 克隆 DeepGEMM 代碼庫 (需要遞歸克隆 submodule):
git clone --recursive https://github.com/deepseek-ai/DeepGEMM.git
  1. 2. 創建 third-party 庫的符號鏈接 (CUTLASS 和 CuTe):
python setup.py develop
  1. 3. 測試 JIT 編譯:
python tests/test_jit.py
  1. 4. 測試所有 GEMM 實現 (normal, contiguous-grouped, masked-grouped):
python tests/test_core.py
  1. 5. 安裝 DeepGEMM:
python setup.py install

安裝完成后,只需在你的 Python 項目中 import deep_gemm 即可開始使用!

寫在最后:

?? 項目地址:

https://github.com/deepseek-ai/DeepGEMM

DeepGEMM 現已以MIT許可方式正式開源!

DeepGEMM 的靈感來自 CUTLASS 項目

責任編輯:張燕妮 來源: AI寒武紀
相關推薦

2025-02-26 11:16:18

2025-03-03 08:17:00

DeepSeek模型數據

2025-02-26 11:13:51

2025-02-26 10:24:51

2025-03-20 09:00:00

DeepSeek架構V3/R1

2024-12-27 09:50:00

模型數據測試

2025-03-03 09:00:00

DeepSeekAI人工智能

2024-12-30 20:32:36

2025-03-12 13:55:05

2025-01-27 12:30:07

2025-01-21 11:53:53

2025-02-17 09:33:00

AI算法模型

2025-03-06 10:14:39

2025-02-03 14:17:27

2025-02-20 15:32:28

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-02-07 13:10:06

2025-02-27 00:00:05

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久成人精品一区二区三区 | 精品视频一区二区在线观看 | 毛片链接 | 欧美一区二区 | 另类在线 | 亚洲最大成人综合 | 久久精品免费一区二区三 | 97视频成人 | 亚洲成人天堂 | 成人午夜电影在线观看 | 97伦理电影网 | 2022精品国偷自产免费观看 | 日韩精品一区二区三区中文字幕 | 久久久久亚洲av毛片大全 | 999久久久| 成人午夜在线观看 | 日韩欧美一级 | 国产成人久久精品一区二区三区 | 欧美日韩电影一区二区 | 亚洲视频一区在线观看 | 亚洲欧美日韩精品 | 国产福利视频在线观看 | 成人免费激情视频 | 亚洲综合色网 | 日本精品一区二区三区在线观看 | 国产精品久久 | 久久中文一区二区 | 成人av免费看 | 亚洲精品一区二区三区免 | 久久乐国产精品 | 日韩激情在线 | 人人鲁人人莫人人爱精品 | 国产精品免费播放 | 中文字幕亚洲一区二区三区 | 国产精品夜间视频香蕉 | 国产真实乱对白精彩久久小说 | 在线视频一区二区 | 97精品超碰一区二区三区 | 国产激情第一页 | 国产欧美日韩在线观看 | 日韩综合一区 |