成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

瘋了!居然有人試圖讓我搞懂,什么是 DeepGEMM

人工智能
?DeepSeek開源周,繼DeepEP之后,開源了第三彈DeepGEMM。今天簡單來說說DeepGEMM的相關知識。

DeepSeek開源周,繼DeepEP之后,開源了第三彈DeepGEMM。

今天簡單來說說:

  • 吃瓜:DeepGMEE是干嘛的?
  • 技術:DeepGMEE是怎么做到的?
  • 普通人有什么用:對寫提示詞有什么啟示?

 DeepGMEE是干嘛的?

DeepGMEE,General Matrix Multiplication,一個FP8通用矩陣乘法庫(library)。

畫外音,FP8:8-bit Floating Point,8位浮點格式。

關于FP8通用矩陣乘法

一個矩陣乘法的優化而已,寫了這么多年代碼都沒用過矩陣乘法,值得這么吹流弊嗎?

額,我竟無言以對。

矩陣乘法是現代AI計算的基石。

  • 矩陣是數據表示的核心工具:神經網絡中的權重,特征,參數傳遞等都使用矩陣表示;
  • 矩陣乘法占大模型中90%的計算量:Transformer基操QKV運算,卷積計算,分層全連接計算等;
  • 硬件優化的核心目標就是矩陣乘法計算;

傳統AI的矩陣乘法怎么算?

傳統一般使用NVIDIA開源的CUDA C++模板庫CUTLASS。

傳統方法通常采用FP16/FP32,存在一些潛在的不足:

  • 占顯存資源:FP32占顯存是FP8的4倍;
  • 資源利用率低:強制要求矩陣為2次冪尺寸(例如:128*128),容易出現顯存碎片;
  • 不支持MOE模型的分組矩陣計算;
  • 部署復雜度高:需要編譯,需要配置;

那為什么之前不直接采用FP8呢?

FP8雖然占用資源少,資源利用率高,但會帶來精度損失。

這個問題程序員最好理解。

高精度乘法:1.2 * 3.4 = 4.08

如果直接降低精讀,用整數表示浮點數,變為1 * 3 = 3,精讀損失是無法接受的。

那有沒有彌補精讀不足的問題?

我們可以對浮點數進行整數化編碼處理:

  • 步驟一:1.2用(12, 1)表示,其中1是小數位數;
  • 步驟二:3.4用(34, 1)表示;
  • 步驟三:1.2 * 3.4 = (12, 1) * (34, 1) = (12*34, 1+1) = (408, 2)

如此一來,就沒有精度損失啦。

當然,矩陣乘法的精度補償比這個復雜,其核心思路是:使用低精度乘法矩陣快速計算,高精度加法補足。

結論就是:deepseek使用FP8就能完成FP16/FP32的計算,降低顯存占用+提高顯存利用率的同時,仍然能夠保持高精度。

DeepGMEE的特點

Git介紹中對DeepGMEE有三個關鍵形容詞:

  • 簡潔(clean)
  • 高效(efficient)
  • 高精度(fine-grained scaling)

為什么說DeepGMEE簡潔?

  • 核心代碼300行,而CUTLASS數千行;
  • 零依賴(除CUDA),無需預編譯,無需復雜環境配置;
  • 注釋清晰,便于學習與二次開發;

畫外音:我看了一下,調整數據分塊策略,只需要修改10-20行代碼。

為什么說DeepGMEE高效?

這是FP8對比FP16/FP32的天然優勢,相比GUTLASS:

  • 顯存占用下降50%+;
  • MOE推理延時下降60%+;
  • 計算密度(TFLOPS)提升了270%+;

為什么說DeepGEMM高精度?

采用FP8矩陣乘法加速計算,BF16累加修正精讀的方法,平衡了速度與精讀。

除此之外,DeepGEMM還有不少特色:

  • 針對MOE優化,支持MOE分組矩陣乘法;
  • 針對硬件加速;
  • 動態編譯JIT:運行時根據矩陣大小與硬件條件優化;
  • 矩陣靈活尺寸對齊(例如:可以支持112*128矩陣);

上面種種,DeepGMEE本次最大的創新,我認為是:FP8優化,JIT優化,以及MOE優化。

DeepGMEE是怎么做到的?

信息密度太大,頭疼,有點學不過來了,感興趣的同學去官網看吧,我Copy一下git的信息:

  • Persistent warp-specialization
  • Hopper TMA features
  • A unified and optimized block scheduler
  • Fully JIT design
  • Unaligned block sizes
  • FFMA SASS interleaving
  • Common detail optimizations

畫外音:其實你也不想知道這些how?

了解GEMM對普通人寫提示詞有什么啟示?

沒有啟示,這東西和提示詞沒關系。

結尾

對于DeepGEMM,我的思考是:

  • 之前各大玩家都卷硬件,而忽略了軟件的優化;
  • 僵化思維真的很要命,一直以來都是FP16/FP32,大家也都用CUTLASS,它就一定是最優嗎?
  • 寫代碼,搞架構,少即是多:多寫這類300行優美的代碼,而不要在垃圾公司堆shi山;

先睡了,共勉!

畫外音:球球deepseek,明天不要開源新東西了。

責任編輯:趙寧寧 來源: 架構師之路
相關推薦

2020-12-17 10:23:41

死鎖LinuxLockdep

2022-01-04 09:24:32

Python Excel 表格

2015-07-30 09:20:26

微軟Android Lau

2023-04-10 07:26:28

UseStateUseReducer

2025-06-04 03:21:00

RAGRetrievalGeneratio

2019-02-12 11:07:49

2022-12-05 16:49:05

volatileJava

2021-07-03 09:06:22

測試自動化Selenium

2023-11-01 15:52:35

2024-03-18 09:24:12

RocketMQ消息模型分布式

2021-08-03 22:26:46

Go函數分頁

2023-11-30 08:27:38

泛化調用架構

2023-05-25 10:03:40

2019-08-09 15:07:33

TomcatJaegerSpringBoot

2020-11-19 07:54:32

程序員報警

2021-11-01 15:00:47

協程PythonGo

2020-08-18 10:35:18

JWTredis認證

2025-03-18 10:00:00

Embedding向量嵌入

2020-08-17 09:22:30

字符串子串對象

2020-03-11 19:40:09

架構架構設計Java
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产在线一区二区 | 春色av| 国产九九九九 | 国产精品久久久久久久免费观看 | 日日干天天干 | 91免费福利视频 | 精品国产乱码久久久久久中文 | 国产精品九九 | 一级黄色裸片 | 亚洲一区二区三区在线播放 | 欧美激情五月 | 国产美女在线播放 | 欧美又大粗又爽又黄大片视频 | 国产在线观看一区二区三区 | 成人不卡在线 | 日本天堂视频 | 亚洲免费在线观看视频 | 久久国产精品久久久久久 | 日日摸夜夜爽人人添av | 国产日韩欧美 | 美女日批免费视频 | 最新毛片网站 | 国产一极毛片 | 午夜亚洲| 欧美三级电影在线播放 | 亚洲国产精久久久久久久 | 久久99精品久久久久久噜噜 | 久久久一区二区三区四区 | 久久久久网站 | 久久成人精品视频 | a级免费观看视频 | 亚洲一区二区av | 久久精品色视频 | 国产激情视频网站 | 精品国产视频 | 国内精品免费久久久久软件老师 | 欧美一区二区三区久久精品视 | 国产精品theporn | 成人在线视频一区 | 两性午夜视频 | 欧美日韩高清免费 |