DeepSeek開源周“第一刀”砍向算力！重磅開源FlashMLA，挑戰H800算力極限，網友直呼：極致的工程設計！原創

51CTO技術棧

發布于 2025-2-24 12:50

瀏覽

0收藏

編輯 | 伊風

出品 | 51CTO技術棧（微信號：blog51cto）

上周五，DeepSeek剛剛預告了重磅開源周！

周一一早，DeepSeek就履行承諾，開源了針對 Hopper GPU 的高效 MLA 解碼內核——FlashMLA！

DeepSeek開源周“第一刀”砍向算力！重磅開源FlashMLA，挑戰H800算力極限，網友直呼：極致的工程設計！-AI.x社區圖片

根據DeepSeek介紹，FlashMLA內核針對變長序列進行了優化，是已投入生產的核心技術。

從DeepSeek-V2開始，MLA出現在的所有的DeepSeek大模型里面，是DeepSeek大模型提升效果的非常重要的機制。

MLA（Matrix-Less Attention）多頭潛在注意力，通過數學變換避免了直接計算大規模矩陣，從而降低計算復雜度。MLA 的設計使其能夠更好地利用現代 GPU 的并行計算能力，從而加速推理過程。

DeepSeek開源周“第一刀”砍向算力！重磅開源FlashMLA，挑戰H800算力極限，網友直呼：極致的工程設計！-AI.x社區圖片

簡單來說，FlashMLA 的優化讓 AI 處理不固定長度的文本更高效，比如聊天對話或文章生成場景。通過優化，GPU 能更聰明地管理記憶（緩存），讓它在處理長短不同的句子時，不會浪費太多計算資源。

評論區的網友紛紛給出好評！

一位網友調侃說，提高顯卡效率，但是拜托別燒壞我的英偉達股票！

DeepSeek開源周“第一刀”砍向算力！重磅開源FlashMLA，挑戰H800算力極限，網友直呼：極致的工程設計！-AI.x社區圖片

另一位運行項目的網友更是大加贊美：純粹的工程設計，愛死它了！

DeepSeek開源周“第一刀”砍向算力！重磅開源FlashMLA，挑戰H800算力極限，網友直呼：極致的工程設計！-AI.x社區圖片

開源地址：??https://github.com/deepseek-ai/FlashMLA??

DeepSeek開源周“第一刀”砍向算力！重磅開源FlashMLA，挑戰H800算力極限，網友直呼：極致的工程設計！-AI.x社區圖片

該項目目前已經斬獲了1.2k的Star量，DeepSeek開源周的火爆程度可見一斑！

接下來，我們看看FlashMLA開源項目的內容。

1.FlashMLA核心內容解讀：中高端消費級 GPU 能運行更大模型了！

DeepSeek給出了FlashMLA的三個關鍵詞，我們來一一解讀下：

支持 BF16：在 Transformer 推理過程中，BF16 計算可以加速矩陣運算，同時保證數值穩定性，與 FP32 相比，帶來了顯著的計算效率提升。
分頁式 KV 高速緩存（塊大小為 64）：采用分頁式管理，意味著 FlashMLA 允許更靈活的 KV 緩存復用，減少 GPU 內存壓力，優化長序列的推理性能。
在 H800 上實現 3000 GB/s 內存綁定和 580 TFLOPS 計算綁定：說明FlashMLA 能夠最大化利用 H800 的內存帶寬和計算能力，實現近乎極限（甚至突破）的吞吐量。。

FlashMLA作為針對 Hopper GPU 的 LLM 推理加速方案，其核心價值體現在這幾點：

優化變長序列推理，適用于對話型 AI 和多輪交互。
提高計算效率（580 TFLOPS）和內存帶寬利用率（3000 GB/s），減少推理延遲。
降低顯存占用，提高 LLM 生產環境的吞吐量，優化 GPU 資源利用。

網友@Hemang Dave在評論區興奮地感嘆：Apple 研究表明，類似方法可以運行比 GPU 可用 DRAM 大兩倍的模型，同時顯著提升推理速度（CPU 提升 4-5 倍，GPU 提升 20-25 倍）。這意味著 FlashMLA 能在 Hopper GPU 上運行更大規模的 AI 模型，而無需昂貴的硬件升級，大幅降低部署成本。