成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

“源神”DeepSeek!突破H800性能上限,FlashMLA重磅開源,算力成本還能降

人工智能
MLA,正是DeepSeek提出的創新注意力架構。從V2開始,MLA使得DeepSeek在系列模型中實現成本大幅降低,但是計算、推理性能仍能與頂尖模型持平。

DeepSeek開源周第一天,降本大法公開——

FlashMLA,直接突破H800計算上限。

圖片

網友:這怎么可能??

圖片圖片

它是為Hopper GPU開發的高效MLA解碼內核,專門針對可變長度序列進行了優化,目前已經投入生產。

MLA,正是DeepSeek提出的創新注意力架構。從V2開始,MLA使得DeepSeek在系列模型中實現成本大幅降低,但是計算、推理性能仍能與頂尖模型持平。

按照官方介紹來說,FlashMLA使用之后,H800可以達到3000GB/s內存,實現580TFLOPS計算性能。

網友們紛紛點贊:向工程團隊致以崇高的敬意,從Hopper的張量核中擠出了每一個FLOP。這就是我們將 LLM 服務推向新前沿的方式!

圖片圖片

已經有網友用上了。

圖片圖片

開源第一天:FlashMLA

目前GitHub頁面已經更新。短短一小時,Star星數已經超過1.2k。

圖片圖片

此次已經發布:

  • 支持BF16;
  • 分頁KV緩存,塊大小為 64

快速啟動:

圖片圖片

環境要求:

  • Hopper GPU
  • CUDA 12.3 及以上版本
  • PyTorch 2.0 及以上版本

在項目的最后,它還表示,這是受到了FlashAttention 2&3英偉達CUTLASS項目的啟發。

圖片圖片

FlashAttention是能實現快速且內存高效的精確注意力,主流大模型都有在用。最新的第三代,可以讓H100利用率飆升至75%訓練速度提升1.5-2倍,FP16下計算吞吐量高達740TFLOPs/s,達理論最大吞吐量75%,更充分利用計算資源,此前只能做到35%。

核心作者是Tri Dao,普林斯頓大牛,Together AI的首席科學家。

而英偉達CUTLASS是CUDA C++ 模板抽象的集合,用于在 CUDA 內實現高性能矩陣-矩陣乘法 (GEMM) 和所有級別和規模的相關計算。

MLA,DeepSeek基本架構

最后再來說說,MLA,多頭潛在注意力機制,DeepSeek系列模型的基本架構,旨在優化Transformer模型的推理效率與內存使用,同時保持模型性能。

它通過低秩聯合壓縮技術,將多頭注意力中的鍵(Key)和值(Value)矩陣投影到低維潛在空間,從而顯著減少鍵值緩存(KV Cache)的存儲需求。這種方法在長序列處理中尤為重要,因為傳統方法需要存儲完整的KV矩陣,而MLA通過壓縮僅保留關鍵信息。

V2版本中,這一創新性架構把顯存占用降到了過去最常用的MHA架構的5%-13%,實現了成本大幅降低。它的推理成本僅為Llama 370B的1/7、GPT-4 Turbo的1/70。

而在V3,這一降本提速就更為明顯,直接讓DeepSeek吸引全球目光。

圖片圖片

也就在今天,DeepSeek-R1 在HuggingFace上獲得了超過10000個贊,成為該平臺近150萬個模型之中最受歡迎的大模型。

HuggingFace CEO發文公布了這一喜訊。

圖片圖片

The whale is making waves!鯨魚正在掀起波浪!

圖片圖片

好了期待一下,接下來的四天會發些什么呢?

GitHub鏈接:
https://github.com/deepseek-ai/FlashMLA參考鏈接:
https://x.com/deepseek_ai/status/1893836827574030466

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-02-24 11:32:57

2025-02-24 12:52:46

2023-10-18 18:17:15

2013-04-01 09:17:12

ARM通用計算性能

2025-02-24 10:07:04

2025-06-11 09:06:00

AI架構算力

2025-02-25 14:07:25

2025-02-24 12:22:13

DeepSeek開源模型

2023-10-18 13:17:12

AI芯片英偉達美國

2025-02-25 18:41:39

2024-09-24 19:04:23

2023-10-16 13:38:00

智能出口

2025-02-26 00:02:59

2025-05-23 09:05:00

2020-12-18 15:29:19

AI 算力人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美午夜精品久久久久免费视 | 中文在线一区二区 | 欧美成年人视频在线观看 | 日韩中文字幕区 | 国产精品色| 欧州一区二区 | 拍真实国产伦偷精品 | 欧美一区二区免费 | 欧美一级毛片在线播放 | 国产一区二区精品在线 | 国产午夜视频 | 午夜视频大全 | 亚洲精品在线观看视频 | 日本一区二区三区在线观看 | 欧美日韩国产在线观看 | 91精品久久久久久久久 | 午夜av成人 | 午夜精品久久久久久久星辰影院 | 日本不卡免费新一二三区 | 有码一区 | 欧美日韩一区二区三区四区 | 亚洲国产第一页 | 亚洲综合在线播放 | 福利视频一区 | 国产精品国产a级 | 99精品久久 | 国产精品久久久久久久久久 | 99成人在线视频 | 欧美精品一区二区三区在线四季 | 国产电影一区 | 福利视频网址 | 亚洲成人在线视频播放 | 欧洲尺码日本国产精品 | 激情福利视频 | 国产一区二区精品在线 | 日韩免费一区二区 | 亚洲精品视频在线播放 | 九九亚洲精品 | 午夜免费福利片 | 综合视频在线 | 亚洲在线一区 |