成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<bdo id="2ycim"><th id="2ycim"></th></bdo>

<abbr id="2ycim"></abbr>

<del id="2ycim"><menu id="2ycim"></menu></del>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

MLKV：跨層 KV Cache 共享，降低內存占用

發布于 2024-6-17 10:03

瀏覽

0收藏

一、背景

LLM 中 KV Cache 占據的顯存越來越大，有很多方案開始嘗試跨層共享 K 和 V，比如我們之前介紹的 YOCO、CLA 以及 Layer-Condensed KV Cache 等，本文介紹的方案也極其類似。

對應的論文為：[2406.09297] MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding

對應的代碼庫為：??https://github.com/zaydzuhri/pythia-mlkv??

PS：感覺本文創新度明顯不足，相關實驗也非常少，只在一個 160M 模型測試，甚至沒有測試 7B 模型。

二、摘要

Transformer 模型的自回歸推理因為 KV Cache 的存在可以大幅降低計算量，但隨著模型、Batch Size 以及序列長度的增長，KV Cache 大幅增加，導致可能存在內存瓶頸。本文中，作者引入了多層 KV（Multi-Layer Key-Value，MLKV）Cache，可以跨 Transformer Layer 實現 KV Cache 共享，以減少內存占用，甚至可以比 MQA 和 GQA 節約更多的內存占用。作者使用經過訓練的 Pythia-160M 變體，針對各種 NLP 基準和推理能力的指標進行評估，表明 MLKV 可以以最小的性能損失顯著降低內存使用量（???），與 MQA 相比，可以將 KV Cache 大小減少 6 倍。這些結果凸顯了 MLKV 在部署大規模 LLM 模型方面的潛力。

三、方法

如下圖 Figure 2 所示，其思路很簡單，也和我們之前介紹過的幾個工作很類似，主要區別如下：

MHA：原始的 Multi Head Attention，每一層的每一個 Head 都有獨立的 K 和 V。
MQA：Multi Query Attention，每一層的所有 Head 共享 K 和 V.
GQA：Grouped Query Attention，MHA 和 MQA 的折衷，每一層的 Head 分為多組，每一組共享 K 和 V.
MLKV：多個層共享 K 和 V，并且可以與上述 MQA 和 GQA 兼容。?

MLKV：跨層 KV Cache 共享，降低內存占用-AI.x社區

如下圖 Table 2 所示為不同配置下總共 KV Head 的個數，參數量，以及 Loss：

MLKV：跨層 KV Cache 共享，降低內存占用-AI.x社區

四、結果

如下圖所示為不同配置下在各種評估任務上的結果，可以看出在同等配置下是弱于 GQA 的，甚至弱于 MQA：

MLKV：跨層 KV Cache 共享，降低內存占用-AI.x社區

如下圖是相應的顯存占用，同樣 Head 數的方案內存占用相同，Head 越少，內存占用越少：

MLKV：跨層 KV Cache 共享，降低內存占用-AI.x社區

如下圖 Figure 5 所示，同樣 Head 下 MLKV 的速度會更快一些，不過差距都不大：

MLKV：跨層 KV Cache 共享，降低內存占用-AI.x社區

四、參考鏈接

[2406.09297] MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding
???https://github.com/zaydzuhri/pythia-mlkv???

標簽

贊

收藏

回復

舉報

回復

相關推薦

大模型推理優化實踐：KV cache復用與投機采樣

wx5bbef785639a1 ? 6910瀏覽 ? 0回復
ACL 2024 | 提升大模型持續學習性能，哈工大、度小滿提出共享注意力框架SAPT

輕薄滴假象 ? 2973瀏覽 ? 0回復
MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作

amei2000go ? 9579瀏覽 ? 0回復
麻省理工提出“跨層注意力”，極大優化Transformer緩存

Aceryt ? 3837瀏覽 ? 0回復
ICML 2024高分論文 | 零階優化器微調大模型，大幅降低內存

輕薄滴假象 ? 3087瀏覽 ? 0回復
LLM 推理的 Attention 計算和 KV Cache 優化：PagedAttention、vAttention 等

amei2000go ? 9621瀏覽 ? 0回復
一文剖析AI大模型技術架構的全景視圖：從基礎實施層、云原生層、模型層、應用技術層、能力層、到應用層

玄姐聊AGI ? 5246瀏覽 ? 0回復
解讀 “Flash Cache” ：減少輻射緩存反渲染偏差

智能交互引擎 ? 2278瀏覽 ? 0回復
MixAttention：跨層 KV Cache 共享 + 滑動窗口 Attention

amei2000go ? 3314瀏覽 ? 0回復
#AIGC創新先鋒者征文大賽# 部署 LLMs 前如何計算與優化 GPU 內存需求？

Baihai_IDP ? 2497瀏覽 ? 0回復
KVSharer：基于不相似性實現跨層 KV Cache 共享

amei2000go ? 3142瀏覽 ? 0回復
成本降低1000倍！微軟將開源超強RAG— LazyGraphRAG

Aceryt ? 2668瀏覽 ? 0回復
DHelix：跨 Micro-Batch 的通信隱藏，SOTA LLM 訓練性能

amei2000go ? 3588瀏覽 ? 0回復
ChatGPT解鎖高級視頻對話、屏幕共享，實時交互時代

Aceryt ? 9620瀏覽 ? 0回復
多模態視覺層：CLIP、SigLIP誰更勝一籌

CourseAI ? 1.1w瀏覽 ? 0回復
大模型前綴緩存技術，有望將服務成本降低90%

51CTO內容精選 ? 2507瀏覽 ? 0回復
DeepSeek的多頭潛在注意力（MLA）和及其11種KV-Cache技巧演進大總結

大模型自然語言處理 ? 3003瀏覽 ? 0回復
基于秘密共享重構 DeepSeek DeepGEMM Kernel 的安全高效 MPC-GEMM 方案

上堵吟1 ? 2488瀏覽 ? 0回復
mem0推出王炸mcp工具OpenMemory，打造用戶私有、跨應用的共享記憶層

Syrupup ? 1693瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

LLM Inference 中的低精度陷阱：數值穩定性和可復現性 1天前發布
NVIDIA：Blackwell GPU MXFP8 預訓練最佳實踐 2025-06-13 06:57:47發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：阿里 C4：通信驅動加速大規模并行訓練效率

下一篇：剖析大規模 GPU 集群：針對 LLM 場景的挑戰和優化

社區精華內容

目錄

主站蜘蛛池模板：国产日产精品一区二区三区四区 | 日本一区二区高清视频 | 亚洲欧美中文日韩在线v日本 | 欧美一区二区三区免费电影 | 欧美日韩中文在线 | 久热9| 亚洲国产成人精品女人 | 久久久久国产精品午夜一区 | 91观看 | www国产精品| 狠狠ri| 91精品久久久久 | 成人免费淫片aa视频免费 | 在线免费看黄 | 老司机午夜性大片 | 91精品国产91久久久久久吃药 | 欧美日一区二区 | 99久久久国产精品 | 欧美在线a| 国产高清免费 | 亚洲精品黑人 | 中文字幕乱码一区二区三区 | 午夜成人在线视频 | 91久久久久| 7777在线视频 | 午夜精品久久 | 好好的日在线视频 | 最新中文字幕第一页视频 | 精品日韩一区 | 国产99久久久国产精品下药 | 日本三级电影在线免费观看 | 欧美成人不卡 | 日韩在线看片 | 亚洲一区二区在线电影 | 日韩一区在线观看视频 | 国产精品视频久久 | 国产成人一区二区三区精 | 国产精品一区二区三区四区 | 精品国产一区二区三区性色av | 欧美aaa一级片 | 免费黄色录像片 |

<abbr id="q2e2u"></abbr><samp id="q2e2u"><noscript id="q2e2u"></noscript></samp>

<bdo id="q2e2u"></bdo>