成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<abbr id="oki6i"><noscript id="oki6i"></noscript></abbr>

<input id="oki6i"><dd id="oki6i"></dd></input>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

MixAttention：跨層 KV Cache 共享 + 滑動窗口 Attention

發(fā)布于 2024-10-8 16:03

瀏覽

0收藏

一、背景

我們之前的文章中介紹過 Character.AI 的 LLM 推理最佳實(shí)踐，其在 1 年多的時(shí)間里將推理成本降低了 33 倍。其中一個(gè)關(guān)鍵技術(shù)是對 KV Cache 的跨層共享以及與 Local Attention 的結(jié)合。本文我們介紹 MixAttention，其思路和上述方案完全一致，不過針對長文本場景做了更多實(shí)驗(yàn)和調(diào)整。

對應(yīng)的論文為：[2409.15012] Inference-Friendly Models With MixAttention

LLM 稀疏化相關(guān)工作可以參考：

??SnapKV: KV Cache 稀疏化，零微調(diào)加速長序列 LLM 推理??
??TriForce：KV Cache 稀疏化+投機(jī)采樣，2.3x LLM 無損加速??
??33 倍 LLM 推理性能提升：Character.AI 的最佳實(shí)踐??
??微軟 MInference：百萬 Token 序列，10x 加速??
??MLKV：跨層 KV Cache 共享，降低內(nèi)存占用??
???MiniCache 和 PyramidInfer 等 6 種優(yōu)化 LLM KV Cache 的最新工作???

二、方案

2.1 Character.AI 方案

如下圖所示為 Character.AI 的方案，左側(cè)為標(biāo)準(zhǔn)的 Transformer Layer，全部是 Global Attentio；右側(cè)為 Character.AI 的方案，結(jié)合了跨層 KV Cache 共享和 Sliding Window Attention：

藍(lán)色的 1,7,13 使用 Global Attention，并且 7 和 13 共享 1 的 KV Cache。
綠色的 2,4,8,10 和紅色的 3,5,6,9,11,12 使用 Local Attention，并且紅色的 3 會共享綠色2 的 KV Cache，紅色的 5 和 6 會共享綠色4 的 KV Cache。?

MixAttention：跨層 KV Cache 共享 + 滑動窗口 Attention-AI.x社區(qū)

2.2 本文方案

如下圖 Figure 2 所示為本文 MixAttention 與標(biāo)準(zhǔn) Transformer Attention 以及 Sliding Window Attention 的區(qū)別。基本與上述的 Character.AI 的方案一致，只不過共享的位置不太一樣。其中紅點(diǎn)表示被共享的 Global Attention，藍(lán)點(diǎn)表示被共享的 Sliding Window Attention。

MA：與 Character.AI 方案一致。
MA-Offset：起始的幾個(gè) Layer 先使用 Sliding Window Attention，關(guān)注局部；然后才會有 Global Attention。
MA-EndSlide：和 MA-Offset 相反，在結(jié)束的 Layer 也采用 Sliding Window Attention。如下圖 Figure 3 所示。這個(gè)主要是為了評估最后一層 Global Attention 對長序列的影響有多大。
MA-Pairs：Global Attention 也采用 Pair 的方式。在 MA 和 MA-Offset 只會有一層的全局 KV Cache，在 MA-Pairs 中會有多層的全局 KV Cache。?

MixAttention：跨層 KV Cache 共享 + 滑動窗口 Attention-AI.x社區(qū)

MixAttention：跨層 KV Cache 共享 + 滑動窗口 Attention-AI.x社區(qū)

作者也探索了更多連續(xù)層共享 Global KV Cache 的方案，以 MA-Successive 為前綴，如下圖 Figure 9 所示：

MixAttention：跨層 KV Cache 共享 + 滑動窗口 Attention-AI.x社區(qū)

除此之外，作者還探索了沒有共享 Global KV Cache 的方案，以 MA-NoShare 為前綴，如下圖所示：

MixAttention：跨層 KV Cache 共享 + 滑動窗口 Attention-AI.x社區(qū)

三、實(shí)驗(yàn)和結(jié)果

3.1 訓(xùn)練

訓(xùn)練分為 3 個(gè)階段：

Stage 1：101B Token 預(yù)訓(xùn)練，Max Sequence Length 為 4K，RoPE 的 theta 為 0.5M。
Stage 2：9B Token 自然語言和代碼數(shù)據(jù)，Max Sequence Length 擴(kuò)展到 32K，RoPE 的 theta 擴(kuò)展到 8M。
Stage 3：0.5B 長文本合成數(shù)據(jù)，Max Sequence Length 依然是 32K。

3.2 評估

所有模型在前兩個(gè) Stage 上的 Loss 都非常接近，而在 Stage 3 有較大區(qū)別。如下圖 Figure 4 所示，MA、Sliding Window Attention 和 MA-EndSlide 的效果明顯差于其他模型，在長文本 RULER 評估上也有類似的結(jié)論。作者也分析了相關(guān)原因，MA 和 MA-EndSlide 的 Global Attention KV Cache（非共享）都是在第 1 層，而 MA-Offset 和 MA-Pairs 至少有一個(gè) Global Attention KV Cache（非共享）在深層。

MixAttention：跨層 KV Cache 共享 + 滑動窗口 Attention-AI.x社區(qū)

3.3 推理速度

如下圖 Figure 8 所示，作者在單個(gè) H100 GPU 上使用 SGLang 驗(yàn)證了不同模型的推理速度，使用 300 個(gè) Prompt，輸入長度 31K，輸出長度 1K?？梢钥闯?，MA 相關(guān)的方案在速度上都有比較明顯的提升，大約 2x-3x。此外，支持的最大 Token 數(shù)目也更多，不過其中 Sliding Window Attention 還沒有優(yōu)化，所以支持的最大 Token 數(shù)和標(biāo)準(zhǔn) LLM 相同。

MixAttention：跨層 KV Cache 共享 + 滑動窗口 Attention-AI.x社區(qū)

PS：這里的實(shí)驗(yàn)有點(diǎn)單薄，只在一個(gè)單一的數(shù)據(jù)場景，也沒有測試不同壓力下的性能。

3.4 總結(jié)

如下圖所示，從各種評估中可以看出本文的 MA-Offset 和 MA-Pairs 在推理速度，長短文本任務(wù)上都獲得了不錯(cuò)的結(jié)果，而標(biāo)準(zhǔn)的 MA 在長文本任務(wù)上性能較差。

MixAttention：跨層 KV Cache 共享 + 滑動窗口 Attention-AI.x社區(qū)

四、參考鏈接

???https://arxiv.org/abs/2409.15012????

本文轉(zhuǎn)載自 ??AI閑談??，作者： AI閑談

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

大模型推理優(yōu)化實(shí)踐：KV cache復(fù)用與投機(jī)采樣

wx5bbef785639a1 ? 6894瀏覽 ? 0回復(fù)
ACL 2024 | 提升大模型持續(xù)學(xué)習(xí)性能，哈工大、度小滿提出共享注意力框架SAPT

輕薄滴假象 ? 2962瀏覽 ? 0回復(fù)
MiniCache 和 PyramidInfer 等 6 種優(yōu)化 LLM KV Cache 的最新工作

amei2000go ? 9546瀏覽 ? 0回復(fù)
無限的場景窗口會扼殺LLM微調(diào)和RAG嗎？

51CTO內(nèi)容精選 ? 3337瀏覽 ? 0回復(fù)
MLKV：跨層 KV Cache 共享，降低內(nèi)存占用

amei2000go ? 4820瀏覽 ? 0回復(fù)
麻省理工提出“跨層注意力”，極大優(yōu)化Transformer緩存

Aceryt ? 3825瀏覽 ? 0回復(fù)
LLM 推理的 Attention 計(jì)算和 KV Cache 優(yōu)化：PagedAttention、vAttention 等

amei2000go ? 9588瀏覽 ? 0回復(fù)
一文剖析AI大模型技術(shù)架構(gòu)的全景視圖：從基礎(chǔ)實(shí)施層、云原生層、模型層、應(yīng)用技術(shù)層、能力層、到應(yīng)用層

玄姐聊AGI ? 5220瀏覽 ? 0回復(fù)
解讀 “Flash Cache” ：減少輻射緩存反渲染偏差

智能交互引擎 ? 2272瀏覽 ? 0回復(fù)
Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?

Tang_Lan ? 2361瀏覽 ? 0回復(fù)
Binary Block Masking：加快稀疏 Attention 的一種新方法

amei2000go ? 4411瀏覽 ? 0回復(fù)
Sample Packing：長序列 LLM 訓(xùn)練的 Attention 問題及優(yōu)化

amei2000go ? 2962瀏覽 ? 0回復(fù)
KVSharer：基于不相似性實(shí)現(xiàn)跨層 KV Cache 共享

amei2000go ? 3123瀏覽 ? 0回復(fù)
大模型超長窗口上下文與檢索增強(qiáng)生成——RAG

AI探索時(shí)代 ? 2753瀏覽 ? 0回復(fù)
ChatGPT解鎖高級視頻對話、屏幕共享，實(shí)時(shí)交互時(shí)代

Aceryt ? 9599瀏覽 ? 0回復(fù)
大模型神經(jīng)網(wǎng)絡(luò)之注意力機(jī)制——attention

AI探索時(shí)代 ? 2197瀏覽 ? 0回復(fù)
DeepSeek的多頭潛在注意力（MLA）和及其11種KV-Cache技巧演進(jìn)大總結(jié)

大模型自然語言處理 ? 2993瀏覽 ? 0回復(fù)
基于秘密共享重構(gòu) DeepSeek DeepGEMM Kernel 的安全高效 MPC-GEMM 方案

上堵吟1 ? 2475瀏覽 ? 0回復(fù)
mem0推出王炸mcp工具OpenMemory，打造用戶私有、跨應(yīng)用的共享記憶層

Syrupup ? 1680瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

LLM Inference 中的低精度陷阱：數(shù)值穩(wěn)定性和可復(fù)現(xiàn)性 1天前發(fā)布
NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實(shí)踐 2025-06-13 06:57:47發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當(dāng)，實(shí)測來了 0回復(fù)

上一篇： Binary Block Masking：加快稀疏 Attention 的一種新方法

下一篇：微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：欧美成人精品二区三区99精品 | 91玖玖 | 91精品久久久久久久久 | 亚洲精品一区二区久 | 日日夜夜影院 | 91精品国产乱码久久久久久久久 | 中文字幕欧美一区二区 | 精品视频在线观看 | 国产精品日韩欧美一区二区三区 | 亚洲网视频 | 成人二区| 天堂中文资源在线 | 国产分类视频 | 日本不卡一区 | 99在线国产 | 免费视频一区二区 | 欧美综合在线观看 | 国产日韩欧美精品一区二区三区 | 亚洲日韩中文字幕一区 | 久操亚洲| 国产精品视频导航 | 91精品国产综合久久婷婷香蕉 | 亚洲欧美日韩精品久久亚洲区 | 毛片在线视频 | 国产精品成人一区二区 | 欧美日韩在线精品 | 日韩成人精品一区二区三区 | 一区二区三区久久久 | 亚洲91视频 | 夜夜夜久久久 | 99re6在线视频 | 亚洲91| 午夜精品久久久久久久99黑人 | 亚洲美女视频 | 搞黄视频免费看 | 精品一区在线免费观看 | 国产精品久久久久久久久久久久冷 | 久久99精品久久久久久国产越南 | 91国在线 | 青青草华人在线视频 | 精品自拍视频在线观看 |

<input id="uaek6"><th id="uaek6"></th></input>

<table id="uaek6"><strong id="uaek6"></strong></table>

<input id="uaek6"></input>

<abbr id="uaek6"></abbr><abbr id="uaek6"><object id="uaek6"></object></abbr>

<strike id="uaek6"><dd id="uaek6"></dd></strike>