成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<bdo id="usacy"><source id="usacy"></source></bdo>

<bdo id="usacy"><source id="usacy"></source></bdo>

<cite id="usacy"></cite>

<li id="usacy"></li><rt id="usacy"><acronym id="usacy"></acronym></rt>

<li id="usacy"><source id="usacy"></source></li>

<samp id="usacy"><tbody id="usacy"></tbody></samp>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

DeepSeek中的多頭潛在注意力（MLA）淺嘗原創

大模型自然語言處理

發布于 2025-2-11 11:03

瀏覽

0收藏

MLA是MHA的變體，因此先來看看MHA。

MHA（多頭注意力）

MHA通過將輸入向量分割成多個并行的注意力“頭”，每個頭獨立地計算注意力權重并產生輸出，然后將這些輸出通過拼接和線性變換進行合并以生成最終的注意力表示。

DeepSeek中的多頭潛在注意力（MLA）淺嘗-AI.x社區

Transformer 編碼器塊內的縮放點積注意力機制和多頭注意力機制

DeepSeek中的多頭潛在注意力（MLA）淺嘗-AI.x社區

MHA計算過程

DeepSeek中的多頭潛在注意力（MLA）淺嘗-AI.x社區

MHA 能夠理解輸入不同部分之間的關系。然而，這種復雜性是有代價的——對內存帶寬的需求很大，尤其是在解碼器推理期間。主要問題的關鍵在于內存開銷。在自回歸模型中，每個解碼步驟都需要加載解碼器權重以及所有注意鍵和值。這個過程不僅計算量大，而且內存帶寬也大。隨著模型規模的擴大，這種開銷也會增加，使得擴展變得越來越艱巨。

MLA（多頭潛在注意力）

概念：

多頭注意力機制：Transformer 的核心模塊，能夠通過多個注意力頭并行捕捉輸入序列中的多樣化特征。
潛在表示學習：通過將高維輸入映射到低維潛在空間，可以提取更抽象的語義特征，同時有效減少計算復雜度。

問題：

1.效率問題：傳統多頭注意力的計算復雜度為O(n²d),即隨著序列長度的增長，鍵值（Key-Value，KV）緩存的大小也會線性增加，這給模型帶來了顯著的內存負擔。） 2.表達能力瓶頸：難以充分捕捉復雜全局依賴。MLA 通過在潛在空間中執行注意力計算，有效降低復雜度，同時提升建模能力。

MLA 的提出：MLA 將多頭注意力機制與潛在表示學習相結合，解決MHA在高計算成本和KV緩存方面的局限性。

MLA的具體做法（創新點）：采用低秩聯合壓縮鍵值技術，優化了鍵值（KV）矩陣，顯著減少了內存消耗并提高了推理效率。

DeepSeek中的多頭潛在注意力（MLA）淺嘗-AI.x社區

如上圖，在MHA、GQA中大量存在于keys values中的KV緩存——帶陰影表示，到了MLA中時，只有一小部分的被壓縮Compressed的Latent KV了。

并且，在推理階段，MHA需要緩存獨立的鍵（Key）和值（Value）矩陣，這會增加內存和計算開銷。而MLA通過低秩矩陣分解技術，顯著減小了存儲的KV（Key-Value）的維度，從而降低了內存占用。

MLA的核心步驟：

輸入映射->潛在空間

DeepSeek中的多頭潛在注意力（MLA）淺嘗-AI.x社區

潛在空間中的多頭注意力計算

DeepSeek中的多頭潛在注意力（MLA）淺嘗-AI.x社區

映射回原始空間
將多頭注意力結果從潛在空間映射回原始空間：

DeepSeek中的多頭潛在注意力（MLA）淺嘗-AI.x社區

參考文獻：https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

本文轉載自公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/CSK1t9o82un5QDphhOP6fQ??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

大語言模型

自然語言處理

贊

收藏

回復

舉報

回復

相關推薦

基于多級注意力機制的并行預測模型

Tang_Lan ? 4753瀏覽 ? 0回復
基于多級注意力機制的并行預測模型

Tang_Lan ? 3393瀏覽 ? 0回復
組合模型、注意力機制在單步、多步、單變量、多變量預測中的應用

Tang_Lan ? 3185瀏覽 ? 0回復
聊聊組合模型、注意力機制在單步、多步、單變量、多變量預測中的應用

Tang_Lan ? 3110瀏覽 ? 0回復
組合模型、注意力機制在單步、多步、單變量、多變量預測中的應用

Tang_Lan ? 4452瀏覽 ? 0回復
即插即用 | 時間編碼+LSTM+全局注意力

Tang_Lan ? 4582瀏覽 ? 0回復
LLM基礎模型系列：深入注意力機制

魯班模錘1 ? 3276瀏覽 ? 0回復
聊聊 KAN、KAN 卷積結合注意力機制！

Tang_Lan ? 5809瀏覽 ? 0回復
注意力機制的變體之MLA

shizhi02 ? 7190瀏覽 ? 0回復
【技術前沿】FlashAttention-2：深度學習中的高效注意力機制新突破

sword_hero ? 2987瀏覽 ? 0回復
一文圖解BERT注意力機制

石映飛云 ? 2864瀏覽 ? 0回復
【深度探索】FlashAttention-3：深度學習注意力機制的再進化

sword_hero ? 2917瀏覽 ? 0回復
大模型神經網絡之注意力機制——attention

AI探索時代 ? 2206瀏覽 ? 0回復
從《你所需要的就是注意力》到《你所需要的就是多頭潛在注意力》，TransMLA開啟AI技術新篇章

xuxiangda ? 2497瀏覽 ? 0回復
高效注意力機制與硬件優化：硬件優化的稀疏注意力，長上下文建模

AI研究前瞻 ? 2282瀏覽 ? 0回復
DeepSeek全新注意力機制NSA發布，超快速長文訓練與推理

PaperAgent ? 2690瀏覽 ? 0回復
DeepSeek的多頭潛在注意力（MLA）和及其11種KV-Cache技巧演進大總結

大模型自然語言處理 ? 3003瀏覽 ? 0回復
一文吃透自注意力機制

人工智能訓練營 ? 4372瀏覽 ? 0回復
「DeepSeek-V3 技術解析」：多頭潛在注意力機制（MLA）

Baihai_IDP ? 2586瀏覽 ? 0回復

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

GraphRAG變種：HippoRAG進化到HippoRAG2.0,提升多跳復雜推理性能 4天前發布
Qwen3 Embedding模型架構、訓練方法、數據策略 5天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：英偉達ECLAIR-端到端的文檔布局提取，并集成閱讀順序方法

下一篇：簡單有效的企業多模態RAG問答框架-MuRAR

社區精華內容

目錄

主站蜘蛛池模板：一区二区三区国产 | 亚洲国产精品一区二区三区 | 久久精品一区二区三区四区 | www亚洲成人 | 国产精品久久久久久久久久久久午夜片 | www.com久久久| 成人在线精品视频 | 337p日本欧洲亚洲大胆 | 九九热精品视频 | 在线播放国产一区二区三区 | 亚洲欧美日韩精品久久亚洲区 | 久久精品成人 | 精品在线一区 | 欧美一区二区三区 | 亚洲精品在线免费观看视频 | 国产精品一区二 | www久久久| 精品人伦一区二区三区蜜桃网站 | av无遮挡 | 亚洲一区中文字幕 | 久久成人18免费网站 | 欧美在线国产精品 | 91在线看| 日韩精品成人 | 精品91久久 | 国产综合精品一区二区三区 | 久久人爽 | 夫妻午夜影院 | 黄色大片免费观看 | 国产免费一区二区 | 三级在线免费观看 | 狠狠婷婷综合久久久久久妖精 | avtt国产| 成在线人视频免费视频 | 国产精品一区久久久 | 天天色图 | 日韩视频在线播放 | 国产成人jvid在线播放 | 国产精品视频一二三区 | 国产欧美一区二区三区久久人妖 | 亚洲成人网在线观看 |

<cite id="wsoco"><pre id="wsoco"></pre></cite>

<rt id="wsoco"><delect id="wsoco"></delect></rt>

<cite id="wsoco"></cite>

<strike id="wsoco"></strike>

<cite id="wsoco"></cite>

<strike id="wsoco"><acronym id="wsoco"></acronym></strike>

<li id="wsoco"></li>