成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<small id="oduzq"></small>

<tt id="oduzq"><small id="oduzq"></small></tt>

<tfoot id="oduzq"></tfoot>

<tfoot id="oduzq"></tfoot>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

注意力機制的變體之MLA 原創

發布于 2024-10-15 13:54

瀏覽

0收藏

?本文介紹注意力機制的變體-MLA。

MLA(Multi-head Latent Attention)，是由杭州深度求索人工智能在DeepSeekV2提出的一種注意力機制變體。MLA主要旨在解決推理過程中由于attention機制中KV Cache占用過多內存而導致的性能瓶頸問題。為此，MLA引入了低秩KV壓縮技術，有效減少了KV Cache的大小，從而緩解了這一問題。

有興趣小伙伴可以看官方技術報告的介紹：??https://arxiv.org/pdf/2405.04434v2??

原理介紹

注意力機制的變體之MLA-AI.x社區

上圖為MHA、GQA、MQA、MLA的原理對比圖。從上圖可知傳統Transformer采用MHA，但KV Cache在推理過程中可能成為性能瓶頸。MQA和GQA雖然在一定程度上可以減少KV Cache的占用，但其效果通常不如MHA。MLA通過低秩的Key-Value聯合壓縮技術，不僅實現了比MHA更優的效果，還大幅減少了所需的KV Cache大小。

具體來說，MLA通過低秩聯合壓縮key和value來減少kv cache。從注意力機制的步驟來分析：

通過輸入x乘以不同的矩陣參數Wq、Wk、Wv得到不同的QKV向量
在轉換到QKV向量時候，將x乘以一個低秩矩陣，得到低階矩陣表示
再通過一個高階矩陣來恢復原來的特征空間。由于矩陣是模型的權重參數已經保存，所以只需要保存一個低秩的潛層特征就可以恢復成KV，而不是像之前需要同時緩存KV。

代碼實現


bsz, q_len, _ = hidden_states.size()
        
# 計算壓縮后的Q，再還原成高維
# [B, q_len, hidden_size]
# 即[B, q_len, num_head * q_head_dim]
q = self.w_uq(self.q_a_layernorm(self.w_dq(hidden_states)))
# [B, num_head, q_len, q_head_dim]
q = q.view(bsz, q_len, self.num_heads, self.q_head_dim).transpose(1, 2)
# 包含當前位置可用上下文的長度
kv_seq_len = q.size(-2)
if past_key_value is not None:
    if self.layer_idx is None:
        raise ValueError(
            f"The cache structure has changed since version v4.36. If you are using {self.__class__.__name__} "
            "for auto-regressive decoding with k/v caching, please make sure to initialize the attention class "
            "with a layer index."
        )
    kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
# 得到當前壓縮后的kv, c_t^{kv}
# [B, q_len, d_c]
compressed_kv = self.w_dkv(hidden_states)

# 將當前位置之前的壓縮后的kv拼接到前面
if past_key_value is not None:
    # 得到的應該是[B, kv_seq_len, d_c], c^{kv}
    compressed_kv = past_key_value.update(compressed_kv)
# 計算得到k^C和v^C
# [B, num_head, kv_seq_len, q_head_dim]
k = self.w_uk(compressed_kv).view(bsz, -1, self.num_heads, self.q_head_dim).transpose(1, 2)
v = self.w_uv(compressed_kv).view(bsz, -1, self.num_heads, self.q_head_dim).transpose(1, 2)

# 注意力權重
# [B, num_head, q_len, kv_seq_len]
attn_weights = (
    torch.matmul(q, k.transpose(2, 3)) * self.softmax_scale
)
...
attn_weights = nn.functional.softmax(
    attn_weights, dim=-1, dtype=torch.float32
).to(query_states.dtype)
attn_weights = nn.functional.dropout(
    attn_weights, p=self.attention_dropout, training=self.training
)
# [B, num_head, q_len, q_head_dim]
attn_output = torch.matmul(attn_weights, v)
...

以上為MLA的核心部分代碼實現，里面有相應的代碼注釋。

本文轉載自公眾號瓦力算法學研所，作者：喜歡瓦力的卷卷

原文鏈接：??https://mp.weixin.qq.com/s/dWZk8TBY89re207ZL3GjfA???

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

基于多級注意力機制的并行預測模型

Tang_Lan ? 4742瀏覽 ? 0回復
基于多級注意力機制的并行預測模型

Tang_Lan ? 3379瀏覽 ? 0回復
組合模型、注意力機制在單步、多步、單變量、多變量預測中的應用

Tang_Lan ? 3172瀏覽 ? 0回復
聊聊組合模型、注意力機制在單步、多步、單變量、多變量預測中的應用

Tang_Lan ? 3098瀏覽 ? 0回復
組合模型、注意力機制在單步、多步、單變量、多變量預測中的應用

Tang_Lan ? 4439瀏覽 ? 0回復
LLM基礎模型系列：深入注意力機制

魯班模錘1 ? 3266瀏覽 ? 0回復
聊聊 KAN、KAN 卷積結合注意力機制！

Tang_Lan ? 5797瀏覽 ? 0回復
【技術前沿】FlashAttention-2：深度學習中的高效注意力機制新突破

sword_hero ? 2974瀏覽 ? 0回復
一文圖解BERT注意力機制

石映飛云 ? 2852瀏覽 ? 0回復
【深度探索】FlashAttention-3：深度學習注意力機制的再進化

sword_hero ? 2911瀏覽 ? 0回復
基于深度學習故障診斷注意力機制案例分析

步驚云_32 ? 2156瀏覽 ? 0回復
大模型神經網絡之注意力機制——attention

AI探索時代 ? 2197瀏覽 ? 0回復
DeepSeek中的多頭潛在注意力（MLA）淺嘗

大模型自然語言處理 ? 2524瀏覽 ? 0回復
高效注意力機制與硬件優化：硬件優化的稀疏注意力，長上下文建模

AI研究前瞻 ? 2276瀏覽 ? 0回復
DeepSeek全新注意力機制NSA發布，超快速長文訓練與推理

PaperAgent ? 2675瀏覽 ? 0回復
DeepSeek的多頭潛在注意力（MLA）和及其11種KV-Cache技巧演進大總結

大模型自然語言處理 ? 3000瀏覽 ? 0回復
一文吃透自注意力機制

人工智能訓練營 ? 4347瀏覽 ? 0回復
「DeepSeek-V3 技術解析」：多頭潛在注意力機制（MLA）

Baihai_IDP ? 2572瀏覽 ? 0回復
一文讀懂 15 種注意力機制

智駐未來 ? 3519瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

LLM面經——多模態大模型訓練中”模態懶惰“問題如何解決？ 4天前發布
大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？ 2025-06-10 10:42:03發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

下一篇： RAG工程如何評測？

社區精華內容

目錄

主站蜘蛛池模板：一区二区三区四区av | 中文字幕第十五页 | 一区二区三区在线免费观看视频 | 成人免费视频网站在线看 | 国产91观看 | 国产精品成人久久久久a级久久蜜桃av一区二区天堂 | 国产三级在线观看播放 | 成人欧美一区二区 | 久久人人爽人人爽人人片av免费 | 日韩av一区二区在线观看 | 国产成人精品免费视频大全最热 | 国产激情亚洲 | 国产在线视频一区二区董小宛性色 | 色精品视频 | 中国大陆高清aⅴ毛片 | 免费观看黄色片视频 | 国产一区久久久 | 女女爱爱视频 | www.久久 | 男人的天堂亚洲 | 亚洲视频免费在线观看 | 欧美精品在线一区 | 精品国产乱码一区二区三区a | 精品久久久久久久 | 日韩高清国产一区在线 | 国产午夜视频 | 美女福利视频一区 | 免费视频一区 | 96av麻豆蜜桃一区二区 | 国产日韩欧美在线观看 | japanhd成人| 亚洲成av人影片在线观看 | 久久久久久国产精品免费免费 | 国产一区二区影院 | 欧美一级毛片久久99精品蜜桃 | 99re6在线| 性高湖久久久久久久久 | 美女黄频| 亚洲综合国产 | 欧美激情视频一区二区三区在线播放 | 久久国产精品99久久久大便 |

<font id="ybfgo"><td id="ybfgo"></td></font>

<tfoot id="ybfgo"></tfoot>

<sub id="ybfgo"><video id="ybfgo"></video></sub>

<td id="ybfgo"><optgroup id="ybfgo"></optgroup></td>