麻省理工提出“跨層注意力”，極大優化Transformer緩存

Aceryt

發布于 2024-6-25 11:31

瀏覽

0收藏

Transformer在大模型領域的影響力不言而喻，ChatGPT、Sora、Midjourney、Suno、Llama、Stable Difusion等幾乎所有知名開閉源模型，皆基于該架構開發而成。

但隨著大模型參數呈指數級增長，小的幾百億大的上千億甚至萬億，這使得Transformer在解碼時所需的KV（鍵值）緩存急劇增加，會導致內存占用過大造成部署、推理方面的瓶頸。

所以，麻省理工的研究人員提出了全新的跨層注意力（Cross-Layer Attention, 簡稱“CLA”），通過在不同解碼層間共享KV來顯著降低對內存的使用，從而提升大模型在處理長序列和大批次推理任務時的效率以及準確率。

論文地址：https://arxiv.org/abs/2405.12981

麻省理工提出“跨層注意力”，極大優化Transformer緩存-AI.x社區

目前，解決Transformer緩存瓶頸的方法是多查詢注意力和分組查詢注意力， CLA則是在這兩者之上做了進一步優化。

在傳統的Transformer架構中，每一層都包含獨立的KV投影，用于生成鍵值對；查詢投影則負責生成查詢向量；注意力模塊可根據查詢和KV對計算注意力分布；

輸出投影進行整合注意力輸出；殘差連接和層歸一化，主要用來確保學習穩定性和表現力。

CLA的核心思想是通過在相鄰層之間共享KV來降低內存占用，而不是每層獨立計算和存儲。

在CLA中不同層之間的通信也是通過共享KV激活來完成的，這極大減少了模型必須維護的獨立KV集合的數量，而其他層則通過層間連接重用這些激活。

麻省理工提出“跨層注意力”，極大優化Transformer緩存-AI.x社區

此外，CLA提供了靈活的配置允許開發者根據需要調整共享因子，以平衡內存使用和模型性能。共享因子定義了每個KV投影被多少層共享。例如，在CLA2配置中，每對相鄰層共享一個KV緩存。

為了測試CLA的性能，研究人員在10億和30億參數上訓練了多款CLA和非CLA模型，目的是在固定內存預算下找到CLA的最佳準確性。這些模型的變化涵蓋了從MHA到GQA再到MQA的范圍，KV緩存的內存需求也由此跨越了兩個數量級。

麻省理工提出“跨層注意力”，極大優化Transformer緩存-AI.x社區

為了確保結果的穩健性，研究人員對選定的幾個模型進行了學習率調整實驗，以確認CLA在與經過良好調整學習率的基線模型相比時是否具有優勢。

實驗結果顯示，CLA在減少KV緩存大小的同時，能夠實現與非CLA模型相當的推理準確性。在10億參數規模的實驗中，CLA模型成功地在保持準確度的基礎上顯著減少了KV緩存的大小。

麻省理工提出“跨層注意力”，極大優化Transformer緩存-AI.x社區

特別是MQA-CLA2配置在減少KV緩存大小方面表現非常出色，相比基線MQA模型，在相同的KV緩存內存下實現了更低的驗證困惑度。

麻省理工提出“跨層注意力”，極大優化Transformer緩存-AI.x社區

在30億參數模型的實驗中，CLA也展現了其高效性。CLA2配置在減少KV緩存大小的同時，與相同頭維度的MQA基線模型相比，實現了更低的驗證困惑度，進一步證明了CLA在大規模模型中的有效性。

本文轉自 AIGC開放社區，作者： AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/EwSK31dClHfK51IpbjKMCg??

標簽

Transformer

優化

贊

回復

舉報

回復

相關推薦

基于多級注意力機制的并行預測模型

Tang_Lan ? 4753瀏覽 ? 0回復
麻省理工分享ChatGPT，在教育的5個實際應用案例

Aceryt ? 5728瀏覽 ? 0回復
基于多級注意力機制的并行預測模型

Tang_Lan ? 3388瀏覽 ? 0回復
Bengio等人新作：注意力可被視為RNN，新模型媲美Transformer，但超級省內存

輕薄滴假象 ? 2313瀏覽 ? 0回復
ACL 2024 | 提升大模型持續學習性能，哈工大、度小滿提出共享注意力框架SAPT

輕薄滴假象 ? 2973瀏覽 ? 0回復
中國AI大模型論文數量全球第一，清華力壓麻省理工、斯坦福

Aceryt ? 2899瀏覽 ? 0回復
即插即用 | 時間編碼+LSTM+全局注意力

Tang_Lan ? 4578瀏覽 ? 0回復
LLM基礎模型系列：深入注意力機制

魯班模錘1 ? 3276瀏覽 ? 0回復
麻省理工創新模型：用2D視頻擴散，生成 3D 視頻

Aceryt ? 3112瀏覽 ? 0回復
聊聊 KAN、KAN 卷積結合注意力機制！

Tang_Lan ? 5809瀏覽 ? 0回復
注意力機制的變體之MLA

shizhi02 ? 7190瀏覽 ? 0回復
《Transformer 關鍵要素：非所有注意力皆必要》論文解讀

智能交互引擎 ? 2340瀏覽 ? 0回復
一文圖解BERT注意力機制

石映飛云 ? 2859瀏覽 ? 0回復
基于深度學習故障診斷注意力機制案例分析

步驚云_32 ? 2159瀏覽 ? 0回復
大模型神經網絡之注意力機制——attention

AI探索時代 ? 2206瀏覽 ? 0回復
DeepSeek中的多頭潛在注意力（MLA）淺嘗

大模型自然語言處理 ? 2524瀏覽 ? 0回復
高效注意力機制與硬件優化：硬件優化的稀疏注意力，長上下文建模

AI研究前瞻 ? 2279瀏覽 ? 0回復
KIMI 月之暗面提出（MoBA）大模型長文本處理新解法：塊注意力混合

AI論文解讀 ? 3616瀏覽 ? 0回復
解鎖Transformer核心！一文吃透自注意力機制

人工智能訓練營 ? 4372瀏覽 ? 0回復

Aceryt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

麻省理工提出“跨層注意力”，極大優化Transformer緩存

目錄