成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

上海AI Lab最新推出Mixture-of-Memories:線性注意力也有稀疏記憶了

人工智能 新聞
DeepSeek NSA 通過三種方式壓縮 “KV” 實現 sparse attention,但這只是一種可以工作但不優雅的折中方案。因為它在壓縮 Transfromer 的記憶能力,以換取效率。

回顧 AGI 的爆發,從最初的 pre-training (model/data) scaling,到 post-training (SFT/RLHF) scaling,再到 reasoning (RL) scaling,找到正確的 scaling 維度始終是問題的本質。2017 年發布的 Transformer 架構沿用至今,離不開 Transformer 強大的 “無損記憶” 能力,當然也需要付出巨大的 KV 緩存代價。換句話說,Transformer 架構具有強大的 memory scaling 能力。

DeepSeek NSA 通過三種方式壓縮 “KV” 實現 sparse attention,但這只是一種可以工作但不優雅的折中方案。因為它在壓縮 Transfromer 的記憶能力,以換取效率。

另一方面,大概從 2023 年火到今天的線性序列建模方法(包括 linear attention 類,Mamba 系列,RWKV 系列)則是另一個極端,只維護一份固定大小 dxd 的 RNN memory state,然后加 gate,改更新規則,但這種方式始終面臨較低的性能上限,所以才會有各種混合架構的同樣可以工作但不優雅的折中方案。

我們認為,未來的模型架構一定具有兩點特性:強大的 memory scaling 能力 + 關于序列長度的低復雜度。后者可以通過高效注意力機制實現,比如:linear 或者 sparse attention,是實現長序列建模的必備性質。而前者仍然是一個有待探索的重要課題,我們把給出的方案稱為 “sparse memory”。

這促使我們設計了 MoM: Mixture-of-Memories,它讓我們從目前主流線性序列建模方法改 gate 和 RNN 更新規則的套路中跳脫出來,稀疏且無限制地擴大 memory 大小。MoM 通過 router 分發 token(靈感來自 MoE)維護多個 KV memory,實現 memory 維度 scaling。每個 memory 又可以進行 RNN-style 計算,所以整體具有關于序列長度線性的訓練復雜度,推理又是常數級復雜度。此外,我們又設計了 shared memory 和 local memory 合作分別處理全局和局部信息。實驗表現相當驚艷,尤其是在目前 linear 類方法效果不好的 recall-instensive 任務上表現格外好,甚至在 1.3B 模型上已經和 Transformer 架構旗鼓相當。

圖片

  • 論文地址:https://arxiv.org/abs/2502.13685
  • 代碼地址:https://github.com/OpenSparseLLMs/MoM
  • 未來還會集成在:https://github.com/OpenSparseLLMs/Linear-MoE
  • 模型權重開源在:https://huggingface.co/linear-moe-hub

方法細節

Linear Recurrent Memory

對于這部分內容,熟悉線性序列建模的小伙伴可以跳過了。

輸入 圖片經過 query key value proj 得到圖片

圖片

最簡潔的 recurrent 形式線性序列建模方法(對標最基礎的 linear attention)按照下面公式做 RNN 更新:

圖片

這里,我們不得不提一下,各種各樣的 Gate 形式(圖片前面的)和更新規則(  右邊的)就是在魔改上面的一行公式,各種具體形式如下表:

(各種方法本身有不同的符號,像 Mamba, HGRN 就不用 q k v,這里為了統一對比全部對標到 linear attention 形式。其中Titans的形式,把 memory update rule 看作 optimzier update 的話,最核心的還是 SGD 形式,暫時忽略momentum/weight decay ,只一個公式表達的話寫成這種梯度更新的形式是合理的。)

圖片

其實這些方法又可以進一步細分為不同類別(很多地方都粗略的統一稱為 linear RNN 或者 RNN),這里論文暫時沒提:

  • Linear Attention, Lightning Attention, RetNet, GLA, DeltaNet, Gated DeltaNet 屬于 linear attention 類
  • Mamba2 屬于 SSM 類,HGRN2 屬于 linear RNN 類
  • TTT, Titans 屬于 Test-Time Training 類

Mixture-of-Memories

MoM 思路非常簡單,和 MoE 一樣按照 token 分發,通過 router 為每個 token 選擇 topk 的 memories 并計算各自權重:

圖片

所有激活的 topk memories 按照各自權重加權求和得到一份混合記憶:

圖片

然后就又回到了 linear 類方法一貫的輸出計算:

圖片

另外,這里我們額外引入了 shared memory 的概念,即每個 token 都會經過這個永遠激活的 memory,有利于模型獲取全局信息。相對而言,其他稀疏激活的 memory 更擅長獲取局部信息。消融實驗表明,shared memory 的存在對模型效果有明確的積極作用。

圖片

硬件高效實現

MoM的硬件高效Triton算子可以很方便地實現,其輸出的計算可以簡單寫作:

圖片

也就是說 MoM 中每個 memory 的計算過程可以復用現有的單個算子,再把所有 memory 的輸出加權求和起來。和直接在算子內先求和再算輸出是數學等價的。

實驗結果

in-context recall-instensive tasks

一直以來,線性序列建模方法因為自身非常有限的 memory 大小,在這類 in-context recall-intensive 任務上表現不好。同時 Transformer 模型得益于其強大的無損記憶能力,非常擅長這類任務。所以已經出現了各種層間 hybrid 的模型,來提升 linear 類模型在這類任務上的效果。

我們首先重點測試了這類任務(結果見下表),使用 Gated DeltaNet 作為 MoM 的 memory 計算形式(在 Memory 更新過程中,每個 memory 都使用 Gated DeltaNet 的 gate 和更新規則),總共 4 個 local sparse memory,激活 2 個,還有一個 shared memory。其中標 ? 的模型來自開源項目(https://huggingface.co/fla-hub),沒標 ?的是我們從頭預訓練的模型。

結果還算相當不錯,在沒有數據污染或任何套路的情況下,結果顯示 MoM 就是單純地效果好。這也和預期一致,翻倍擴展 memory 大小,效果好過其他 linear 類方法。有一些意外的是,在 1.3B 的結果里,MoM 基本可以和 Transformer 相媲美。

圖片

其他評測效果

其他評測結果效果也不錯:

圖片

圖片

推理效率

推理效率是線性序列建模方法的重點,結果顯示 MoM 在常數級復雜度推理速度和顯存占用方面,表現出強大的優勢。

圖片

消融實驗

圖片

圖片

Loss 曲線

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-25 09:40:00

模型數據AI

2024-11-08 15:00:00

AI模型

2025-02-07 16:15:27

2022-02-21 09:25:57

VR研究Nature

2024-07-04 12:18:21

2024-09-19 10:07:41

2025-05-30 09:06:00

2018-08-26 22:25:36

自注意力機制神經網絡算法

2018-05-03 16:27:29

RNN神經網絡ResNet

2021-05-06 15:55:01

谷歌Android開發

2023-11-24 12:36:00

模型訓練

2025-02-17 13:00:00

2023-07-29 13:26:51

模型AI

2024-07-03 12:12:33

訓練模型

2024-11-21 08:39:08

2023-07-03 09:55:01

2023-07-30 15:42:45

圖神經網絡PyTorch

2011-07-07 13:12:58

移動設備端設計注意力

2025-02-10 00:00:55

MHAValue向量

2018-06-07 16:56:29

AI設計師藝術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人在线国产 | 男人的天堂中文字幕 | 国产三级| 欧美国产日韩一区二区三区 | 一级a性色生活片久久毛片 一级特黄a大片 | 久久在线视频 | 中文字幕免费 | 一区二区精品 | 99久久婷婷国产综合精品首页 | 亚洲欧美在线观看 | 久久久国产网站 | 色屁屁在线观看 | 成人国产在线视频 | 亚洲精品乱码久久久久久按摩观 | 日韩淫片免费看 | 日韩欧美三级 | 一区二区三区在线免费观看 | 激情网五月天 | 在线观看视频你懂得 | 国产精品免费一区二区三区四区 | 欧美日韩亚洲成人 | 国产在线精品一区二区三区 | 亚洲一区二区三区视频免费观看 | 国产成人福利在线观看 | 亚洲免费在线 | 91精品一区| 国产特黄一级 | 亚洲精品国产综合区久久久久久久 | 欧美性生交大片免费 | 国产高清免费视频 | 人人叉| 一区二区三区四区国产精品 | 中文字幕免费视频 | 亚洲理论在线观看电影 | 日韩中文字幕一区二区 | 伊人网在线综合 | 国产97视频在线观看 | 国产精品日本一区二区不卡视频 | 中文字幕一区二区三区不卡在线 | 青青久在线视频 | 81精品国产乱码久久久久久 |