成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek新注意力機制引熱議!梁文鋒親自提交預印本,目標明確降低計算成本

人工智能 新聞
那邊馬斯克瘋狂燒了20萬張卡訓出Grok 3,這廂DeepSeek重點關注的依然是壓縮計算和推理成本。

DeepSeek新注意力機制論文一出,再次引爆討論熱度。

依然是熟悉的畫風,熟悉的味道——

那邊馬斯克瘋狂燒了20萬張卡訓出Grok 3,這廂DeepSeek重點關注的依然是壓縮計算和推理成本。

具體來說,新論文提出了一種可原生訓練的稀疏注意力機制,名為NSA(Native Sparse Attention)。

目的很明確:解決大模型上下文建模中,標準注意力機制造成的計算成本高昂的問題。

效果也很明顯:

實驗表明,在解碼64k上下文時,基于softmax架構的注意力計算占到總延遲的70%-80%。而在不影響性能的前提下,NSA在64k上下文的解碼、前向傳播和反向傳播中均實現了顯著加速。

其中前向傳播速度最高可提升9倍,反向傳播速度最高可提升6倍,解碼速度提升可達11.6倍。

正如不少網友提到的,NSA意味著DeepSeek找到了優化注意力的方法,可以用更少的算力更加高效地訓練大模型,并且,他們還把這些“秘籍”公開了出來。

剛剛加入OpenAI不久的ViT核心作者Lucas Beyer也不禁開麥:粉了粉了。

另一點受到關注的是,這篇論文的作者可以說是DeepSeek系列大模型原班人馬,梁文鋒本人亦在其列——

論文還是梁文鋒親自傳上arXiv的。

實現超快速長上下文訓練推理

來看論文細節。

NSA的核心方法包括:

  • 動態分層稀疏策略
  • 粗粒度Token壓縮
  • 細粒度Token選擇

整體框架上,NSA是用更緊湊的鍵值對替代原始注意力中的鍵值對,通過壓縮、選擇和滑動窗口(sliding window)三種映射策略得到優化注意力輸出,保持高稀疏率。

采取分層設計的好處是:

  • 減少計算量的同時,能有效避免信息丟失,是模型在處理長序列時既高效又精準。
  • 能夠在保證全局上下文感知的同時,精確捕捉局部信息,提升模型的表現。
  • 可根據任務需求和上下文動態調整稀疏程度

具體到算法設計上,粗粒度Token壓縮通過將連續的Token聚合成塊級表示,可以捕獲全局語義信息,同時減少注意力的計算負擔。

細粒度Token選擇從序列中選擇最重要的Token,保留關鍵的局部信息。

滑動窗口則避免了局部模式的過度優勢——在注意力機制中,局部模式往往會主導學習過程,阻止模型有效地從壓縮和選擇Token中學習。

為了實現以上創新,DeepSeek官方還強調了兩方面的關鍵工作:

  • 硬件對齊系統:針對張量核心利用率和內存訪問優化塊級稀疏注意力,確保均衡的算術強度。
  • 訓練感知設計:通過高效算法和向后運算符實現穩定的端到端訓練。

研究人員用27B參數規模的模型進行了實驗,結果顯示,全注意力機制和NSA在預訓練損失方面,都表現出了穩定的收斂性,并且NSA實現了更低的損失值。

在包含知識、推理和編碼能力的多個通用基準測試中,與全注意力模型相比,NSA模型性能不降反超,在推理任務DROP中提升尤為明顯。

長上下文方面,64k上下文的“大海撈針”測試里,NSA完美過關。

在需要復雜長下文推理的各項任務中,NSA的表現也基本超過了包括全注意力模型在內的基線模型。

而在思維鏈推理評估中,通過知識蒸餾和監督微調,在8k和16k上下文設置下,AIME任務中NSA-R的得分均超過了全注意力模型。

這表明,NSA預訓練的稀疏注意力模式能有效捕捉長距離邏輯依賴,且其硬件對齊設計可支持不斷增加的推理深度。

效率方面,在8-GPU A100系統上,NSA的訓練加速效果會隨上下文長度的增加而增強。在64k上下文長度時,前向傳播速度最高可提升9倍,反向傳播速度最高可提升6倍,解碼速度提升可達11.6倍。

有意思的是,在馬斯克推出Grok 3炸場之時,不少人感慨:“大力出奇跡”在大模型訓練里仍然奏效——

在Grok 3成為大模型競技場首個突破1400分模型的背后,是驚人的10萬卡(后來擴展到20萬)H100集群。

但現在,DeepSeek為代表的效率派們顯然在引發另一種方向上的思考:通往AGI的路,可以更高效,更本地化,更人人可用。

論文地址:https://arxiv.org/abs/2502.11089

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-02-19 09:18:04

2010-05-14 09:02:03

云計算成本

2024-12-25 16:42:18

2022-05-23 14:55:40

云計算工具成本

2025-05-19 09:12:16

2020-06-09 11:16:42

云計算云平臺工具

2022-02-18 13:46:05

云計算混合云技巧

2018-08-26 22:25:36

自注意力機制神經網絡算法

2025-02-19 15:30:00

模型訓練數據

2024-09-19 10:07:41

2025-02-10 00:00:55

MHAValue向量

2024-11-04 10:40:00

AI模型

2025-06-03 08:43:00

2021-05-08 13:36:13

云計算AWS云平臺

2025-02-14 11:22:34

2013-01-18 14:00:59

VMware

2013-04-24 09:44:19

云計算成本模式云計算成本云計算成本分析

2025-02-27 12:06:45

2025-05-16 09:02:00

2025-02-24 11:31:33

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美区精品| 欧美一级在线观看 | 一区二区三区视频在线 | 久久久亚洲 | 成人综合视频在线观看 | 久久夜色精品国产 | 国产成人精品a视频一区www | 精品一区二区久久久久久久网站 | 国产美女一区二区 | 在线色网址 | 久久久久久国产精品 | 国产在线中文字幕 | 中文字幕在线国产 | 亚洲 欧美 日韩 在线 | 久久亚洲一区二区 | 91精品国产综合久久精品图片 | 黄色毛片在线观看 | 久久国产精品99久久久久久丝袜 | 日韩在线免费 | 欧美不卡网站 | 在线观看国产www | 久久久久久久久久久丰满 | 久久久久久国产精品 | 99精品网 | 91精品国产综合久久久久蜜臀 | 国产中文字幕在线观看 | 欧美一二三 | 精品久久精品 | 日日操视频 | 可以在线观看av的网站 | 狠狠操狠狠干 | 久久精品影视 | 亚洲一区二区三区欧美 | 9久久精品| 一区视频 | 国产小视频在线 | 婷婷久久网 | 麻豆久久久久久久 | 男人天堂网址 | 国产在线视频一区二区 | 中文区中文字幕免费看 |