北大DeepSeek論文或預定ACL Best Paper！梁文鋒署名

作者：新智元 2025-05-19 09:12:16

人工智能

北大DeepSeek聯合發布的NSA論文，目前已被ACL 2025錄用并獲得了極高評分，甚至有望沖擊最佳論文獎。該技術顛覆傳統注意力機制，實現算力效率飛躍，被譽為長文本處理的革命性突破。

重磅驚喜！

北大與DeepSeek合作，并由梁文鋒親自提交到arXiv的論文，將有望斬獲ACL 2025最佳論文（ACL Best Paper）。

圖片

論文地址：https://arxiv.org/abs/2502.11089

要知道今年的ACL格外的卷，總投稿數高達8000多篇，創歷史之最，而ACL 2024總投稿數僅為4407，幾乎翻倍！

圖片

原生稀疏注意力（Native Sparse Attention，NSA）論文的Meta Review的OA分數已經確認得到了4.5分，這是一個相當高的分數，滿分為5分。

圖片

按照ACL的OA評分標準，4.5分已經獲得了Borderline Award，也就是說非常有望獲得ACL這屆的最佳論文。

圖片

這篇論文的發布在當時引起廣泛的社區關注，NSA把AI行業的焦點從「模型規模競賽」拉向「算力效率競賽」，堪稱2025年上半年最具杠桿效應的底層技術突破之一。

DeepSeek-R1的發布引發了AI行業的「價值重估」，DeepSeek用「低成本+同效能」的開源技術撼動了當時AI界人們固有的「有卡才行」的認知。

圖片

而NSA技術進一步實現了「長下文的算力平權」，讓開源模型也能達到閉源模型（ChatGPT、Gemini等）才能滿足的上下文窗口。

NSA將長文本處理速度提高了最多11倍，該方法結合了算法創新和改進的硬件，提高效率而不用犧牲硬件性能。

NSA的出現，是對傳統注意力機制的一次革新，傳統模型依賴于全注意力機制，將每個Token與其他所有Token進行比較。

傳統機制雖然對于短篇文本有效，但隨著文本長度的增加，這一過程會顯著變慢，并且計算成本變得非常高。

NSA是DeepSeek-R1「爆火出圈」后的第一篇論文，同時在NSA發布一周后，DeepSeek進行了更廣為人知的「開源周」活動分享。

圖片

硬件對齊與原生可訓練稀疏注意力

為什么要革新傳統的注意力機制？

長文本處理能力是新一代語言模型的關鍵需求，但傳統注意力機制帶來的巨大計算開銷一直是一個棘手的問題。

在這種背景下，稀疏注意力機制展現出了提升計算效率同時又能保持模型性能的巨大潛力。

北大和DeepSeek提出名為NSA的創新性稀疏注意力機制，它能夠原生支持訓練，通過將算法創新與硬件優化相結合，實現了高效的長文本處理。

NSA采用了動態分層的稀疏策略：在保證全局信息獲取的同時，還能夠精確捕捉局部細節，這得益于其巧妙結合了粗粒度的令牌壓縮和細粒度的令牌選擇。

NSA架構如下圖所示，通過三條并行的注意力分支來處理輸入序列。對于每一個查詢（query），前面的鍵（key）和值（value）會分別被處理成三種不同的注意力方式：

壓縮注意力（Compressed Attention），用于捕捉粗粒度的整體模式；
選擇性注意力（Selected Attention），專注于重要的詞塊；
滑動注意力（Sliding Attention），負責獲取局部上下文信息。

每條分支所生成的不同注意力模式。圖中的綠色區域表示需要計算注意力分數的部分，而白色區域則是可以跳過、不計算的區域。

圖片

NSA的主要創新點有兩個：一是通過精心設計的算法平衡了計算密度，并針對現代硬件做了專門優化，顯著提升了運行速度；二是實現了端到端的訓練模式，在確保模型性能的前提下大幅降低了預訓練的計算量。

如圖1所示，實驗結果顯示：采用NSA預訓練的模型在通用基準測試、長文本處理和指令推理等多個任務上，性能均達到或超過了使用完整注意力機制的模型。

此外，在處理64k長度序列時，無論是decoding、前向傳播還是反向傳播，NSA都展現出了顯著的速度優勢，充分證明了它在模型全生命周期中的高效性。

圖片

該論文第一作者為北京大學計算機學院碩士生袁境陽（北京大學，導師為張銘教授），合作者包括高華佐（DeepSeek），代達勱（DeepSeek），羅鈞宇（北京大學）、肖之屏（華盛頓大學）等。

通訊作者為梁文鋒（DeepSeek），曾旺丁（DeepSeek），張銘教授（北京大學）。

圖片

錄用論文一覽

除了NSA論文外，北京大學張銘教授團隊的其他論文也同樣上榜。

圖片

數據為中心視角下大模型的高效后訓練

論文名: A Survey on Efficient LLM Training: From Data-centric Perspectives

這是首個從數據中心視角系統性剖析LLM高效后訓練的綜述。

該文創新性地提出了一個涵蓋數據選擇、質量增強、合成數據生成、數據蒸餾與壓縮及自演化數據生態的分類框架，深入總結了各領域代表性方法并展望未來研究方向，旨在為學界和業界探索大規模模型訓練中數據利用的最大潛力提供關鍵啟示。

圖片

該論文作者包含羅鈞宇（北京大學，導師為張銘教授），吳伯涵（北京大學），羅霄（UCLA），肖之屏（華盛頓大學），靳軼喬（佐治亞理工），涂榮成（南洋理工大學），尹楠（HKUST），王一帆（對外經貿），袁境陽（北京大學），琚瑋（四川大學），張銘（北京大學，通訊作者）。

首個金融多模態評估數據集FinMME

論文名：FinMME: A Financial Multi-Modal Evaluation Dataset

為應對金融領域多模態大模型評估的迫切需求，并提供高質量的多模態推理驗證數據集。

北京大學Dlib實驗室聯合香港科技大學等重磅推出了首個大規模、高質量的金融多模態評估數據集FinMME。

該數據集包含超過11,200個金融研究樣本，覆蓋18個核心金融領域和10種主要圖表類型，并引入獨創的FinScore評估系統。

實驗結果表明，即便是頂尖模型如GPT-4o在FinMME上也面臨顯著挑戰，凸顯了其在衡量金融多模態理解與推理能力方面的深度與價值。

圖片

論文作者包含羅鈞宇（北京大學，導師為張銘教授），寇智卓（HKUST），楊禮銘（北京大學），羅霄（UCLA），黃進晟（北京大學），肖之屏（華盛頓大學），彭靖姝（HKUST），劉程中（HKUST），吉嘉銘（HKUST），劉譞哲（北京大學），韓斯睿（HKUST），張銘（北京大學，通訊作者），郭毅可（HKUST）。