成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICML 2025 | 注意力機(jī)制中的極大值:破解大語(yǔ)言模型上下文理解的關(guān)鍵

人工智能 新聞
近日,一項(xiàng)來(lái)自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型語(yǔ)言模型中一個(gè)重要現(xiàn)象。

大型語(yǔ)言模型(LLMs)在上下文知識(shí)理解方面取得了令人矚目的成功。

近日,一項(xiàng)來(lái)自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型語(yǔ)言模型中一個(gè)重要現(xiàn)象:在注意力機(jī)制的查詢 (Q) 和鍵 (K) 表示中存在非常集中的極大值,而在值 (V) 表示中卻沒(méi)有這種模式。這一現(xiàn)象在使用旋轉(zhuǎn)位置編碼 (RoPE) 的現(xiàn)代 Transformer 模型中普遍存在,對(duì)我們理解 LLM 內(nèi)部工作機(jī)制具有重要意義。

本研究由羅格斯大學(xué)張永鋒教授的團(tuán)隊(duì)完成,一作為金明宇,羅格斯大學(xué)博士生,在 ACL、ICML、AAAI、NAACL、COLM、ICLR、EMNLP、COLING 等頂級(jí)會(huì)議上發(fā)表過(guò)論文。

圖片

  • 論文標(biāo)題:Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding
  • arXiv 鏈接:https://arxiv.org/pdf/2502.01563
  • 代碼鏈接:https://github.com/MingyuJ666/Rope_with_LLM

研究亮點(diǎn)

極大值如何影響模型性能

當(dāng)我們談?wù)摯笮驼Z(yǔ)言模型的理解能力時(shí),通常將其知識(shí)分為兩類(lèi):參數(shù)知識(shí)(存儲(chǔ)在模型權(quán)重中的事實(shí)和信息)和上下文知識(shí)(從當(dāng)前輸入文本中獲取的信息)。本研究通過(guò)一系列精心設(shè)計(jì)的實(shí)驗(yàn),揭示了自注意力模塊中極大值的存在與上下文知識(shí)理解之間的關(guān)鍵聯(lián)系。

四大核心發(fā)現(xiàn)

1. 極大值在 Q 和 K 中高度集中分布

研究發(fā)現(xiàn),這些極大值在每個(gè)注意力頭的特定區(qū)域高度集中。這一現(xiàn)象非常反常識(shí),因?yàn)?LLM 內(nèi)部每個(gè)注意力頭的運(yùn)算理論上應(yīng)該是獨(dú)立的,但這些極大值的分布卻顯示出驚人的一致性。研究團(tuán)隊(duì)通過(guò)可視化方法清晰地展示了這一分布特征,橫跨多個(gè)層和頭,這種規(guī)律性模式與傳統(tǒng)認(rèn)知形成鮮明對(duì)比。

圖片

更引人注目的是,這一極大值現(xiàn)象僅存在于使用 RoPE(旋轉(zhuǎn)位置編碼)的模型中,如 LLaMA、Qwen 和 Gemma 等主流模型。而在未使用 RoPE 的模型(如 GPT-2 和 OPT)中不存在這種模式。這一發(fā)現(xiàn)將極大值現(xiàn)象直接與位置編碼機(jī)制建立了聯(lián)系。

2. Q 和 K 中的極大值對(duì)理解上下文知識(shí)至關(guān)重要

圖片

通過(guò)設(shè)計(jì)「破壞性實(shí)驗(yàn)」,研究團(tuán)隊(duì)將極大值重置為平均值,觀察模型性能變化。結(jié)果表明,這些極大值主要影響模型處理當(dāng)前上下文窗口中的信息的能力,而非影響從參數(shù)中提取的知識(shí)。在需要上下文理解的任務(wù)上,破壞極大值會(huì)導(dǎo)致性能的災(zāi)難性下降。

例如,在「大海撈針」類(lèi)型的任務(wù)中,模型需要從大量文本中檢索特定信息。當(dāng)極大值被破壞時(shí),模型在此類(lèi)任務(wù)上的表現(xiàn)幾乎完全崩潰。這直接說(shuō)明了極大值對(duì)上下文理解的關(guān)鍵作用。

相比之下,對(duì)于只需要參數(shù)知識(shí)的任務(wù)(如「中國(guó)首都是哪里」),破壞極大值對(duì)性能影響有限。這種對(duì)比鮮明的結(jié)果表明,極大值特別與上下文信息處理相關(guān),而非參數(shù)知識(shí)檢索。

3. 特定量化技術(shù)能更好地保存上下文知識(shí)理解能力

圖片

隨著大型語(yǔ)言模型的普及,量化技術(shù)成為降低計(jì)算和存儲(chǔ)需求的關(guān)鍵手段。然而,不同的量化方法對(duì)模型性能的影響各異。研究發(fā)現(xiàn),專(zhuān)門(mén)處理極大值的量化方法(如 AWQ 和 SmoothQuant)能有效維持模型的上下文理解能力,而未特別處理極大值的方法則會(huì)導(dǎo)致性能明顯下降(GMS8K 和 AQUA 數(shù)據(jù)集)。

這一發(fā)現(xiàn)為量化技術(shù)的設(shè)計(jì)和選擇提供了重要指導(dǎo),特別是對(duì)保留模型的上下文理解能力至關(guān)重要的應(yīng)用場(chǎng)景。設(shè)計(jì)新的量化方法時(shí)應(yīng)重點(diǎn)考慮保護(hù) Q 和 K 中的大值,對(duì)于優(yōu)先保持上下文理解能力的應(yīng)用場(chǎng)景,AWQ 和 SmoothQuant 等方法更為合適。

4. 極大值集中現(xiàn)象由 RoPE 引起,并在早期層就已出現(xiàn)

研究通過(guò)深入分析發(fā)現(xiàn),RoPE 位置編碼使 Q 和 K 中的低頻區(qū)域受位置信息影響較小,從而導(dǎo)致極大值集中現(xiàn)象。這種現(xiàn)象從模型的最初層就開(kāi)始顯現(xiàn),并隨著層數(shù)增加而變得更加明顯。

由于 RoPE 只作用于 QK,而不作用于 V,這也解釋了為什么只有 QK 存在極大值集中現(xiàn)象。這一發(fā)現(xiàn)不僅解釋了極大值的來(lái)源,也揭示了 RoPE 在大型語(yǔ)言模型中的工作機(jī)制。并且我們檢查了有 rope 的模型和沒(méi)有 rope 的模型,結(jié)果如圖所示,llama,qwen 都有集中的極大值;相反 gpt-2,jamba,opt 就沒(méi)有。

圖片

實(shí)驗(yàn)結(jié)果

極大值對(duì)不同知識(shí)任務(wù)的差異化影響

研究團(tuán)隊(duì)設(shè)計(jì)了一系列實(shí)驗(yàn),系統(tǒng)評(píng)估極大值對(duì)不同類(lèi)型知識(shí)任務(wù)的影響。結(jié)果顯示出明顯的差異化效應(yīng):

A. 參數(shù)知識(shí)檢索任務(wù)的韌性

當(dāng)大值被破壞時(shí):

  1. 城市類(lèi)任務(wù)仍然保持 76%-88% 的準(zhǔn)確率,僅下降 15-20%
  2. 體育、藝術(shù)和技術(shù)類(lèi)別任務(wù)保持在 65%-75% 的表現(xiàn)
  3. 名人類(lèi)別表現(xiàn)尤其穩(wěn)定,各模型均保持 70% 以上的準(zhǔn)確率

這些結(jié)果表明,參數(shù)知識(shí)檢索主要依賴(lài)于模型權(quán)重中存儲(chǔ)的知識(shí),受極大值破壞的影響相對(duì)較小。

B. 上下文知識(shí)理解任務(wù)的災(zāi)難性下降

相比之下,依賴(lài)上下文理解的任務(wù)在極大值被破壞后表現(xiàn)災(zāi)難性下降:

1. 數(shù)學(xué)推理任務(wù)出現(xiàn)嚴(yán)重退化

  • GSM8K: 從 81.30% 降至 15.10%
  • Llama3-8B: 從 76.90% 降至 4.00%
  • Qwen2.5-7B: 從 86.60% 降至 16.10%

2. 密鑰檢索任務(wù) (Passkey Retrieval) 準(zhǔn)確率從 100% 直接崩潰至接近 0%

3. IMDB 情感分析從 94% 以上下降至個(gè)位數(shù)

這些對(duì)比鮮明的結(jié)果強(qiáng)有力地證明了極大值在上下文知識(shí)理解中的關(guān)鍵作用。

C. 非大值破壞的對(duì)照實(shí)驗(yàn)

為驗(yàn)證研究發(fā)現(xiàn)的可靠性,研究團(tuán)隊(duì)還設(shè)計(jì)了對(duì)照實(shí)驗(yàn):當(dāng)僅破壞非極大值部分時(shí),所有任務(wù)的表現(xiàn)保持穩(wěn)定,變化通常小于 ±1%。這進(jìn)一步確認(rèn)了極大值在上下文知識(shí)理解中的特殊重要性。

研究意義與影響

這項(xiàng)研究首次揭示了大型語(yǔ)言模型內(nèi)部自注意力機(jī)制中極大值的存在及其功能,為理解模型如何處理上下文信息提供了新視角。研究結(jié)果對(duì) LLM 的設(shè)計(jì)、優(yōu)化和量化都具有重要啟示:

  1. 模型設(shè)計(jì)方面:突顯了位置編碼機(jī)制(尤其是 RoPE)對(duì)模型理解上下文能力的影響,為未來(lái)模型架構(gòu)設(shè)計(jì)提供了新思路。
  2. 模型優(yōu)化方面:識(shí)別出極大值是上下文理解的關(guān)鍵組件,為針對(duì)性地提升模型上下文理解能力提供了可能路徑。
  3. 模型量化方面:強(qiáng)調(diào)了保護(hù)極大值在模型壓縮過(guò)程中的重要性,為開(kāi)發(fā)更高效的量化方法提供了方向。

未來(lái)方向

該研究打開(kāi)了多個(gè)值得進(jìn)一步探索的方向:

  1. 探索是否可以通過(guò)特殊設(shè)計(jì)增強(qiáng)或調(diào)整極大值分布,從而提升模型的上下文理解能力。
  2. 研究極大值現(xiàn)象在不同架構(gòu)、不同規(guī)模模型中的普遍性和特異性。
  3. 設(shè)計(jì)更有針對(duì)性的量化方法,專(zhuān)門(mén)保護(hù)與上下文理解相關(guān)的極大值。
  4. 探索極大值與模型其他特性(如對(duì)抗穩(wěn)健性、推理能力等)之間的潛在聯(lián)系。

這項(xiàng)研究不僅加深了我們對(duì)大型語(yǔ)言模型內(nèi)部工作機(jī)制的理解,也為未來(lái)更高效、更強(qiáng)大的模型開(kāi)發(fā)鋪平了道路。通過(guò)揭示極大值的關(guān)鍵作用,研究者們?yōu)槲覀兲峁┝私怄i大語(yǔ)言模型上下文理解能力的一把新鑰匙。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-06-28 08:04:43

語(yǔ)言模型應(yīng)用

2024-04-17 12:55:05

谷歌模型注意力

2025-03-18 09:23:22

2024-03-14 08:11:45

模型RoPELlama

2025-04-07 01:02:00

GoAPI語(yǔ)言

2020-09-17 12:40:54

神經(jīng)網(wǎng)絡(luò)CNN機(jī)器學(xué)習(xí)

2023-11-13 18:19:54

模型訓(xùn)練

2024-12-17 14:39:16

2023-05-05 13:11:16

2012-07-18 11:39:18

ibmdw

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2025-06-09 09:23:05

2024-12-09 00:00:10

2024-06-03 10:56:53

2024-04-03 14:31:08

大型語(yǔ)言模型PytorchGQA

2024-10-31 10:00:39

注意力機(jī)制核心組件

2020-07-24 10:00:00

JavaScript執(zhí)行上下文前端

2018-08-26 22:25:36

自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法

2024-12-05 09:06:14

ORM框架.NET

2025-02-06 10:21:51

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 成人av观看 | 亚洲性人人天天夜夜摸 | 一级做a | 精品一区二区电影 | 一区二区视频在线 | 欧美精品日韩 | 超碰成人免费 | 成人免费观看男女羞羞视频 | 成人毛片在线视频 | 97成人免费 | 国产天天操 | 国产精品日韩欧美一区二区三区 | 午夜天堂精品久久久久 | 欧美男人天堂 | 五月激情综合 | 亚洲精品在线观看视频 | 国产成人亚洲精品 | 国产精品久久久久999 | 午夜精品久久久久久不卡欧美一级 | 国产最新视频在线 | 国产不卡一区 | 日韩成人影院 | 亚洲精品91 | 成人在线精品视频 | 成人欧美一区二区三区在线观看 | 欧美成人第一页 | av男人的天堂av | 国产一区二区三区四区在线观看 | 天天色图 | 国产99精品 | 久久精品福利视频 | 国产做爰| 欧美性猛交一区二区三区精品 | 欧美一区二区三区在线观看 | 黄色在线观看网站 | 青娱乐国产 | 亚洲一区高清 | 精品欧美色视频网站在线观看 | 一区影院 | 国产激情福利 | 狠狠涩|