成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Sigmoid注意力一樣強,蘋果開始重新審視注意力機制

人工智能 新聞
近來,一些研究探索了 Transformer 中 softmax 注意力的替代方案,例如 ReLU 和 sigmoid 激活函數。最近,來自蘋果的研究者重新審視了 sigmoid 注意力并進行了深入的理論和實驗分析。

注意力是 Transformer 架構的關鍵部分,負責將每個序列元素轉換為值的加權和。將查詢與所有鍵進行點積,然后通過 softmax 函數歸一化,會得到每個鍵對應的注意力權重。

盡管 SoftmaxAttn 中的 softmax 具有廣泛的用途和有效性,但它并非沒有局限性。例如,softmax 函數有時會導致注意力集中在少數幾個特征,而忽略了其他信息。

近來,一些研究探索了 Transformer 中 softmax 注意力的替代方案,例如 ReLU 和 sigmoid 激活函數。最近,來自蘋果的研究者重新審視了 sigmoid 注意力并進行了深入的理論和實驗分析。

該研究證明:從理論上講,與 softmax 注意力相比,具有 sigmoid 注意力的 Transformer 是通用函數逼近器,并且受益于改進的正則化

圖片

  • 論文地址:https://arxiv.org/pdf/2409.04431
  • 項目地址:https://github.com/apple/ml-sigmoid-attention
  • 論文標題:Theory, Analysis, and Best Practices for Sigmoid Self-Attention

該研究還提出了一種硬件感知且內存高效的 sigmoid 注意力實現 ——FLASHSIGMOID。FLASHSIGMOID 在 H100 GPU 上的推理內核速度比 FLASHATTENTION2 提高了 17%。

跨語言、視覺和語音的實驗表明,合理歸一化的 sigmoid 注意力與 softmax 注意力在廣泛的領域和規模上性能相當,而之前的 sigmoid 注意力嘗試無法實現這一點。

此外,該研究還用 sigmoid 內核擴展了 FLASHATTENTION2,將內核推理掛鐘時間減少了 17%,將現實世界推理時間減少了 8%。

論文作者 Jason Ramapuram 表示:如果想讓注意力快 18% 左右,你不妨試試 Sigmoid 注意力機制。他們用 Sigmoid 和基于序列長度的常量標量偏置取代了注意力機制中的傳統 softmax。

Sigmoid 注意力

假設圖片為向量 n 的輸入序列,每個向量是 d 維。接著研究者定義了三個可學習權重矩陣圖片圖片以及圖片。這三個矩陣用于計算查詢圖片,鍵圖片,以及值圖片。可以得到如下公式:

圖片

根據先前的研究,自注意力可以簡寫為:

圖片

其中 Softmax 函數將輸入矩陣的每一行進行了歸一化。該研究將 Softmax 做了以下替換:

實際上,將圖片作為輸出序列,可以得到:

圖片

將多個 SigmoidAttn 輸出進行組合,得到多個頭的形式,如下所示:

圖片

Sigmoid 注意力理論基礎

該研究對 SigmoidAttn 進行了分析,分析的目的主要有兩個:(1)證明當 SigmoidAttn 取代 SoftmaxAttn 時,Transformer 架構仍然是一個通用函數逼近器;(2)通過計算 SigmoidAttn 的 Lipschitz 常數來恢復其規律性。

具有 Sigmoid 注意力的 Transformer 是通用逼近器嗎?

經典 Transformer 可以將連續的序列到序列函數近似到任意精度,這一特性稱為通用近似特性 (UAP,Universal Approximation Property)。UAP 非常受歡迎,因為它證明了架構的通用性和表示能力。由于 SigmoidAttn 修改了 Transformer 架構,因此從理論上保證這種修改不會影響表示能力并保留 UAP 的性能至關重要。該研究通過以下定理提供此保證。

結果表明,即使使用 SigmoidAttn,一系列 transformer 塊也可以實現上下文映射。

Sigmoid 注意力的正則性

與神經網絡中的任何層一樣,SigmoidAttn 的正則性值得研究,因為它可以深入了解相應網絡的魯棒性及其優化的難易程度。

SigmoidAttn 正則性定理為:

圖片

結果證明,SigmoidAttn 的局部 Lipschitz 常數遠低于 SoftmaxAttn 的最差局部 Lipschitz 常數。

FLASHSIGMOID:硬件感知實現

現代架構上的注意力計算往往會受到內存訪問 IO 的限制。FLASHATTENTION 和 FLASHATTENTION2 通過優化 GPU 內存層次結構利用率來加速注意力計算。得益于這些方法提供的速度提升,該研究開發了 SigmoidAttn 的硬件感知實現 ——FLASHSIGMOID,采用了三個核心思路:

  • Tiling:注意力分而治之的方法:與 FLASHATTENTION 和 FLASHATTENTION2 類似,FLASHSIGMOID 并行處理輸入部分以計算塊中的注意力輸出,有效地組合部分結果以生成最終的注意力輸出。 
  • 內核融合:與 FLASHATTENTION 和 FLASHATTENTION2 一樣,FLASHSIGMOID 將 SigmoidAttn 的前向和后向傳遞的計算步驟實現為單個 GPU 內核,通過避免高帶寬內存 (HBM) 上的中間激活具體化,最大限度地減少內存訪問并提高內存效率。
  • 激活重計算:sigmoid 注意力的向后傳遞需要 sigmoid 激活矩陣,如果在 GPU HBM 上具體化,則會導致執行速度變慢和內存效率低下。FLASHSIGMOID 通過僅保留查詢、鍵和值張量來解決這個問題,以便在向后傳遞期間重新計算 sigmoid 激活矩陣。盡管增加了 FLOPs,但事實證明,與具體化和保留注意力矩陣的替代方法相比,這種方法在掛鐘時間上更快,并且內存效率更高。

實驗

為了實驗驗證 SigmoidAttn,該研究在多個領域進行了評估:使用視覺 transformer 進行監督圖像分類、使用 SimCLR 進行自監督圖像表示學習、BYOL(Bootstrap Your Own Latent)和掩碼自動編碼器 (MAE) 以及自動語音識別 (ASR) 和自回歸語言建模 (LM)。

該研究還在 TED-LIUM v3 上驗證了 ASR 的序列長度泛化,在所有這些領域和算法中,該研究證明 SigmoidAttn 的性能與 SoftmaxAttn 相當(圖 2 和 21),同時提供訓練和推理加速。

圖片

圖片

該研究得出以下觀察結果:

SigmoidAttn 對于沒有偏置的視覺任務是有效的(MAE 除外),但依賴于 LayerScale 以無超參數的方式匹配基線 SoftmaxAttn(圖 9-a)的性能。除非另有說明,否則為 SoftmaxAttn 呈現的所有結果也公平地添加了 LayerScale。

LM 和 ASR 對初始范數圖片較為敏感。需要通過 (a) 相對位置嵌入進行調整;(b) 適當初始化 b 以實現相同效果 —— 允許使用任何位置嵌入。

感興趣的讀者可以閱讀論文原文,了解更多研究內容。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2018-08-26 22:25:36

自注意力機制神經網絡算法

2025-02-25 09:40:00

模型數據AI

2022-03-25 11:29:04

視覺算法美團

2024-06-28 08:04:43

語言模型應用

2024-10-31 10:00:39

注意力機制核心組件

2020-09-17 12:40:54

神經網絡CNN機器學習

2024-12-09 00:00:10

2025-02-25 10:21:15

2024-12-04 09:25:00

2024-11-04 10:40:00

AI模型

2023-05-05 13:11:16

2023-07-30 15:42:45

圖神經網絡PyTorch

2011-07-07 13:12:58

移動設備端設計注意力

2025-02-10 00:00:55

MHAValue向量

2022-02-21 09:25:57

VR研究Nature

2023-11-24 12:36:00

模型訓練

2025-02-19 15:30:00

模型訓練數據

2024-12-17 14:39:16

2024-07-16 14:15:09

2024-02-19 00:12:00

模型數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩欧美操 | 国产精品久久久久影院色老大 | 精品一区二区三区免费视频 | 欧美日韩国产精品激情在线播放 | 亚洲一区不卡在线 | 亚洲在线日韩 | 91久久网站 | 国产91亚洲精品一区二区三区 | 国产乱码精品一区二三赶尸艳谈 | 日韩有码一区二区三区 | 欧美日韩国产中文 | 国产高清在线视频 | 精品一区免费 | 97精品超碰一区二区三区 | 国产特级毛片aaaaaa喷潮 | 青青艹在线视频 | 日韩免费| 精品久久久久久久 | 亚洲九九 | 久久久久九九九九 | 网络毛片| 日韩高清中文字幕 | 一区二区日韩 | 久久久国产一区二区三区 | 久久久久国产精品午夜一区 | 国产韩国精品一区二区三区 | 国产在线麻豆精品入口 | 国产精品精品3d动漫 | 韩国av影院 | 免费麻豆视频 | 色欧美片视频在线观看 | 中文字幕第一页在线 | 国产激情视频网址 | 天天射天天干 | 欧美性另类 | 97人人爱 | 欧美一区二区三区国产精品 | 最新高清无码专区 | 中文字幕视频一区 | 国产欧美日韩一区二区三区在线 | 久久久精 |