成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視覺Transformer中ReLU替代softmax,DeepMind新招讓成本速降

人工智能 新聞
Google DeepMind 想到了一個新思路:用某種不一定會輸出概率分布的新方法替代 softmax 運算。

Transformer 架構已經在現代機器學習領域得到了廣泛的應用。注意力是 transformer 的一大核心組件,其中包含了一個 softmax,作用是產生 token 的一個概率分布。softmax 有較高的成本,因為其會執行指數計算和對序列長度求和,這會使得并行化難以執行。

Google DeepMind 想到了一個新思路:用某種不一定會輸出概率分布的新方法替代 softmax 運算。他們還觀察到:在用于視覺 Transformer 時,使用 ReLU 除以序列長度的注意力可以接近或匹敵傳統的 softmax 注意力。

論文:https://arxiv.org/abs/2309.08586

這一結果為并行化帶來了新方案,因為 ReLU 注意力可以在序列長度維度上并行化,其所需的 gather 運算少于傳統的注意力。

方法

注意力

注意力的作用是通過一個兩步式流程對 d 維的查詢、鍵和值 {q_i, k_i, v_i} 進行變換。

在第一步,通過下式得到注意力權重 圖片

圖片

其中 ? 通常是 softmax。

下一步,使用這個注意力權重來計算輸出圖片 這篇論文探索了使用逐點式計算的方案來替代 ?。

ReLU 注意力

DeepMind 觀察到,對于 1 式中的 ? = softmax,圖片是一個較好的替代方案。他們將使用 圖片的注意力稱為 ReLU 注意力。

已擴展的逐點式注意力

研究者也通過實驗探索了更廣泛的 圖片 選擇,其中 α ∈ [0, 1] 且 h ∈ {relu,relu2 , gelu,softplus, identity,relu6,sigmoid}。

序列長度擴展

他們還觀察到,如果使用一個涉及序列長度 L 的項進行擴展,有助于實現高準確度。之前試圖去除 softmax 的研究工作并未使用這種擴展方案。

在目前使用 softmax 注意力設計的 Transformer 中,有 圖片 ,這意味著 圖片 盡管這不太可能是一個必要條件,但 圖片能確保在初始化時 圖片 的復雜度是 圖片 保留此條件可能會減少替換 softmax 時對更改其它超參數的需求。

在初始化的時候,q 和 k 的元素為 O (1),因此 圖片 也將為 O (1)。ReLU 這樣的激活函數維持在 O (1),因此需要因子圖片才能使 圖片 的復雜度為  圖片

實驗與結果

主要結果

圖 1 說明在 ImageNet-21k 訓練方面,ReLU 注意力與 softmax 注意力的擴展趨勢相當。X 軸展示了實驗所需的內核計算總時間(小時)。ReLU 注意力的一大優勢是能在序列長度維度上實現并行化,其所需的 gather 操作比 softmax 注意力更少。

圖片

序列長度擴展的效果

圖 2 對比了序列長度擴展方法與其它多種替代 softmax 的逐點式方案的結果。具體來說,就是用 relu、relu2、gelu、softplus、identity 等方法替代 softmax。X 軸是 α。Y 軸則是 S/32、S/16 和 S/8 視覺 Transformer 模型的準確度。最佳結果通常是在 α 接近 1 時得到。由于沒有明確的最佳非線性,所以他們在主要實驗中使用了 ReLU,因為它速度更快。

圖片

qk-layernorm 的效果

主要實驗中使用了 qk-layernorm,在這其中查詢和鍵會在計算注意力權重前被傳遞通過 LayerNorm。DeepMind 表示,默認使用 qk-layernorm 的原因是在擴展模型大小時有必要防止不穩定情況發生。圖 3 展示了移除 qk-layernorm 的影響。這一結果表明 qk-layernorm 對這些模型的影響不大,但當模型規模變大時,情況可能會不一樣。

圖片

添加門的效果

先前有移除 softmax 的研究采用了添加一個門控單元的做法,但這種方法無法隨序列長度而擴展。具體來說,在門控注意力單元中,會有一個額外的投影產生輸出,該輸出是在輸出投影之前通過逐元素的乘法組合得到的。圖 4 探究了門的存在是否可消除對序列長度擴展的需求。總體而言,DeepMind 觀察到,不管有沒有門,通過序列長度擴展都可以得到最佳準確度。也要注意,對于使用 ReLU 的 S/8 模型,這種門控機制會將實驗所需的核心時間增多大約 9.3%。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-09-19 10:07:41

2023-10-06 12:48:00

數據訓練

2020-11-17 08:36:08

云計算混合云技術

2023-12-06 09:37:55

模型視覺

2025-02-10 11:14:31

2023-10-13 13:12:27

2022-10-28 15:08:30

DeepMind數據

2025-01-22 13:15:10

2024-11-21 16:06:02

2023-09-21 10:29:01

AI模型

2022-05-07 11:00:04

人工智能訓練移動設備

2009-10-13 14:36:31

UNIXSUSE Linux操作系統

2023-12-26 12:03:52

AI模型

2013-11-25 16:51:08

訊鳥

2022-09-27 10:10:58

SSD

2022-04-11 09:20:00

模型訓練

2023-07-25 13:40:46

AI模型

2022-07-22 07:18:53

代碼DeepMind

2015-04-09 08:40:12

免費虛擬化產品深信服
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产一区二区在线免费观看 | 中文字幕高清免费日韩视频在线 | 一区二区三区四区在线 | www日本高清视频 | 天天操,夜夜爽 | 一级毛片观看 | 国产免费让你躁在线视频 | 欧美片网站免费 | 在线中文字幕亚洲 | 天天爱天天操 | 日韩在线播放一区 | 黄a在线播放 | 亚洲精品久久久久中文字幕欢迎你 | www.国产精 | 美女操网站 | 九色www | 亚洲一区视频 | 暖暖日本在线视频 | 欧美日韩在线免费观看 | 亚洲区一区二 | 国产片侵犯亲女视频播放 | 91精品国产麻豆 | 手机三级电影 | 色天天综合 | julia中文字幕久久一区二区 | 久久久久久国产精品免费免费狐狸 | 日本午夜视频 | 国产成人午夜精品影院游乐网 | 在线观看午夜视频 | 国产精品视频久久久 | 最新超碰 | 黄色大片免费网站 | 久久久免费毛片 | 丝袜美腿一区二区三区 | 亚洲va国产日韩欧美精品色婷婷 | 午夜影院污 | 久久中文字幕一区 | 91久久综合亚洲鲁鲁五月天 | 成人精品鲁一区一区二区 | 伊人一区 | 精品国产一区二区三区免费 |