成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Transformer又出新變體∞-former:無限長期記憶,任意長度上下文

新聞 機器學習
任意長度的上下文都能 hold 住?這里有一個名為∞-former 的新模型。

  [[422086]]

在過去的幾年里,Transformer 幾乎統治了整個 NLP 領域,還跨界到計算機視覺等其他領域。但它也有弱點,比如不擅長處理較長上下文,因為計算復雜度會隨著上下文長度的增長而增長,這使其難以有效建模長期記憶。為了緩解這一問題,人們提出了多種 Transformer 變體,但它們的記憶容量都是有限的,不得不拋棄較早的信息。

在一篇論文中,來自 DeepMind 等機構的研究者提出了一種名為 ∞-former 的模型,它是一種具備無限長期記憶(LTM)的 Transformer 模型,可以處理任意長度的上下文。

Transformer又出新變體∞-former:無限長期記憶,任意長度上下文

論文鏈接:https://arxiv.org/pdf/2109.00301.pdf

通過利用連續空間注意力機制來處理長期記憶,∞-former 的注意力復雜度可以獨立于上下文長度。因此,它能夠借助一個固定的算力開銷建模任意長度的上下文并保持「粘性記憶(sticky memories)」。

在一個綜合排序任務上進行的實驗證明了∞-former 能夠保留來自長序列的信息。此外,研究者還進行了語言建模的實驗,包括從頭開始訓練一個模型以及對一個預訓練的語言模型進行微調,這些實驗顯示了無限長期記憶的優勢。

不過,和其他很多 Transformer 變體的論文一樣,這篇論文的標題也引發了一些吐槽:

Transformer又出新變體∞-former:無限長期記憶,任意長度上下文

∞-former:一種擁有無限記憶的 Transformer

為了使模型能夠處理長程上下文,研究者提出用一個連續 LTM 來擴展原始 transformer,這個 LTM 存儲前面步驟的輸入嵌入和隱藏狀態。他們還考慮了有兩種記憶的可能性:LTM 和 STM(短期記憶),類似于 transformer-XL 的記憶。∞-former 的整體架構如下圖 1 所示。

Transformer又出新變體∞-former:無限長期記憶,任意長度上下文

為了讓新模型的 LTM 達到無限的程度,研究者使用了一個連續空間注意力框架(參見《 Sparse and Continuous Attention Mechanisms 》),它在適用于記憶的信息單元數量(基函數)和這些單元的表示粒度之間進行了權衡。在這一框架中,輸入序列被表征為一個連續信號,表示為徑向基函數的一個線性組合。這種表征有兩個顯著的優勢:1)上下文可以用 N 個基函數來表示,N 小于上下文中 token 的數量,降低了注意力復雜度;2)N 可以是固定的,這使得在記憶中表征無限長度的上下文成為可能(如圖 2 所示),代價是損失 resolution,但不增加其注意力復雜度,O(L^2 + L × N),其中的 L 對應 transformer 序列長度。

Transformer又出新變體∞-former:無限長期記憶,任意長度上下文

為了緩解損失較早記憶 resolution 的問題。研究者引入了「粘性記憶」的概念,將 LTM 新信號中的較大空間歸于之前記憶信號的相關區域。這是一種強制重要信息在 LTM 中持續存在的過程,使得模型可以在不損失相關信息的情況下更好地捕捉長上下文,類似于大腦中的長時程增強和突觸可塑性。

實驗結果

為了檢驗∞-former 能否建模長上下文,研究者首先針對一個綜合任務進行了實驗,包括把 token 按其在一個長序列中的頻率進行排序,結果如下:

Transformer又出新變體∞-former:無限長期記憶,任意長度上下文

從圖中可以看出,在序列長度為 4000 的時候,transformerXL 的準確率要略高于 compressive transformer 和 ∞-former。這是因為 transformerXL 幾乎可以在記憶中保存整個完整序列。但隨著序列長度的增加,transformerXL 的準確率迅速下降,compressive transformer 和 ∞-former 變化較小。這表明∞-former 更擅長建模長序列。

接下來,他們又進行了語言建模實驗,包括:1)從頭訓練一個模型;2)微調一個預訓練語言模型。

第一個語言建模實驗的結果如下表 1 所示。從中可以看出,利用長期記憶擴展模型確實會帶來更好的困惑度結果,而且使用粘性記憶也可以在一定程度上降低困惑度。

Transformer又出新變體∞-former:無限長期記憶,任意長度上下文

第二個語言建模實驗的結果如下表 2 所示。該結果表明,通過簡單地將長期記憶添加至 GPT-2 并進行微調,模型在 Wikitext-103 和 PG19 上的困惑度都會降低。這表明∞-former 具有多種用途:既可以從頭開始訓練模型,也可以用于改進預訓練模型。

Transformer又出新變體∞-former:無限長期記憶,任意長度上下文

 

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2023-07-11 10:02:23

2024-03-14 08:11:45

模型RoPELlama

2023-09-16 13:47:47

人工智能數據

2017-05-11 14:00:02

Flask請求上下文應用上下文

2025-01-16 08:20:00

2012-12-31 10:01:34

SELinuxSELinux安全

2022-09-14 13:13:51

JavaScript上下文

2022-09-15 08:01:14

繼承基礎設施基礎服務

2025-02-06 10:21:51

2023-11-22 16:51:53

2017-12-17 17:01:23

限界上下文系統模型

2022-10-28 16:24:33

Context上下文鴻蒙

2024-09-30 14:10:00

2025-03-18 08:14:05

2020-07-24 10:00:00

JavaScript執行上下文前端

2021-07-26 07:47:36

Cpu上下文進程

2025-06-06 08:00:00

上下文管理器Python開發

2025-01-14 17:23:08

2025-04-28 09:02:14

2023-05-19 10:16:27

AIGPT-4
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄色网毛片 | 婷婷精品 | 日韩一区二区三区视频 | 日韩一区二区三区视频 | 日韩av一区二区在线观看 | 国产亚洲精品久久久久动 | 一区二区三区中文字幕 | 免费看91| 国产91丝袜| 91久久国产综合久久 | 午夜成人在线视频 | 成人在线视频免费观看 | 亚洲欧美一区二区三区视频 | 在线日韩中文字幕 | 97精品超碰一区二区三区 | 亚洲国产欧美一区二区三区久久 | 91色在线视频| 精品视频在线免费观看 | 91精品国产综合久久精品 | 91精品国产综合久久婷婷香蕉 | 亚洲一区二区三区在线 | 蜜桃官网| 国产精品日韩欧美一区二区三区 | 免费在线观看一区二区 | 久久久国产精品网站 | 久久99精品久久久久 | 久久久久无码国产精品一区 | 国产特级毛片 | 久久伊人免费视频 | 欧美成ee人免费视频 | 日日噜噜夜夜爽爽狠狠 | 一区二区在线免费观看 | 亚洲系列第一页 | 欧美一区二区三区在线 | 色就干| 亚洲国产精品久久久 | av一级| 一区二区三区国产精品 | 99re在线| 免费一级片 | 久久男女视频 |