成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

克服機器學習轉換器的局限性——從位置嵌入到RoPE和ALiBi方法

譯文 精選
人工智能
本文將從早期的正弦算法跟蹤分析到當前最新的RoPE和ALiBi算法,介紹如何通過先進的位置編碼來克服LLM開發中轉換器的局限性。

譯者 | 朱先忠

審校 | 重樓

引言

近年來開發出的機器學習模型的指數級進步與轉換器架構的出現密切相關。以前,人工智能科學家必須先為手頭的每項任務選擇架構,然后再進行超參數優化以獲得最佳性能。限制科學家們潛力的另一個挑戰是難以處理數據的長期依賴性,難以解決梯度消失、長序列上下文丟失以及因局部約束而無法捕獲全局上下文的問題。此外,傳統模型缺乏可擴展性和并行性,減緩了對大型數據集的訓練,最終阻礙了該領域的進展。

轉換器架構通過其自我注意機制解決了這些問題,從而徹底改變了該領域。它使模型能夠捕獲長序列上的關系,并有效地理解全局上下文,同時具有高度的并行性和跨各種模態如文本、圖像等的適應性。在自我注意力機制中,對于每個標記,將其查詢與所有其他標記的鍵進行比較,以計算相似性得分。然后,這些相似性被用來衡量值向量,最終決定當前標記應關注的位置。自我注意將所有標記視為同等重要,無論其順序如何,失去了關于標記出現順序的關鍵信息;換句話說,它將輸入數據視為一個沒有順序的集合。

現在,我們需要一種機制來對數據強制執行一些順序概念,因為自然語言和許多其他類型的數據本質上是順序和位置敏感的。這就是位置嵌入發揮作用的地方。位置嵌入對序列中每個標記的位置進行編碼,使模型能夠保持對序列結構的感知。在粗略了解了各種編碼位置信息的方法后,接下來我們將詳細地對它們展開逐一介紹。

基于DALL-E模型生成的圖像

注意機制

設S={wi},對于i=1,…,N是N個輸入標記的序列,其中wi表示第i個標記。因此,對于i=1,…,N,S的相應標記嵌入可以表示為E={xi},其中xi是標記wi的d維標記嵌入向量。自我注意機制將位置嵌入結合到標記嵌入中,并生成查詢、鍵和值表示,如下所示:

qm,kn和vn:分別代表與序列中第m-th和n-th位置對應的查詢、鍵和值向量;

fq,fk和fv:這些函數把位置信息嵌入到輸入嵌入xm和xn中,以便生成查詢、鍵和值向量。

然后,根據查詢和關鍵向量之間的相似性計算注意力權重:

注意,權重決定了標記n對標記m的重要性。換句話說,標記m應該對標記n給予多少注意。標記m的輸出是作為值向量的加權和計算的:

因此,注意機制標記m從序列中的其他標記收集信息。

圖1:轉換器架構中的位置編碼(圖片來自論文https://arxiv.org/pdf/1706.03762)。

1.絕對位置嵌入

方程式(1)的典型選擇是:

其中pi是d維向量,表示標記xi的絕對位置。正弦位置編碼和學習位置編碼是生成pi的兩種替代方案。

(1)a正弦位置編碼

正弦位置編碼是在提出轉換器架構的《Attention is all you need》論文中引入的。正弦位置編碼為輸入序列中的每個標記提供唯一的位置表示。它基于不同頻率的正弦和余弦函數,如下所示:

其中,pos是標記在序列中的位置,d是位置嵌入維度,i是維度索引(0<=i<d)。

正弦和余弦函數在正弦位置編碼中的使用與傅里葉變換有著密切的關系。通過使用一系列不同的頻率對位置進行編碼,轉換器創建了一個類似于傅里葉變換的表示,其中:

  • 高頻分量(較低的i)使模型能夠捕獲本地位置信息。這對于理解序列中相鄰標記(如單詞對)之間的關系非常有用。
  • 低頻分量(i值越高)在整個序列中捕獲了更多的全局模式。這有助于模型關注可能相距甚遠的標記之間更廣泛的關系,例如兩個不同句子中單詞之間的依賴關系。

這有助于模型通過比較標記的位置編碼來理解標記的相對位置。正弦位置編碼在推理時推廣到更大的序列長度時不需要額外的訓練參數。然而,它的表現力是有限的。

(2)b學習位置編碼

《Attention is all you need》論文中介紹了學習位置編碼,并將其應用于BERT和GPT模型中,作為正弦位置編碼的替代方案。在學習位置編碼中,序列中的每個位置(例如第一個標記、第二個標記等)都被分配了一個嵌入向量。這些位置嵌入是在訓練過程中與其他轉換器參數一起學習的。例如,如果模型的上下文長度為512,標記嵌入大小為768(即d=768),則大小為512*768的可學習張量將被添加到其他可訓練參數中。這意味著,模型會逐漸學習為特定任務(如文本分類或翻譯)編碼位置信息的最佳方法。

學習位置嵌入比正弦位置嵌入更具表現力,因為模型可以學習位置嵌入,對其特定任務有效。然而,它們引入了更多可訓練的參數,這增加了模型的大小及其計算成本。

2.相對位置嵌入

正弦和學習位置編碼都側重于標記的絕對位置。然而,注意力機制是通過計算序列中每個特定標記的其他標記的重要性來工作的。因此,這個過程取決于標記的相對位置(它們彼此相距多遠),而不是標記的絕對位置。為了解決絕對位置嵌入的局限性,引入了相對位置編碼。

RelativePosEmb會將位置信息添加到標記嵌入中。相反,它修改了在每一層計算鍵和值的方式,如下所示:

上面公式中:

這里,r=clip(m-n,Rmin,Rmax)表示位置m和n之間的相對距離。假設精確的相對位置在一定距離之外沒有用,則對最大相對位置進行剪裁。剪切最大距離使模型能夠在推理時進行外推,即推廣到訓練期間沒有看到的序列長度。然而,這種方法可能會從標記的絕對位置(如第一個標記的位置)中遺漏一些有用的信息。

你可能會注意到fq缺少位置嵌入。這是因為我們正在對相對位置進行編碼。在注意力公式中,查詢和鍵值用于計算注意力權重,如方程(2)所示;因此,我們只需要查詢或鍵包含相對位置嵌入即可。

當前,這種編碼已被用于許多模型,轉換器XLT5。在參考文獻7和【8】中可以找到應用相對位置編碼的不同替代方案。

3.旋轉位置嵌入(RoPE)

與之前的方法不同,RoPE根據標記的位置在多維空間中旋轉向量。它沒有將位置信息添加到標記嵌入中,而是將每一層的注意力權重計算方式修改為:

上面公式中:

  • Wq,Wk:分別表示查詢和鍵權重矩陣;
  • Rθ(m)和Rθ(n):分別表示編碼位置m和位置n的標記的絕對位置的旋轉矩陣;
  • xm和xn:分別表示位置m和位置n的標記嵌入;
  • θ:是一個控制位置旋轉速率的常數。

這種算法提出了一個廣義旋轉矩陣,適用于任何偶數嵌入維數d,如下所示:

其中θi是預定義的:

將RoPE(https://arxiv.org/pdf/2104.09864)應用于注意力權重將得到如下公式:

請注意,RoPE公式不會將位置信息添加到注意力模塊的值中。注意力模塊的輸出是值向量的加權和,由于位置信息沒有添加到值中,因此每個轉換器層的輸出都沒有明確的位置細節。

LLaMAGPT-NeoX等流行模型也正在使用RoPE。

圖2:ALiBi方法可視化(圖片來自論文https://arxiv.org/pdf/2108.12409)。

4.注意線性偏差(ALiBi)

ALiBi算法也不會在單詞嵌入中添加位置編碼;相反,它對注意力權重分數增加了一個懲罰,該懲罰與標記之間的距離成正比。因此,每層兩個標記i和j之間的注意力得分計算如下:

注意力得分=query_i ×key_j-m ×(i-j)

其中,-m ×(i-j)是一個懲罰值,與標記i和j之間的距離成正比。標量m是訓練前固定的頭部特定斜率,其不同頭部的值被選擇為幾何序列。例如,對于頭部值8,m可能是:

這意味著,第一個頭部有一個相對較大的m,因此它更多地懲罰相距較遠的標記,并專注于最近的標記,而第八個頭有最小的m,使其能夠處理更遠的標記。前面的圖2還提供了相應的可視化表示。

當前,ALiBi算法已經應用于BloombergGPT模型BLOOM模型

推理時的轉換器外推

推理時的轉換器外推是指模型能夠很好地處理比訓練時更長的輸入序列。轉換器機制與輸入長度無關,這意味著在推理時,它可以處理更長的序列。然而,請注意,計算成本隨輸入長度呈二次方增長,即使轉換器層本身與之無關。

ALiBi的作者證明了轉換器外推的瓶頸是它的位置嵌入方法。如圖3所示,他們比較了不同位置嵌入方法的外推能力。由于學習位置嵌入不能對大于訓練長度的位置進行編碼,因此它沒有外推能力。

圖3:外推法:隨著輸入序列變長(x軸),正弦、RoPE和T5位置編碼顯示出困惑度降低(在y軸上,越低越好),而ALiBi則沒有(圖片來自論文)。

圖3顯示出,正弦位置嵌入在實踐中的外推能力非常有限。雖然RoPE算法的性能優于正弦曲線算法,但它仍然沒有達到令人滿意的結果。T5偏置方法(相對位置嵌入的一種形式)比正弦算法和RoPE算法嵌入具有更好的外推效果。不幸的是,T5算法偏差的計算成本很高(圖4)。ALiBi算法的性能優于所有這些位置嵌入,內存增加則可以忽略不計(0-0.7%)。

圖4:正弦、RoPE、T5和ALiBi算法位置編碼的批處理訓練、推理速度和內存使用的比較(圖片來自論文

結論

總之,轉換器架構中位置信息的編碼方式會顯著影響其理解順序數據的能力,尤其是在推理時的外推時。雖然絕對位置嵌入方法提供了位置感知,但它們經常難以進行轉換器外推。這就是為什么提出了更新的位置嵌入。相對位置編碼算法RoPE和ALiBi算法具有在推理時進行外推的能力。最后,隨著轉換器在各種應用中的不斷集成,完善位置編碼對于突破其性能極限具有非常重要的意義。

注意:本中表達的意見僅代表我們自己的觀點。

參考文獻

【1】Vaswani, A. “Attention is all you need.” (2017)。

【2】BERT:Devlin, Jacob,“Bert: Pre-training of deep bidirectional transformers for language understanding”(2018)。

【3】GPT:Radford, Alec等,“Language models are unsupervised multitask learners.”(2019)。

【4】RelativePosEmb:Shaw, Peter等,“Self-attention with relative position representations.”(2018)。

【5】Transformer-XLDai, Zihang,“Transformer-xl:Attentive language models beyond a fixed-length context.”(2019)。

【6】T5:Raffel, Colin等,“Exploring the limits of transfer learning with a unified text-to-text transformer.” (2020)。

【7】Raffel, Colin等,“Exploring the limits of transfer learning with a unified text-to-text transformer.”(2020)。

【8】He, Pengcheng等,“Deberta:Decoding-enhanced bert with disentangled attention.”(2020)。

【9】RoPE:Su, Jianlin等,“Roformer: Enhanced transformer with rotary position embedding.”(2024)。

【10】LLaMA:Touvron, Hugo等,“Llama: Open and efficient foundation language models.”(2023)。

【11】GPT-NeoX:Black, Sid等,“Gpt-neox-20b: An open-source autoregressive language model.”(2022)。

【12】ALiBi:Press, Ofir等,“Train short, test long: Attention with linear biases enables input length extrapolation.”(2021)。

【13】BloombergGPT:Wu, Shijie等,“Bloomberggpt: A large language model for finance.”(2023)。

【14】BLOOM:Le Scao, Teven等,“Bloom: A 176b-parameter open-access multilingual language model.”(2023)。

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:Beyond Attention: How Advanced Positional Embedding Methods Improve upon the Original Approach in Transformer Architecture,作者:Elahe Aghapour & Salar Rahili

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2019-11-06 11:34:53

人工智能機器學習工具

2024-06-05 13:48:04

2018-04-26 13:41:57

深度學習人工智能機器學習

2022-06-16 12:51:48

工業機器人機器人

2023-02-21 15:27:13

人工智能ChatGPT聊天機器人

2017-10-09 19:12:52

AI深度學習局限性

2022-12-30 08:26:43

基線預警局限性

2010-08-06 11:04:11

RIP路由協議

2021-08-09 11:07:44

數據安全算法互聯網

2009-03-26 19:44:52

NehalemIntel服務器

2017-07-11 15:25:53

深度學習人工智能

2017-07-12 10:00:22

深度學習小數據樣本深度網絡

2017-07-25 11:22:06

2021-04-20 08:31:13

Kubernetes局限性容器

2010-08-26 10:57:35

2023-01-10 10:11:50

GPU計算

2023-06-21 13:41:00

增強現實虛擬現實AR

2017-04-05 19:04:09

2023-04-12 10:51:42

2014-08-20 10:20:18

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲一区 中文字幕 | 久草免费在线视频 | 国产日韩欧美精品 | 国产一区二区三区色淫影院 | 北条麻妃国产九九九精品小说 | 国产在线精品一区二区 | 中文字幕日韩欧美一区二区三区 | 特级a欧美做爰片毛片 | www国产成人 | 亚洲一区视频在线播放 | 久久久久久久久久毛片 | 日本不卡一区 | 国产精品99久久久久久www | 久久精品视频网站 | 91视频在线网站 | 日韩在线视频一区 | 欧美精品三区 | 日韩一区二区在线视频 | a免费观看 | 精品乱码一区二区三四区 | 免费观看一级毛片视频 | 日本一区二区高清不卡 | 成人网av| 欧美自拍日韩 | 成人激情视频免费在线观看 | 中文字幕精品一区二区三区精品 | 久久综合九九 | 一区二区三区在线电影 | 电影午夜精品一区二区三区 | 国产一二三区精品视频 | 中文字幕 视频一区 | 国产精品久久久久久久一区二区 | 欧美综合在线视频 | 精品欧美一区二区三区久久久 | 日韩性生活网 | www.日本在线播放 | 亚洲精品日韩精品 | 欧美亚洲国语精品一区二区 | 成人深夜福利在线观看 | 久久久久久成人 | 亚洲国产成人一区二区 |