成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

聽我說,Transformer它就是個支持向量機

人工智能 新聞
在 hackernews 上作者表示,這種理論解決了 SVM 將每個輸入序列中的「好」標記與「壞」token 分開的問題。該 SVM 作為一個性能優(yōu)異的 token 選擇器,與傳統(tǒng)為輸入分配 0-1 標簽的 SVM 本質(zhì)上不同。

Transformer 是一個支持向量機(SVM)一種新型理論在學界引發(fā)了人們的討論。

上周末,一篇來自賓夕法尼亞大學、加州大學河濱分校的論文試圖研究大模型基礎 Transformer 結(jié)構(gòu)的原理,其在注意力層的優(yōu)化幾何與將最優(yōu)輸入 token 與非最優(yōu) token 分開的硬邊界 SVM 問題之間建立了形式等價。

在 hackernews 上作者表示,這種理論解決了 SVM 將每個輸入序列中的「好」標記與「壞」token 分開的問題。該 SVM 作為一個性能優(yōu)異的 token 選擇器,與傳統(tǒng)為輸入分配 0-1 標簽的 SVM 本質(zhì)上不同。

這種理論也解釋了注意力如何通過 softmax 引起稀疏性:落在 SVM 決策邊界錯誤一側(cè)的「壞」token 被 softmax 函數(shù)抑制,而「好」token 是那些最終具有非零 softmax 概率的 token。還值得一提的是,這個 SVM 源于 softmax 的指數(shù)性質(zhì)。

論文上傳到 arXiv 上面之后,人們紛紛發(fā)表意見,有人表示:AI 研究的方向真是螺旋上升,難道又要繞回去了?

繞了一圈,支持向量機還是沒有過時。

自經(jīng)典論文《Attention is All You Need》問世以來,Transformer 架構(gòu)已為自然語言處理(NLP)領域帶來了革命性進展。Transformer 中的注意力層接受一系列輸入 token X,并通過計算 圖片 評估 token 之間的相關性,其中 (K, Q) 是可訓練的 key-query 參數(shù),最終有效捕獲遠程依賴關系。

現(xiàn)在,一篇名為《Transformers as Support Vector Machines》的新論文在自注意力的優(yōu)化幾何和 hard-margin SVM 問題之間建立了一種形式等價,使用 token 對的外積線性約束將最優(yōu)輸入 token 與非最優(yōu) token 分開。

論文鏈接:https://arxiv.org/pdf/2308.16898.pdf

這種形式等價建立在 Davoud Ataee Tarzanagh 等人的論文《Max-Margin Token Selection in Attention Mechanism》的基礎上,它能夠描述通過梯度下降進行優(yōu)化的 1 層 transformer 的隱式偏差(implicit bias):

 (1) 優(yōu)化由 (K, Q) 參數(shù)化的注意力層,通過消失正則化(vanishing regularization),收斂到一種 SVM 解決方案,其中最小化組合參數(shù) 圖片 的核范數(shù)(nuclear norm)。相反,直接通過 W 進行參數(shù)化可以最小化 Frobenius 范數(shù) SVM 目標。該論文描述了這種收斂,并強調(diào)它可以發(fā)生在局部最優(yōu)方向而不是全局最優(yōu)方向。 

(2) 該論文還證明了 W 參數(shù)化在適當?shù)膸缀螚l件下梯度下降的局部 / 全局方向收斂。重要的是,過度參數(shù)化通過確保 SVM 問題的可行性和保證沒有駐點(stationary points)的良性優(yōu)化環(huán)境來催化全局收斂。 

(3) 雖然該研究的理論主要適用于線性預測頭,但研究團隊提出了一種更通用的 SVM 等價物,可以預測具有非線性頭 / MLP 的 1 層 transformer 的隱式偏差。

總的來說,該研究的結(jié)果適用于一般數(shù)據(jù)集,可以擴展到交叉注意力層,并且研究結(jié)論的實際有效性已經(jīng)通過徹底的數(shù)值實驗得到了驗證。該研究建立一種新的研究視角,將多層 transformer 看作分離和選擇最佳 token 的 SVM 層次結(jié)構(gòu)。

具體來說,給定長度為 T,嵌入維度為 d 的輸入序列 圖片 ,該研究分析核心交叉注意力和自注意力模型: 

圖片

其中,K、Q、V 分別是可訓練的鍵、查詢、值矩陣,圖片;S (?) 表示 softmax 非線性,它逐行應用于 圖片。該研究假設將 Z 的第一個 token(用 z 表示)用于預測。具體來說,給定一個訓練數(shù)據(jù)集 圖片圖片圖片,該研究使用遞減損失函數(shù) 圖片 進行最小化:

圖片

這里,h (?) : 圖片 是包含值權(quán)重 V 的預測頭。在這種表述中,模型 f (?) 精確地表示了一個單層 transformer,其中注意力層之后是一個 MLP。作者通過設置 圖片 來恢復 (2) 中的自注意力,其中 x_i 表示序列 X_i 的第一個 token。由于 softmax 運算的非線性性質(zhì),它給優(yōu)化帶來了巨大挑戰(zhàn)。即使預測頭是固定和線性的,該問題也是非凸和非線性的。在本研究中,作者將重點放在優(yōu)化注意力權(quán)重(K、Q 或 W)上,并克服這些挑戰(zhàn),從而建立 SVM 的基本等價性。

論文結(jié)構(gòu)如下:第 2 章介紹了自注意力和優(yōu)化的初步知識;第 3 章分析了自注意力的優(yōu)化幾何,表明注意力參數(shù) RP 收斂到最大邊際解;第 4 章和第 5 章分別介紹了全局和局部梯度下降分析,表明 key-query 變量 W 向 (Att-SVM) 的解決方案收斂;第 6 章提供了在非線性預測頭和廣義 SVM 等價性方面的結(jié)果;第 7 章將理論擴展到順序預測和因果預測;第 8 章討論了相關文獻。最后,第 9 章進行總結(jié),提出開放性問題和未來研究方向。

論文的主要內(nèi)容如下:

注意力層的內(nèi)隱偏差(第 2-3 章)

正則化消失的情況下優(yōu)化注意力參數(shù)(K, Q),會在方向上收斂到圖片的最大邊際解,其核范數(shù)目標是組合參數(shù) 圖片。在直接用組合參數(shù) W 對交叉注意力進行參數(shù)化的情況下,正則化路徑 (RP) 定向收斂于以 Frobenius 范數(shù)為目標的(Att-SVM)解。

這是第一個正式區(qū)分 W 與(K,Q)參數(shù)化優(yōu)化動態(tài)的結(jié)果,揭示了后者的低階偏差。該研究的理論清楚地描述了所選 token 的最優(yōu)性,并自然地擴展到了序列到序列或因果分類設置。

梯度下降的收斂(第 4-5 章)

通過適當?shù)某跏蓟途€性頭 h (?),組合 key-query 變量 W 的梯度下降(GD)迭代在方向上收斂到(Att-SVM)的局部最優(yōu)解(第 5 節(jié))。要實現(xiàn)局部最優(yōu),所選 token 必須比相鄰 token 得分更高。

局部最優(yōu)方向不一定是唯一的,可以根據(jù)問題的幾何特征來確定 [TLZO23]。作為一項重要貢獻,作者確定了保證向全局最優(yōu)方向收斂的幾何條件(第 4 章)。這些條件包括: 

  • 最佳 token 在分數(shù)上有明顯區(qū)別;
  • 初始梯度方向與最佳 token 一致。

除此以外,論文還展示了過度參數(shù)化(即維度 d 較大,以及同等條件)通過確保(1)(Att-SVM)的可行性,以及(2)良性優(yōu)化 landscape(即不存在靜止點和虛假的局部最優(yōu)方向)來催化全局收斂(見第 5.2 節(jié))。

圖 1 和圖 2 對此進行了說明。

圖片


圖片

SVM 等價的通用性(第 6 章)

當使用線性 h (?) 進行優(yōu)化時,注意力層會固有地偏向于從每個序列中選擇一個 token(又稱硬注意力)。這反映在了 (Att-SVM) 中,表現(xiàn)為輸出 token 是輸入 token 的凸組合。與此相反,作者表明非線性頭必須由多個 token 組成,從而突出了它們在 transformer 動態(tài)過程中的重要性(第 6.1 節(jié))。利用從理論中獲得的洞察力,作者提出了一種更通用的 SVM 等價方法。

值得注意的是,他們證明了在理論未涵蓋的普遍情況下(例如,h (?) 是一個 MLP),本文的方法能準確預測通過梯度下降訓練的注意力的隱含偏差。具體來說,本文的通用公式將注意力權(quán)重解耦為兩個部分:一個是由 SVM 控制的定向部分,它通過應用 0-1 掩碼來選擇標記;另一個是有限部分,它通過調(diào)整 softmax 概率來決定所選 token 的精確組成。

這些發(fā)現(xiàn)的一個重要特點是,它們適用于任意數(shù)據(jù)集(只要 SVM 可行),并且可以用數(shù)字驗證。作者通過實驗廣泛驗證了 transformer 的最大邊際等價性和隱含偏差。作者認為,這些發(fā)現(xiàn)有助于理解作為分層最大邊際 token 選擇機制的 transformer,可為即將開展的有關其優(yōu)化和泛化動態(tài)的研究奠定基礎。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2015-10-23 10:23:26

大數(shù)據(jù)向量機

2018-09-25 16:07:53

大數(shù)據(jù)語言分布式

2017-02-07 14:40:52

2017-02-24 14:05:14

AndroidMVCMVP

2023-06-29 08:02:05

向量Attention網(wǎng)絡

2014-07-08 10:31:08

機器學習

2020-05-21 09:02:37

機器學習技術數(shù)據(jù)

2019-03-04 11:24:52

存儲

2012-04-06 14:53:38

英特爾超級本

2017-10-08 15:04:57

支持向量機機器學習核函數(shù)

2012-02-22 09:53:26

GoogleIE9P3P

2017-11-22 14:35:02

Hadoop數(shù)據(jù)Reduce

2013-08-19 08:47:36

Amazon云服務

2025-03-10 13:11:00

2024-02-22 13:52:51

Python循環(huán)代碼

2015-07-14 14:34:40

2013-06-24 10:12:27

Jego中國移動Just Easy G

2022-02-10 09:27:23

Safari瀏覽器蘋果

2018-07-17 11:02:43

高盛Oracle
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 拍真实国产伦偷精品 | 日皮视频免费 | 高清视频一区二区三区 | 99草免费视频 | 亚洲视频三区 | 五月天国产视频 | 奇米av| 一级黄在线观看 | 瑞克和莫蒂第五季在线观看 | 久久久精品影院 | 国产小u女发育末成年 | 日韩精品久久久久久 | 在线免费观看a级片 | 操操操操操 | 中文字幕中文字幕 | 亚洲欧洲色视频 | 五月婷婷丁香婷婷 | 97色在线视频 | 亚洲综合色自拍一区 | 精品欧美一区二区精品久久 | 久久er精品 | 人人做人人澡人人爽欧美 | www.国产精 | 日本在线看片 | 日韩三级免费网站 | 免费视频一区二区三区在线观看 | 亚洲精品一区中文字幕 | 国产久 | 91在线一区二区三区 | 成人免费久久 | 一区二区三区视频在线观看 | 亚洲高清av| 伊人二区 | 国产精品久久久久久久久免费软件 | 亚洲69p | 午夜小视频在线观看 | 欧美淫片 | 国产真实精品久久二三区 | 日韩视频精品在线 | 久久精品中文字幕 | 午夜免费av |