成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

新架構RNN反超Transformer:每個隱藏狀態都是一個模型,一作:從根本上改變語言模型

人工智能
將來在對長視頻進行建模時,我們可以密集地采樣幀而不是采樣1 FPS,這些密集幀對Transformer來說是一種負擔,但對TTT層來說是一種福音。

新架構,再次向Transformer發起挑戰!

核心思想:將RNN中的隱藏狀態換成可學習的模型。

甚至在測試時都可以學習,所以該方法稱為TTT(Test-Time Training)。

共同一作UC伯克利的Karen Dalal表示:我相信這將從根本上改變語言模型。

圖片圖片

一個TTT層擁有比RNN表達能力更強的隱藏狀態,可以直接取代Transformer中昂貴的自注意力層。

在實驗中,隱藏狀態是線性模型的TTT-Linear表現超過了Transformer和Mamba,用更少的算力達到更低的困惑度(左),也能更好利用長上下文(右)。

圖片圖片

此外,隱藏狀態是MLP模型的TTT-MLP在32k長上下文時表現還要更好。

圖片圖片

Karen Dalel還指出,理論上可學習的隱藏狀態可以是任意模型,對于更長上下文來說,可以是CNN、甚至可以是完整的Transformer來套娃。

目前剛剛出爐的TTT論文已經在學術界引起關注和討論,斯坦福博士生Andrew Gao認為,這篇論文或許能成為下一篇Attention is all you need。

圖片圖片

另外有人表示,眾多新架構能否真正擊敗Transformer,還要看能不能擴展到更大規模。

Karen Dalel透露,馬上就會推出7B模型。

圖片圖片

用機器學習模型來壓縮上下文

傳統RNN,隱藏狀態固定大小表達能力受限,也不好并行訓練。

Transformer強大,但自注意力機制隨上下文長度呈平方復雜度,非常昂貴。

最近一系列基于RNN的架構創新中:

RWKV,用線性注意力結合RNN和Transformer的優點,在訓練時可以并行計算。

Mamba,賦予模型選擇性記住或遺忘信息的能力來壓縮上下文,同時設計了面向硬件的高效并行算法。

它們的表現在短上下文時追上甚至超越了Transformer,但在32k超長上下文以上,Trasformer依舊稱霸。

圖片圖片

TTT團隊的想法來自于:與其讓隱藏狀態被動地儲存信息,不如讓它主動學習。

就像Transformer模型作為一個整體在壓縮互聯網數據到參數中一樣,可學習的隱藏狀態模型也在少量參數上不斷縮上下文信息。

這種“隱藏狀態模型”隨著時間的推移仍然具有固定的大小(固定的模型參數),但表達能力更強了。

論文的聯合指導UCSD助理教授王小龍認為:

Transformer顯式地儲存所有輸入token,如果你認為個神經網絡是壓縮信息的好方法,那么壓縮這些token也將是有意義的。

圖片圖片

如此一來,整個框架的時間復雜度還是線性的,

圖片圖片

至此,序列建模被拆解為兩個嵌套的學習循環,外循環負責整體的語言建模,內循環通過自監督學習壓縮上下文信息。

外循環的參數變成了內循環的超參數,也就是元學習的一個變種了。

標準的元學習是訓練一個適應不同任務的模型,而TTT是讓模型去適應每一個測試樣本。單個樣本雖然信息量小,但用來訓練隱藏狀態模型也綽綽有余。

圖片圖片

特別的,在內循環是一個線性模型時,相當于線性注意力。當內循環是一個Nadaraya-Watson estimator時,TTT等價于自注意力。

圖片圖片

在測試時學習

在TTT層里,使用自監督學習方法將上下文壓縮到隱藏狀態。

上下文就是未標記的數據集,隱藏狀態不再是一個固定的向量,可以是線性模型、小型神經網絡或任何機器學習模型,更新規則采用了在自監督損失上的一步梯度下降。

這樣一來,隱藏狀態模型可以記住產生大梯度的輸入,并且可以獲得比選擇性遺忘機制更強的擬合和泛化能力,并且在測試時仍然為每個輸入序列訓練不同的參數。

圖片圖片

到目前為止,樸素的TTT層已經有效了,但還無法并行化。

團隊提出的解決方案為mini-batch梯度下降,把一個batch內的梯度計算并行化。

再通過Dual form方法,只在mini-batch結束時計算權重以及輸出token,避免冗余計算。在JAX版實現中快了5倍以上。

圖片圖片

TTT能否成為“Transformer殺手”?

理論上都走的通了,那么TTT在實驗中表現到底如何?

最簡單干凈的測試方法,應該是直接替換掉Transformer中的自注意力層。

但是在研究過程中,團隊發現Mamba等現代RNN的骨干中在RNN層之前還包含時間卷積,對TTT也有幫助。

所以實驗中TTT-Linear和TTT-MLP主要應用到Mamba骨干上,其他訓練細節也嚴格遵照Mamba論文中的設置。

最終在Pile數據集短上下文測試中:

  • 2k上下文時,TTT-Linear、Mamba和Transform具有相當的性能,TTT-MLP的表現略差。
  • 8k上下文時,TTT-Linear和TTT-MLP都優于Mamba和Transformer,應用在Transformer骨干的TTT-MLP(T)在1.3B參數左右也略好與Mamba。

總的來說,隨著上下文長度的增長,TTT層相對于Mamba的優勢也會擴大。

另外團隊猜測,線性模型比MLP表達能力差,因此從Mamba骨干的卷積中受益更多。

圖片圖片

長上下文實驗使用Pile的子集Books3:

  • 32k上下文,TTT-Linear和TTT-MLP的表現都優于曼巴,類似于Pile 8k的觀察。即使是帶有Transformer骨干的TTT-MLP(T)表現也略好于曼巴。
  • 1.3B參數尺度上,TTT-MLP(T)僅比TTT-MLP(M)稍差,Transformer骨干可能更適合論文評估范圍之外的更大模型和更長的上下文。

圖片圖片

在A100上測試速度,TTT-Linear在預填充階段比Mamba稍快,解碼階段幾乎與Mamba速度相同。TTT-MLP相比Transformer整體上也有線性復雜度的優勢。

圖片圖片

共同一作Karan Dala表示:我一直被問到的一個問題是,我們是否相信TTT就是“Transformer殺手”,我仍然認為我們需要繼續努力。

隱藏狀態可以是任意模型,但目前的研究只涉及了線性模型和小型MLP,更復雜的還有待研究。

隱藏狀態模型的學習可以用Adam代替普通的梯度下降等等。

還可用于視頻建模

三位共同一作中:

Yu Sun博士畢業于UC Berkeley,目前是斯坦福大學博士后。

圖片圖片

Xinhao Li是電子科技大學校友,碩士畢業于UCSD。

圖片圖片

Karan Dalel本科畢業于UC Berkley,正在機器人初創公司1X實習。

圖片圖片

最后,聯合指導UCSD助理教授王小龍還透露,TTT方法除了語言模型,還適用于視頻。

TTT就是“Transformer殺手”,我仍然認為我們需要繼續努力。

將來在對長視頻進行建模時,我們可以密集地采樣幀而不是采樣1 FPS,這些密集幀對Transformer來說是一種負擔,但對TTT層來說是一種福音。

圖片圖片

論文地址:https://arxiv.org/abs/2407.04620

參考鏈接:[1]https://x.com/karansdalal/status/1810338845659131940[2]https://x.com/xiaolonw/status/1810387662060269668

責任編輯:武曉燕 來源: 量子位
相關推薦

2009-06-30 19:32:16

SUN云計算IT

2023-03-20 14:08:00

元宇宙

2012-10-22 16:34:37

JavaJava8Lambda

2020-04-26 10:00:48

大數據文件傳輸

2023-11-30 15:17:21

人工智能業務流程

2022-02-15 14:58:29

區塊鏈娛樂加密貨幣

2023-09-26 14:31:51

元宇宙

2022-01-11 14:05:01

區塊鏈技術數據

2014-12-31 10:37:09

2024-04-15 07:50:00

AI架構

2018-11-05 15:28:05

2021-11-19 10:13:01

模型人工智能計算

2017-11-15 19:00:49

深度學習SoftmaxRNN語言模型

2025-01-16 08:20:00

2025-02-25 10:34:10

2023-11-22 09:00:00

NLP語言模型LSTM

2023-02-25 16:14:36

AIMeta語言模型

2011-03-02 14:34:54

NVIDIA工作站

2020-02-11 09:30:08

微軟瀏覽器Windows

2024-03-04 08:15:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品在线观看 | 亚洲综合小视频 | 中文字幕高清一区 | 午夜精品一区二区三区在线观看 | 在线观看视频亚洲 | 国产综合久久 | 狠狠插狠狠操 | 国产jizz女人多喷水99 | 日本高清视频在线播放 | 黄色片视频免费 | 欧美激情亚洲激情 | 美女在线视频一区二区三区 | 亚洲国产一区二区视频 | www久| 人人草人人干 | 成人三级网址 | 国产大片一区 | 欧美视频xxx | 免费高潮视频95在线观看网站 | 午夜视频一区二区三区 | 日韩欧美成人一区二区三区 | 免费小视频在线观看 | 狠狠干天天干 | 三级av网址 | 久草新在线 | 亚洲www啪成人一区二区麻豆 | 91视视频在线观看入口直接观看 | 久久精品二区亚洲w码 | 一级在线观看 | 国产片一区二区三区 | 农村妇女毛片精品久久久 | 久久久久亚洲 | 一级毛片免费 | 亚洲精品国产成人 | 日韩国产一区二区三区 | 国产黄色大片 | 国产色婷婷精品综合在线手机播放 | 一级毛片免费完整视频 | 日韩国产精品一区二区三区 | 男女在线网站 | 国产欧美在线观看 |