成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多虧Transformer,Mamba更強(qiáng)了!僅用1%計(jì)算量達(dá)新SOTA

人工智能
去年,他和FlashAttention作者Tri Dao一起提出了Mamba,成為第一個(gè)真正實(shí)現(xiàn)匹配Transformer性能的線性時(shí)間序列模型。

Attention is all you need.

至少在矩陣這兒是。

Mamba架構(gòu)最新進(jìn)展:僅需1%計(jì)算量,新模型性能達(dá)SOTA。

能做到這一點(diǎn),還多虧了Transformer。

圖片圖片

通過將Transformer模型中的知識(shí)有效遷移到Mamba等替代架構(gòu)中,模型能在保持較低計(jì)算成本的同時(shí),性能更好。

這就是由Mamba主創(chuàng)之一Albert Gu領(lǐng)銜的最新成果。

值得一提的是,這種方法還適用于Mamba以外的非Transformer架構(gòu)。

從Transformer到SSMs

Transformer由于依賴二次自注意力機(jī)制,所需計(jì)算量很大。

二次自注意力機(jī)制能讓模型在處理序列數(shù)據(jù)時(shí)有效捕捉序列內(nèi)部的長距離依賴關(guān)系,但是由于二次時(shí)間復(fù)雜度(如果輸入規(guī)模翻倍,模型計(jì)算所需時(shí)間增加4倍),導(dǎo)致處理長序列的計(jì)算成本很高。

為了解決這個(gè)問題,學(xué)界提出了很多新架構(gòu),比如Mamba、RWKV等,它們的微調(diào)和推理成本更低。

考慮到Transformer模型預(yù)訓(xùn)練已經(jīng)投入了大量計(jì)算資源,研究人員想到,為什么不能在此基礎(chǔ)上進(jìn)行提升?

所以在本項(xiàng)研究中,他們提出了一種蒸餾方法MOHAWK,利用Transformer預(yù)訓(xùn)練模型來訓(xùn)練SSMs模型。

其核心在于注意力機(jī)制、線性注意力、Mamba的結(jié)構(gòu)化掩碼注意力SMA等,都是跨輸入長度維度的序列轉(zhuǎn)換。因此它們都有各自的矩陣混合器,比如softmax。

圖片圖片

通過將注意力和SSMs視為通過應(yīng)用不同類別的矩陣來混合不同token嵌入的序列變換,序列模型架構(gòu)可以分解為獨(dú)立序列混合和通道混合塊。

比如Transformer由注意力(序列混合器)和MLP(通道混合器)塊組成,使用這種分解可以蒸餾模型的每個(gè)元素。

具體蒸餾分為三個(gè)階段:

第一階段:矩陣對(duì)齊(Matrix Orientation)。對(duì)齊序列變換矩陣本身。

第二階段:隱藏狀態(tài)對(duì)齊(Hidden-State Alignment)。對(duì)齊網(wǎng)絡(luò)每個(gè)單獨(dú)層的隱藏狀態(tài)表示,且不犧牲預(yù)先學(xué)習(xí)的表示。

第三階段:權(quán)重轉(zhuǎn)移和知識(shí)蒸餾(Weight-Transfer and Knowledge Distillation)。通過一個(gè)端到端訓(xùn)練階段,將權(quán)重轉(zhuǎn)移,最終使用只有一小部分訓(xùn)練數(shù)據(jù)來蒸餾網(wǎng)絡(luò)的最終輸出。

利用這個(gè)方法來實(shí)際修改一個(gè)模型,比如Phi-Mamba。

圖片圖片

它結(jié)合了Mamba-2和Phi-1.5。

通過MOHAWK方法,該模型從預(yù)訓(xùn)練的Transformer模型中學(xué)習(xí),同時(shí)作為狀態(tài)空間模型,它在處理長序列上比傳統(tǒng)Transformer架構(gòu)更高效。

該模型僅使用3B token進(jìn)行蒸餾,數(shù)據(jù)量為從頭訓(xùn)練模型的1%,但是性能達(dá)到開源非Transformer架構(gòu)中的SOTA。

圖片圖片

實(shí)驗(yàn)發(fā)現(xiàn),隱藏狀態(tài)對(duì)齊更好,可以提高后續(xù)階段的性能。

圖片圖片

研究團(tuán)隊(duì)也發(fā)布了混合Phi-Mamba-1.5B,通過5B token蒸餾,模型與類似混合模型表現(xiàn)相當(dāng),但是注意力層只用了4層。

圖片圖片

值得一提的是,這種蒸餾方法不止適用于Mamba。

圖片圖片

該研究由CUM助理教授、Cartesia AI聯(lián)合創(chuàng)始人及首席科學(xué)家Albert Gu領(lǐng)銜。

去年,他和FlashAttention作者Tri Dao一起提出了Mamba,成為第一個(gè)真正實(shí)現(xiàn)匹配Transformer性能的線性時(shí)間序列模型。

論文地址:https://arxiv.org/abs/2408.10189

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-03-10 08:47:00

模型AI訓(xùn)練

2023-10-30 09:16:00

模型訓(xùn)練

2025-02-07 14:01:20

2025-04-21 09:07:00

2025-02-17 07:00:00

蘋果模型

2024-03-04 08:20:00

谷歌架構(gòu)AI

2024-05-13 10:38:08

2025-05-29 09:20:00

模型研究推理

2025-03-24 13:04:12

2023-05-29 13:53:46

開源模型

2024-03-25 13:06:00

數(shù)據(jù)訓(xùn)練

2024-08-13 12:49:29

2024-01-23 12:57:00

模型數(shù)據(jù)

2023-11-05 15:05:15

AI論文

2024-08-19 13:21:14

2023-12-29 08:02:17

大模型人工智能AI

2023-12-25 09:41:37

點(diǎn)云訓(xùn)練

2024-04-02 09:03:43

TransformeMambaRNN

2023-07-18 15:00:00

AI代碼

2023-12-05 13:38:11

架構(gòu)模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产免费拔擦拔擦8x高清 | 91精品久久久久久久 | 日本五月婷婷 | 久久视频免费观看 | 亚洲国产高清高潮精品美女 | 亚洲精品九九 | a级黄色毛片免费播放视频 国产精品视频在线观看 | 中国av在线免费观看 | 亚洲午夜在线 | 精品在线一区二区 | 午夜免费网站 | 精品国产18久久久久久二百 | 91色视频在线观看 | 国产免费色 | 精品免费国产一区二区三区四区 | 成年男女免费视频网站 | 伊人伊人 | 色网在线看 | 91看国产 | 久久精品黄色 | 亚洲www啪成人一区二区麻豆 | 成人一区二区三区 | 精品国产一区二区在线 | 亚洲欧美一区二区三区视频 | 欧美一区二区三区大片 | 久久国产电影 | 一区二区三区四区免费在线观看 | 午夜欧美 | 免费不卡av | 亚洲欧美综合精品久久成人 | 中文精品视频 | 视频一区二区中文字幕 | 伊人激情网 | 国产在线视频一区二区 | 一级毛片播放 | 国产69久久精品成人看动漫 | 一级午夜aaa免费看三区 | 四虎影院久久 | 美女视频网站久久 | 久久精品无码一区二区三区 | 免费一区 |