成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

力壓Transformer,詳解Mamba和狀態(tài)空間模型 精華

發(fā)布于 2024-7-23 11:03
瀏覽
0收藏

大型語言模型(LLMs)之所以能夠在語言理解與生成上取得巨大成功,Transformer架構是其強大的支撐。從開源的Mistral,到OpenAI開發(fā)的閉源模型ChatGPT,都采用了這一架構。

然而,技術的探索從未止步。為進一步提升LLMs的性能,學界正在研發(fā)能夠超越Transformer的新架構。其中,Mamba模型以其創(chuàng)新的狀態(tài)空間模型(State Space Model)成為研究的焦點。

本文介紹Mamba模型及其在語言建模領域的應用,逐步解析狀態(tài)空間模型的基本概念,并通過豐富的可視化內(nèi)容,讓讀者直觀地理解這一技術如何有望挑戰(zhàn)現(xiàn)有的Transformer架構。

1 Transformer架構的挑戰(zhàn)

我們先對Transformer架構做一個快速回顧,并指出其存在的一個主要缺陷。

Transformer架構將文本輸入視為由一系列token構成的序列。

力壓Transformer,詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

其核心優(yōu)勢在于,無論面對何種輸入,都能追溯到序列中的早期token,以此來推導出其深層的語義表示。

力壓Transformer,詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

1.1 Transformer的核心組件

Transformer由架構兩部分組成:編碼器和解碼器。編碼器負責解析文本,而解碼器則負責生成文本。這種結構的結合,使之能夠勝任從文本翻譯到內(nèi)容創(chuàng)作的多種任務。

力壓Transformer,詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

進一步地,我們可以僅利用解碼器部分來創(chuàng)建生成式模型。這種基于Transformer的模型,即生成預訓練Transformer(GPT),通過解碼器來續(xù)寫或補全輸入的文本,展現(xiàn)出其在文本生成方面的強大能力。

力壓Transformer,詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

1.2 自注意力的高效訓練

單個解碼器塊由兩個主要部分組成,即“掩蔽自注意力機制(Masked Self-attention)”和“前饋神經(jīng)網(wǎng)絡(Feedforward Neural Network)”。

力壓Transformer,詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

自注意力是這些模型運行如此良好的主要原因。它提供了整個序列的未壓縮視圖,并加快了訓練速度。

具體來說,自注意力機制的工作原理是通過創(chuàng)建一個矩陣,該矩陣對序列中的每個token與之前所有token進行比較,并通過計算它們之間的相關性來確定權重。

力壓Transformer,詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

在訓練過程中,自注意力矩陣是一次性整體構建的,這表示不需要依次等待每個token的注意力計算完成,而是可以同時進行整個序列的注意力計算。例如,在處理“我”和“名字”的關聯(lián)之前,無需先完成“名字”和“是”的關聯(lián)計算。

這種設計實現(xiàn)了訓練過程的并行化,極大地提升了訓練速度,使Transformer架構在處理大規(guī)模數(shù)據(jù)集時更加高效。

1.3 訓練與推理的矛盾

然而,Transformer架構也有其局限性。每當生成新的token時,必須對整個序列的注意力權重重新進行計算,哪怕此前已經(jīng)生成了若干token。

力壓Transformer,詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

生成長度為L的序列需要大約L2次計算,隨著序列的延長,計算成本會急劇上升。

力壓Transformer,詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

這種對序列全面重新計算的需求,是Transformer架構的一個主要瓶頸。

接下來,讓我們看看傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(RNN)是如何克服這一推理過程中的效率問題。

1.4 RNN的潛力

遞歸神經(jīng)網(wǎng)絡(RNN)是一種處理序列數(shù)據(jù)的網(wǎng)絡結構。在序列的每個時間點,RNN接收兩個輸入:當前時間點t的輸入數(shù)據(jù)和上一個時間點t-1的隱藏狀態(tài),以此來計算下一個隱藏狀態(tài)并預測輸出結果。

RNN具有循環(huán)機制,能夠?qū)v史信息傳遞至下一步,類似于將每一步的信息“串聯(lián)”起來。這種機制可以通過可視化的方式“展開”,以便更清晰地理解其工作原理。

力壓Transformer,詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

在生成輸出時,RNN僅依賴于前一步驟的隱藏狀態(tài)和當前的輸入數(shù)據(jù),避免了像Transformer那樣需要重新計算整個序列的歷史隱藏狀態(tài)。

正因如此,RNN在進行推理時速度較快,因為它的計算量與序列長度呈線性關系,理論上能夠處理無限長的上下文。

舉例來說,當我們將RNN應用于之前的輸入文本。

力壓Transformer,詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

每個隱藏狀態(tài)都是對之前所有狀態(tài)的壓縮匯總。

但這里存在一個問題:隨著時間的推移,比如在生成名字"Maarten"時,最后一個隱藏狀態(tài)可能已經(jīng)丟失了對"Hello"的記憶,因為RNN在每一步只考慮了前一個狀態(tài)的信息。

此外,RNN的這種順序依賴性也導致了另一個問題:它的訓練過程無法并行化,必須按順序逐步進行。

力壓Transformer,詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

與Transformer相比,RNN在推理速度上具有優(yōu)勢,但在訓練并行化方面卻存在不足。

力壓Transformer,詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

這就引出了一個問題:能否找到一種結合了Transformer訓練并行化優(yōu)勢和RNN線性推理優(yōu)勢的架構呢?

答案是肯定的,Mamba模型就是。在深入了解Mamba架構之前,先來了解狀態(tài)空間模型的世界。

2 狀態(tài)空間模型(SSM)

狀態(tài)空間模型(SSM),像Transformer和RNN一樣,處理信息序列,如文本和信號。在這一部分中,我們將了解SSM的基礎知識以及其與文本數(shù)據(jù)的關系。

2.1 什么是狀態(tài)空間

狀態(tài)空間模型是一種通過數(shù)學方法全面描述系統(tǒng)狀態(tài)的方式,包含了描述系統(tǒng)所必需的全部最小變量。

簡單來說,就像我們在迷宮中尋找路徑,狀態(tài)空間就是那張展示所有可能位置(即狀態(tài))的地圖。在這張地圖上,每個點都代表一個獨特的位置,并且攜帶了如距離出口遠近等具體信息。

進一步簡化這個概念,可以將“狀態(tài)空間表示”理解為這張地圖的提煉,它不僅告訴我們當前所在的位置(即當前狀態(tài)),還展示了可能的目的地(未來狀態(tài)),以及如何通過特定的行動(比如右轉(zhuǎn)或左轉(zhuǎn))達到下一個狀態(tài)。

力壓Transformer,詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

雖然狀態(tài)空間模型依賴方程和矩陣來捕捉系統(tǒng)的行為,但其核心目標是追蹤系統(tǒng)的位置、可能的移動方向及其變化路徑。

在這個模型中,用以描述狀態(tài)的變量,如示例中的X和Y坐標或者到出口的距離,統(tǒng)稱為“狀態(tài)向量”。

力壓Transformer,詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

這聽起來有點熟悉,因為在語言模型中,類似的嵌入或向量經(jīng)常用來描述輸入序列的“狀態(tài)”。例如,你當前的位置狀態(tài)就可以通過一個向量來表示:

力壓Transformer,詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

在神經(jīng)網(wǎng)絡的語境下,系統(tǒng)的“狀態(tài)”通常指的是其隱藏狀態(tài),這在生成新token的過程中,尤其是在大型語言模型的背景下,扮演著至關重要的角色。

本文轉(zhuǎn)載自 ??AI科技論談??,作者: AI科技論談

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 91亚洲国产成人精品一区二三 | 91麻豆精品国产91久久久久久 | 欧美精品一区二区蜜桃 | 91婷婷韩国欧美一区二区 | www国产成人免费观看视频,深夜成人网 | 国产免费av在线 | 国产精品一区二区三区久久 | 欧美另类视频在线 | 日日精品| 免费精品 | 欧美成年人网站 | 91麻豆产精品久久久久久 | 亚洲视频免费在线观看 | 国产精品一区二区不卡 | 奇米久久 | 狠狠色综合久久丁香婷婷 | 成人免费视频久久 | 国精日本亚洲欧州国产中文久久 | 亚洲成人动漫在线观看 | 免费观看国产视频在线 | 91国在线观看 | 日本精品一区二区三区视频 | 亚洲一区国产精品 | 久久久www成人免费无遮挡大片 | 国产欧美日韩精品一区 | 国产成人高清成人av片在线看 | 亚洲免费在线 | 中文字幕第十一页 | 在线免费观看黄a | 久久久久久成人 | 97超碰免费 | 黄色毛片免费看 | 色橹橹欧美在线观看视频高清 | 欧美一区二区黄 | 精品av天堂毛片久久久借种 | 一级美国黄色片 | 国产一区二区三区免费视频 | jav成人av免费播放 | 午夜视频一区 | 久久免费国产 | 99久久婷婷国产综合精品电影 |