Transformer危！谷歌MoR架構(gòu)發(fā)布：內(nèi)存減半推理速度還翻倍

2025-07-18 09:31:10

Mixture-of-Recursions（MoR），注意不是MoE，它能推理速度提高2倍，而KV內(nèi)存直接減半！

超越Transformer，谷歌推出全新底層架構(gòu)——

Mixture-of-Recursions（MoR），注意不是MoE，它能推理速度提高2倍，而KV內(nèi)存直接減半！

而且All in One，首次在單一框架中實(shí)現(xiàn)，用同一組參數(shù)處理不同任務(wù)的同時(shí)，進(jìn)行動(dòng)態(tài)分配計(jì)算資源。

就像給LLM開了個(gè)雙層增強(qiáng)buff，模型性能和效率全都要。

谷歌DeepMind聯(lián)合KAIST AI、Mila人團(tuán)隊(duì)通過統(tǒng)一參數(shù)共享、自適應(yīng)遞歸深度和高效KV緩存，在保持大模型性能的同時(shí)降低計(jì)算和內(nèi)存成本，形成新的效率最優(yōu)解。

不少網(wǎng)友甚至將它形容為Transformer Killer。

更有甚者表示，該架構(gòu)的出現(xiàn)或許能代表，潛在空間推理也許將會(huì)成為下一個(gè)LLM突破所在。

具體MoR創(chuàng)新在哪些方面？下面一一詳解。

MoR：首次統(tǒng)一參數(shù)共享與自適應(yīng)計(jì)算

Transformer的出現(xiàn)雖然帶來了優(yōu)秀的少樣本泛化和推理能力，但隨之而來龐大的計(jì)算和內(nèi)存需求還是讓訓(xùn)練和部署成為難題。

目前相關(guān)優(yōu)化方法主要是參數(shù)共享和自適應(yīng)計(jì)算，但往往只能二選一，無法同時(shí)兼顧。

于是研究人員提出了遞歸混合模型MoR，可以在單一遞歸Transformer中同時(shí)融合兩個(gè)效率維度。

首先采用的遞歸Transformer，相比通過多個(gè)獨(dú)特層構(gòu)建token的標(biāo)準(zhǔn)Transformer，其直接將模型劃分為遞歸塊，復(fù)用一組共享參數(shù)池。

主要包含三種參數(shù)共享策略：

Cycle：循環(huán)復(fù)用層。
Sequence：連續(xù)復(fù)用同一層。
Middle變體：保留首尾層獨(dú)特參數(shù)，僅共享中間層。

利用參數(shù)共享，可以減少獨(dú)特參數(shù)數(shù)量，提升分布式訓(xùn)練效率，并通過連續(xù)深度批處理消除計(jì)算 “氣泡”，提高推理吞吐量。

然后MoR采用動(dòng)態(tài)路由機(jī)制，通過輕量級(jí)路由器為每個(gè)token分配不同遞歸深度，并集中計(jì)算在復(fù)雜token上，可以分為兩種：

Expert-choice路由：將每個(gè)遞歸步驟視作 “專家”，基于隱藏狀態(tài)計(jì)算分?jǐn)?shù)，通過閾值選擇合適的token繼續(xù)計(jì)算，采用層級(jí)過濾，優(yōu)先為復(fù)雜token分配計(jì)算。
Token-choice路由：初始階段為每個(gè)token分配固定遞歸深度，通過softmax/sigmoid確定專家，然后token按分配深度依次完成遞歸。

另外，MoR本身還借助KV緩存策略，管理鍵值的存儲(chǔ)與使用，同時(shí)確保內(nèi)存效率的提升：

Recursion-wise緩存：僅緩存當(dāng)前遞歸步驟中活躍token的KV對(duì)，將注意力計(jì)算限制在本地緩存，降低內(nèi)存和IO需求。
Recursive KV共享：復(fù)用首次遞歸的KV對(duì)供后續(xù)步驟使用，確保所有token可訪問歷史上下文，減少預(yù)填充操作，而此時(shí)注意力計(jì)算量下降幅度較小。

在三種策略共同作用下，MoR通過在解碼每個(gè)token時(shí)直接進(jìn)行潛在思考，路由機(jī)制讓模型能進(jìn)行自適應(yīng)推理，突破了先前固定思考深度的限制，實(shí)現(xiàn)了參數(shù)效率與自適應(yīng)計(jì)算的統(tǒng)一。

性能超越Transformer

研究人員在135M到1.7B不同參數(shù)規(guī)模的模型上，就原始Transformer、遞歸基線模型和MoR進(jìn)行對(duì)比實(shí)驗(yàn)。

實(shí)驗(yàn)表明，在相同的16.5e18 FLOPs的訓(xùn)練預(yù)算下，MoR使用了將近50%的更少參數(shù)，但實(shí)現(xiàn)了更低的驗(yàn)證損失和更高的平均少樣本準(zhǔn)確率43.1%。

而vanilla模型的少樣本準(zhǔn)確率此時(shí)是42.3%，說明MoR擁有更高的計(jì)算效率，可以在相同F(xiàn)LOPs預(yù)算下處理更多訓(xùn)練token。

在訓(xùn)練固定的20B token時(shí)，MoR也減少了25%的訓(xùn)練FLOPs，訓(xùn)練時(shí)間還縮短了19%，峰值內(nèi)存減少25%。

另外，通過分析路由策略，發(fā)現(xiàn)Expert-choice路由的性能會(huì)在一定程度上優(yōu)于Token-choice路由，說明路由粒度會(huì)對(duì)性能產(chǎn)生重要影響。

研究人員還對(duì)MoR進(jìn)行了IsoFLOP分析，發(fā)現(xiàn)在135M、360M、730M和1.7B參數(shù)規(guī)模，以及2e18、5e18、16.5e18的FLOPs預(yù)算下，MoR始終優(yōu)于遞歸基線模型。

雖然受遞歸容量瓶頸限制，在135M時(shí)略遜于vanilla模型，但在360M及規(guī)模的進(jìn)一步擴(kuò)大，MoR性能接近甚至超過Vanilla模型，且參數(shù)僅為后者的1/3，驗(yàn)證了MoR的可擴(kuò)展性。

在推理吞吐量評(píng)估上，360M規(guī)模的MoR模型在固定批大小和最大批大小設(shè)置下，均優(yōu)于vanilla。

遞歸深度的增加讓更多token提前退出，KV緩存占用減少，吞吐量顯著提升，驗(yàn)證了深度批處理與早期退出結(jié)合對(duì)部署效率的提升。

谷歌對(duì)底層架構(gòu)的再思考

這已經(jīng)不是谷歌第一次對(duì)底層架構(gòu)進(jìn)行重新思考，甚至可以說，谷歌始終希望利用架構(gòu)創(chuàng)新重構(gòu)計(jì)算范式，重新尋找AI新的平衡。

例如混合專家模型（MoE）正是這一理念的集中體現(xiàn)。

最早是在2017年，谷歌首次將MoE引入LSTM層，通過稀疏門控機(jī)制，僅激活部分專家網(wǎng)絡(luò)從事輸入處理，但仍能讓參數(shù)量高達(dá)137B的模型保持高效訓(xùn)練。

后面推出的GShard將MoE與Transformer結(jié)合，可實(shí)現(xiàn)動(dòng)態(tài)負(fù)載均衡，2021年的Switch Transformer又進(jìn)一步地簡化了路由機(jī)制。

而Gemini 1.5 Pro就是采用的分層MoE架構(gòu)，將專家網(wǎng)絡(luò)與多模態(tài)處理深度結(jié)合，可以處理更為復(fù)雜的多模態(tài)任務(wù)，訓(xùn)練和服務(wù)效率也得到顯著提升。

MoE的底層邏輯設(shè)計(jì)突破了傳統(tǒng)全連接模型的計(jì)算缺陷，現(xiàn)在已經(jīng)成為了許多超大規(guī)模模型的優(yōu)先選擇，為應(yīng)對(duì)算力瓶頸提供了新范式。

另外還有像TokenFormer等可擴(kuò)展架構(gòu)，將模型參數(shù)視為可學(xué)習(xí)的token，通過增量訓(xùn)練無縫擴(kuò)展模型規(guī)模，為未來千億級(jí)模型的低成本迭代提供了可能。

所以有網(wǎng)友認(rèn)為，關(guān)于谷歌如今推出的MoR，會(huì)在未來徹底改變AI世界規(guī)則，會(huì)超越Transformer嗎？一切交給時(shí)間驗(yàn)證。

責(zé)任編輯：張燕妮來源：量子位

AI 模型谷歌

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Transformer危！谷歌MoR架構(gòu)發(fā)布：內(nèi)存減半推理速度還翻倍

MoR：首次統(tǒng)一參數(shù)共享與自適應(yīng)計(jì)算

性能超越Transformer

谷歌對(duì)底層架構(gòu)的再思考