成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

SCM已死,MRM長存:面向AI時(shí)代重新思考內(nèi)存

存儲(chǔ) 存儲(chǔ)架構(gòu)
AI工作負(fù)載的興起及其對(duì)HBM的依賴凸顯了HBM的局限性。AI推理工作負(fù)載需高讀吞吐量、密度和能效,而HBM難以成本效益高地滿足這些需求。
  • 標(biāo)題:Storage Class Memory is Dead, All Hail Managed-Retention Memory: Rethinking Memory for the AI Era
  • 作者:Authors: Sergey Legtchenko, Ioan Stefanovici, Richard Black, Antony Rowstron, Junyi Liu, Paolo Costa, Burcu Canakci, Dushyanth Narayanan, Xingbo Wu
  • 時(shí)間:06 June 2025
  • 鏈接:https://dl.acm.org/doi/10.1145/3713082.3730381

圖片

摘要

當(dāng)前,AI集群是高帶寬內(nèi)存(High Bandwidth Memory, HBM)的主要應(yīng)用場(chǎng)景之一。然而,HBM在AI工作負(fù)載中存在多方面不足。分析表明,HBM在寫性能上過于冗余,但在存儲(chǔ)密度和讀帶寬上不足,且每位能耗開銷較大。此外,HBM成本高昂,因制造復(fù)雜性導(dǎo)致良率低于DRAM。我們提出一種新型內(nèi)存類別:托管式保留內(nèi)存(Managed-Retention Memory, MRM),其設(shè)計(jì)更優(yōu)化于存儲(chǔ)AI推理工作負(fù)載的關(guān)鍵數(shù)據(jù)結(jié)構(gòu)。我們認(rèn)為,MRM為原本用于支持存儲(chǔ)類內(nèi)存(Storage Class Memory, SCM)的技術(shù)提供了可行性路徑。這些技術(shù)傳統(tǒng)上追求長期數(shù)據(jù)保留(10年以上),但I(xiàn)O性能和耐久性較差。MRM通過理解工作負(fù)載的IO模式,放棄長期數(shù)據(jù)保留和寫性能,換取對(duì)AI工作負(fù)載關(guān)鍵指標(biāo)的更優(yōu)性能。

1.引言

迄今為止,存儲(chǔ)技術(shù)在分類上呈現(xiàn)二元性:分為非易失性和易失性存儲(chǔ)技術(shù)。DRAM(包括GDDR、HBM、LPDDR等形式)是主要的易失性內(nèi)存技術(shù),一旦斷電,數(shù)據(jù)即丟失。NAND(面向塊)和NOR(面向字節(jié))閃存是廣泛使用的非易失性存儲(chǔ)技術(shù),無需持續(xù)供電即可保留數(shù)據(jù)。在內(nèi)存單元層面,數(shù)據(jù)易失性以保留時(shí)間(retention time)表示,即數(shù)據(jù)無需刷新即可可靠存儲(chǔ)的時(shí)長。閃存單元的保留時(shí)間可達(dá)10年以上,但其代價(jià)是讀寫吞吐量低于DRAM。因此,DRAM常用于處理器主內(nèi)存,而閃存用于二級(jí)存儲(chǔ)。

其他內(nèi)存技術(shù),如RRAM、MRAM [30, 47]和PCM [24],均具備非易失性潛力,常被稱為服務(wù)器的存儲(chǔ)類內(nèi)存(SCM)。已停產(chǎn)的Intel Optane/3D XPoint [16]是SCM的典型代表,旨在克服閃存的IO限制,同時(shí)保持非易失性。其目標(biāo)是通過提供與DRAM相當(dāng)?shù)腎O性能和字節(jié)尋址能力,以及10年以上的數(shù)據(jù)保留,取代DRAM。然而,由于密度和制造工藝復(fù)雜性的挑戰(zhàn),SCM未能以低于或等于閃存的成本提供與DRAM相當(dāng)?shù)腎O性能。對(duì)于主內(nèi)存,數(shù)據(jù)持久性遠(yuǎn)不如IO性能重要。在通用計(jì)算工作負(fù)載中,無人愿意犧牲主內(nèi)存IO性能以換取10年以上的數(shù)據(jù)保留。此外,這些技術(shù)的耐久性也存在問題 [24]。因此,SCM在某些場(chǎng)景(如嵌入式計(jì)算 [1, 2])中具有價(jià)值,但在服務(wù)器部署中未能成功。

具有諷刺意味的是,閃存的崛起可能對(duì)內(nèi)存創(chuàng)新構(gòu)成了一定阻礙。非易失性是存儲(chǔ)設(shè)備的關(guān)鍵屬性,但在內(nèi)存單元層面,這一屬性具有誤導(dǎo)性。所有內(nèi)存技術(shù)的單元僅提供一段保留時(shí)間,從DRAM的微秒級(jí)到閃存的多年級(jí)。SCM技術(shù)被強(qiáng)制要求實(shí)現(xiàn)非易失性,即保留時(shí)間達(dá)到十年以上。然而,這需要犧牲寫延遲、讀延遲、能效和耐久性等其他指標(biāo) [13, 19, 34]。

歷史上,這種二元觀念可能源于即使放寬保留時(shí)間,SCM技術(shù)也無法在通用工作負(fù)載的所有關(guān)鍵指標(biāo)上匹敵DRAM。然而,基礎(chǔ)模型(Foundation Models,包括大型語言模型LLM)作為一種新型工作負(fù)載,帶來了獨(dú)特的內(nèi)存IO需求 [38]。基礎(chǔ)模型訓(xùn)練和推理的巨大規(guī)模和增長要求全新的硬件方法。基礎(chǔ)模型推理的內(nèi)存IO需求與傳統(tǒng)工作負(fù)載顯著不同。例如,內(nèi)存主要用于存儲(chǔ)模型權(quán)重,順序讀性能至關(guān)重要,而寫性能需求較低。內(nèi)存IO具有順序性和可預(yù)測(cè)性,且鑒于AI集群的能耗挑戰(zhàn),每位讀能耗也是關(guān)鍵問題。當(dāng)前,唯一能滿足IO性能、能效和密度的技術(shù)是HBM,但其并非完美解決方案,基礎(chǔ)模型推理的某些關(guān)鍵階段受限于內(nèi)存而非計(jì)算。此外,HBM成本高昂且良率存在挑戰(zhàn)。

我們認(rèn)為,現(xiàn)有“非易失性”內(nèi)存技術(shù)可針對(duì)此新工作負(fù)載重新設(shè)計(jì)。我們提出一種新型內(nèi)存類別:托管式保留內(nèi)存(Managed-Retention Memory, MRM)。MRM不同于易失性DRAM,可在斷電后保留數(shù)據(jù)且無需頻繁單元刷新以節(jié)省能耗,但與SCM不同,MRM不追求長期保留時(shí)間。由于推理數(shù)據(jù)大多無需持久存儲(chǔ),保留時(shí)間可放寬至數(shù)天或數(shù)小時(shí)。以換取,MRM具有更高的耐久性,并旨在關(guān)鍵指標(biāo)(如讀吞吐量、能效和容量)上超越DRAM(包括HBM)。

本文后續(xù)部分結(jié)構(gòu)如下:第2節(jié)分析基礎(chǔ)模型工作負(fù)載特征和需求,并討論HBM的挑戰(zhàn)與不足。第3節(jié)介紹相關(guān)新興技術(shù)。第4節(jié)探討重新思考內(nèi)存和引入MRM的系統(tǒng)級(jí)影響。我們明確不局限于某一特定技術(shù),而是強(qiáng)調(diào)一個(gè)機(jī)會(huì)空間。這是面向低層內(nèi)存單元技術(shù)、內(nèi)存控制器設(shè)計(jì)及訪問內(nèi)存的軟件系統(tǒng)設(shè)計(jì)者的行動(dòng)號(hào)召,倡導(dǎo)跨層協(xié)作以實(shí)現(xiàn)AI時(shí)代更優(yōu)的內(nèi)存!

2.基礎(chǔ)模型時(shí)代的內(nèi)存

基礎(chǔ)模型的工作負(fù)載與傳統(tǒng)工作負(fù)載截然不同。基礎(chǔ)模型首先在大型集群(例如,含5萬+ AI加速器的集群)上進(jìn)行訓(xùn)練,輸出為模型權(quán)重。這些權(quán)重隨后部署于生產(chǎn)環(huán)境以服務(wù)推理查詢。推理通常使用數(shù)千甚至數(shù)百萬基礎(chǔ)模型實(shí)例,但每個(gè)推理的硬件規(guī)模較小(例如,4+ AI加速器)。已有研究表明,訓(xùn)練和推理工作負(fù)載均為內(nèi)存密集型 [3, 57]。訓(xùn)練規(guī)模取決于模型大小,屬一次性任務(wù)(常需數(shù)月),而推理工作負(fù)載受需求驅(qū)動(dòng),且在模型權(quán)重退役前需長期服務(wù)。

訓(xùn)練和推理具有不同的內(nèi)存訪問模式和需求,通常部署在不同集群上。隨著需求增長,推理基礎(chǔ)設(shè)施預(yù)計(jì)將占據(jù)主導(dǎo),因此我們聚焦于推理工作負(fù)載。具體而言,我們考慮進(jìn)行自回歸生成(autoregressive token generation)的基礎(chǔ)模型,即基于前序Token序列生成新Token。推理查詢是一系列輸入Token,模型生成相應(yīng)的輸出Token序列。上下文(context)由用戶輸入的Token及模型在交互中生成的響應(yīng)Token組成。盡可能大的上下文對(duì)提升模型的推理能力(通過自注意力機(jī)制 [52])至關(guān)重要。然而,在部署中,受限于可用內(nèi)存,上下文規(guī)模通常為數(shù)千至數(shù)萬Token。每個(gè)推理查詢的計(jì)算成本高昂,需跨多個(gè)AI加速器進(jìn)行分布式計(jì)算。

推理依賴三種主要內(nèi)存數(shù)據(jù)結(jié)構(gòu):模型權(quán)重、KV緩存和模型激活(activations)。其中,模型權(quán)重和KV緩存占用大部分內(nèi)存容量 [22]。

模型權(quán)重(矩陣形式)是擴(kuò)展前沿基礎(chǔ)模型能力的關(guān)鍵。每一代基礎(chǔ)模型的權(quán)重規(guī)模呈指數(shù)增長,目前大型模型權(quán)重超過5000億,數(shù)據(jù)量根據(jù)量化方式從250 GB到超1 TB不等。權(quán)重本質(zhì)上為非可變數(shù)據(jù)結(jié)構(gòu)。參考模型權(quán)重持久存儲(chǔ)于存儲(chǔ)系統(tǒng)中,而推理集群的每個(gè)AI加速器中分布存儲(chǔ)其副本。目前基礎(chǔ)模型數(shù)量眾多,但實(shí)際大規(guī)模使用的僅少數(shù)流行模型。同一版本基礎(chǔ)模型(例如,GPT-4)的所有推理查詢使用相同權(quán)重的副本。

KV緩存支持模型的自注意力機(jī)制,是一系列自注意力向量,編碼模型對(duì)上下文Token關(guān)系的理解。每次在上下文中生成新Token時(shí),均向KV緩存追加一個(gè)向量。每個(gè)向量通常為數(shù)MB,因此KV緩存通常增長至數(shù)十GB,直至達(dá)到上下文規(guī)模限制。

模型激活是網(wǎng)絡(luò)前向傳播期間創(chuàng)建并在各層間傳遞的臨時(shí)張量(tensors),其規(guī)模通常比權(quán)重和KV緩存小一個(gè)數(shù)量級(jí),僅在前向傳播計(jì)算期間存儲(chǔ)。

KV緩存在預(yù)填充(prefill)階段生成,即接收用戶首批Token時(shí)。隨后,在解碼(decode)階段,模型迭代生成響應(yīng)Token。在此過程中,KV緩存被整體順序讀取,生成新Token,并追加對(duì)應(yīng)自注意力向量。KV緩存利用內(nèi)存減少計(jì)算,屬軟狀態(tài)(soft state):可由模型重新生成,但由于每秒Token生成速率較低(成本高),通常優(yōu)先緩存而非重新計(jì)算。

推理期間,每個(gè)生成Token需讀取全部自注意力數(shù)據(jù)和權(quán)重,產(chǎn)生顯著的內(nèi)存與計(jì)算間帶寬需求。同一集群同時(shí)處理多個(gè)推理請(qǐng)求,但均針對(duì)同一模型。因此,每個(gè)AI加速器的內(nèi)存包含模型權(quán)重的子集,以及對(duì)應(yīng)當(dāng)前上下文工作集的多個(gè)KV緩存和激活。新模型部署時(shí),集群暫停接受新請(qǐng)求,完成現(xiàn)有請(qǐng)求后加載新模型權(quán)重。

總結(jié)而言,基礎(chǔ)模型推理主要由大規(guī)模、可預(yù)測(cè)的內(nèi)存讀取組成,而寫操作較小且多為追加型。讀取的內(nèi)存范圍預(yù)先可知,大部分內(nèi)存數(shù)據(jù)長時(shí)間不被覆蓋。盡管以讀為主,推理仍需遠(yuǎn)高于存儲(chǔ)工作負(fù)載的寫速率。

2.1 HBM的局限

當(dāng)前,AI加速器的大部分?jǐn)?shù)據(jù)存儲(chǔ)于HBM,因所有數(shù)據(jù)結(jié)構(gòu)需以高帶寬反復(fù)讀取。當(dāng)前AI加速器支持極高的主內(nèi)存帶寬,例如,單個(gè)B200 GPU可達(dá)8 TB/s [51]。此外,由于權(quán)重和KV緩存數(shù)據(jù)量大,AI加速器需大容量HBM。實(shí)現(xiàn)這一目標(biāo)需克服重大工程挑戰(zhàn),特別是在能耗方面。高數(shù)據(jù)速率下銅互連的信號(hào)損耗要求內(nèi)存與計(jì)算芯片物理上極靠近,通常同封裝于同一中介層。寬接口和高信號(hào)速率導(dǎo)致更高能耗,AI加速器約三分之一能耗來自內(nèi)存。HBM通過在同一封裝上3D堆疊DRAM,提升封裝內(nèi)內(nèi)存容量、吞吐量,并最小化內(nèi)存單元與AI加速器的距離。當(dāng)前HBM產(chǎn)品具有8-12層,B200封裝總?cè)萘窟_(dá)192 GB [51]。因此,HBM因其高吞吐量、大容量和合理能耗被廣泛使用。然而,即便使用HBM,每次推理查詢的顯著部分仍受內(nèi)存限制 [37]。

遺憾的是,目前尚無HBM的可行替代品。非堆疊DRAM密度不足,而NAND和NOR閃存速度不足、耐久性較低(尤其在高密度多位單元存儲(chǔ)時(shí)),且能效不足以滿足封裝內(nèi)需求。

HBM面臨若干根本性挑戰(zhàn)。首先,內(nèi)存廠商難以持續(xù)提升密度。DRAM固有的每層擴(kuò)展問題使得下一代HBM(HBM4)預(yù)計(jì)僅比HBM3e增加30%每層容量 [40]。其次,DRAM的3D堆疊顯著降低制造良率,并導(dǎo)致散熱問題,尤其與AI加速器芯片緊密封裝時(shí)。當(dāng)前業(yè)界預(yù)計(jì)HBM短期內(nèi)難以擴(kuò)展至16層以上 [50],因3D堆疊工藝極為復(fù)雜。最后,基礎(chǔ)設(shè)施功率密度極高且持續(xù)增長,需將每瓦特能量用于有效工作。由于單元電容泄漏,HBM需頻繁刷新(約每幾十至幾百毫秒),即使內(nèi)存空閑也消耗能量。

這些因素結(jié)合云基礎(chǔ)設(shè)施對(duì)基礎(chǔ)模型的指數(shù)增長需求,使HBM占AI集群成本的顯著部分,且短期內(nèi)難以改變,AI集群仍將依賴HBM。

2.2 新希望?  

基礎(chǔ)模型推理與DRAM設(shè)計(jì)的通用主內(nèi)存工作負(fù)載截然不同。首先,推理極度讀密集。例如,解碼階段生成每個(gè)Token需讀取全部權(quán)重和KV緩存 [37],而僅寫入一個(gè)自注意力向量(通常最多幾MB [4, 44])。權(quán)重和KV緩存規(guī)模通常為數(shù)十GB,讀寫比超過1000:1。

已有努力減少推理期間讀取數(shù)據(jù)量。例如,批處理(batching)支持跨請(qǐng)求重用權(quán)重 [3],但受延遲要求限制 [3]。KV緩存跨請(qǐng)求重用 [54]和KV緩存壓縮 [27]也被使用,但均有限制,且無法改變工作負(fù)載的讀密集特性。

其次,內(nèi)存訪問具有順序性和可預(yù)測(cè)性。權(quán)重和KV緩存無原地更新,每次生成響應(yīng)均迭代讀取相同權(quán)重和KV緩存。已有內(nèi)存虛擬化機(jī)制應(yīng)對(duì)內(nèi)存碎片 [22],但頁面仍按相同順序讀取。每頁通常包含10+向量(通常數(shù)MB至數(shù)十MB),順序讀取 [22],且虛擬頁面與物理地址映射通常靜態(tài)。

這些特性表明,HBM容量主要用于無需DRAM通用屬性(隨機(jī)訪問、字節(jié)尋址、讀寫性能相當(dāng))的數(shù)據(jù)。HBM對(duì)基礎(chǔ)模型推理工作負(fù)載需求而言,在某種程度上被過度配置,導(dǎo)致成本和能耗次優(yōu)。

這提出了一個(gè)關(guān)鍵的問題:若針對(duì)工作負(fù)載正確配置內(nèi)存,能否解決推理集群內(nèi)存的成本和能耗挑戰(zhàn)?

3.內(nèi)存機(jī)會(huì)

我們認(rèn)為,(1)基礎(chǔ)模型基礎(chǔ)設(shè)施的重要性和規(guī)模,(2)傳統(tǒng)服務(wù)器CPU與AI加速器工作負(fù)載模式的巨大差異,(3)HBM與工作負(fù)載的匹配不足,為計(jì)算機(jī)體系結(jié)構(gòu)研究開辟了針對(duì)該應(yīng)用的更好內(nèi)存機(jī)會(huì)。

我們主張,這一機(jī)會(huì)最好通過新型內(nèi)存而非DRAM、HBM或閃存解決。閃存因耐久性不足(即使使用單級(jí)單元SLC [7]),無法滿足高吞吐量和能效要求 [14, 36],且非易失性對(duì)權(quán)重(持久存儲(chǔ)于他處)或軟狀態(tài)(KV緩存、激活)數(shù)據(jù)無必要。

另一方面,工作負(fù)載的某些特性類似于存儲(chǔ)工作負(fù)載。例如,字節(jié)尋址非必需,因IO為大塊順序訪問。與存儲(chǔ)基礎(chǔ)設(shè)施類似,存儲(chǔ)容量和每TB總擁有成本(TCO/TB)是關(guān)鍵指標(biāo),而HBM在此表現(xiàn)不佳。結(jié)合HBM與成本較低、吞吐量較低的LPDDR存儲(chǔ)冷數(shù)據(jù)可降低硬件成本,但會(huì)降低數(shù)據(jù)對(duì)GPU的可用帶寬,且無法改善HBM的讀能效。

最后,能效是最重要的指標(biāo),內(nèi)存設(shè)備的內(nèi)部管理操作需最小化。現(xiàn)有技術(shù)的許多管理開銷源于單元保留時(shí)間與數(shù)據(jù)生命周期的失配。DRAM保留時(shí)間過短,需頻繁刷新;閃存保留時(shí)間過長,犧牲耐久性,需FTL機(jī)制(磨損均衡、垃圾回收)。兩者管理均依賴寫路徑,能耗較高。相反,將保留時(shí)間與數(shù)據(jù)生命周期匹配可消除刷新、刪除或磨損均衡需求。保留時(shí)間從數(shù)據(jù)持久性管理機(jī)制轉(zhuǎn)變?yōu)樵O(shè)備電源管理的核心。

MRM能否滿足AI集群需求?PCM、RRAM和STT-MRAM的讀性能和能效與DRAM甚至SRAM相當(dāng)或更優(yōu) [28],且具有更高密度和/或更低TCO/TB潛力 [17]。STT-MRAM和RRAM單元已展示多級(jí)編碼 [10]、高耐久性 [25],并可組織為高密度無晶體管交叉布局 [56]。由于電阻式單元不使用高電容,易于同芯片堆疊 [40]。降低保留時(shí)間支持低電壓寫入,解鎖7 nm及更先進(jìn)的工藝 [58]。這些技術(shù)展示了更低讀能耗、更高讀吞吐量和容量的可行路徑,且已在實(shí)際產(chǎn)品中部署。PCM在Intel Optane設(shè)備中大規(guī)模應(yīng)用,而RRAM和STT-MRAM近年成熟,用于汽車、可穿戴和物聯(lián)網(wǎng)應(yīng)用 [1, 2, 6]。

這些技術(shù)的耐久性低于DRAM,我們估算權(quán)重和KV緩存寫入的耐久性需求。權(quán)重更新為不頻繁的批量覆蓋,通常在模型替換時(shí)發(fā)生,當(dāng)前更新頻率較低(小時(shí)級(jí)),但隨模型多樣化可能增加。我們估算5年內(nèi)每小時(shí)更新(保守)和每秒更新(高強(qiáng)度)的耐久性需求。KV緩存寫入發(fā)生在預(yù)填充和解碼階段,每個(gè)上下文Token寫入一個(gè)自注意力向量。預(yù)填充吞吐量通常高于解碼,我們基于Llama2-70B模型的報(bào)告吞吐量和中位上下文長度 [37],計(jì)算5年內(nèi)KV緩存寫入次數(shù),推斷每單元平均寫入次數(shù)。

圖1:KV緩存和模型權(quán)重對(duì)耐久性的需求與內(nèi)存技術(shù)耐久性的對(duì)比圖1:KV緩存和模型權(quán)重對(duì)耐久性的需求與內(nèi)存技術(shù)耐久性的對(duì)比

圖1比較了現(xiàn)有內(nèi)存/存儲(chǔ)技術(shù)的耐久性與工作負(fù)載耐久性需求。我們區(qū)分了現(xiàn)有產(chǎn)品的耐久性與技術(shù)的潛力,技術(shù)耐久性數(shù)據(jù)來自 [30, 47],產(chǎn)品耐久性來自設(shè)備規(guī)格和基準(zhǔn)測(cè)試(Intel Optane PCM [5]、Weebit RRAM [32]、Everspin STT-MRAM [39])。

我們觀察到:1)HBM耐久性遠(yuǎn)超需求;2)現(xiàn)有SCM設(shè)備不滿足耐久性需求,但其底層技術(shù)有潛力實(shí)現(xiàn)。我們認(rèn)為,這部分由于當(dāng)前設(shè)備設(shè)計(jì)追求非易失性,犧牲了寫延遲、能效和耐久性等關(guān)鍵指標(biāo) [19, 34]。我們視此為針對(duì)AI工作負(fù)載重新設(shè)計(jì)現(xiàn)有SCM內(nèi)存技術(shù)的機(jī)會(huì),通過放棄非易失性換取其他關(guān)鍵指標(biāo)的優(yōu)化。

4.軟件棧影響

本節(jié)闡述MRM為何對(duì)計(jì)算機(jī)系統(tǒng)社區(qū)具有吸引力。基礎(chǔ)模型日益普及,導(dǎo)致需求多樣化:某些用例有嚴(yán)格延遲SLA(如用戶交互對(duì)話),某些追求高吞吐量并大量使用批處理,其他為后臺(tái)盡力而為任務(wù)(如會(huì)議摘要)。工作負(fù)載日益復(fù)雜,輸入輸出Token比率差異大,專家模型針對(duì)特定用例定制,依賴高級(jí)增強(qiáng)機(jī)制(如RAG [59])。此外,工作負(fù)載的資源密集性和硬件成本高昂要求高效的全局編排。通過利用關(guān)鍵OS機(jī)制(如虛擬內(nèi)存 [22]、功耗感知調(diào)度 [46]或推測(cè)執(zhí)行 [31]),可構(gòu)建面向基礎(chǔ)模型推理的機(jī)架級(jí)OS。在此背景下,MRM的出現(xiàn)帶來一系列激動(dòng)人心的挑戰(zhàn)和機(jī)會(huì)。

保留感知的數(shù)據(jù)放置與調(diào)度:MRM難以作為通用的單一解決方案,將與HBM(用于寫密集數(shù)據(jù)結(jié)構(gòu),如激活)和LPDDR(作為較慢層)共存。需細(xì)粒度理解數(shù)據(jù)的生命周期和訪問模式以布局?jǐn)?shù)據(jù)。調(diào)度器需跟蹤數(shù)據(jù)過期時(shí)間,根據(jù)依賴數(shù)據(jù)的請(qǐng)求狀態(tài)決定刷新或遷移至其他層。

輕量級(jí)內(nèi)存控制器:MRM控制器有望實(shí)現(xiàn)極簡(jiǎn)和高效能。無需隨機(jī)訪問需求為塊級(jí)訪問內(nèi)存控制器提供了獨(dú)特前景,影響軟件棧。傳統(tǒng)上由設(shè)備處理的功能(如刷新、磨損均衡)可交由更高層的軟件控制平面處理,以滿足全局應(yīng)用需求,類似于閃存的區(qū)域存儲(chǔ)接口 [60]。

動(dòng)態(tài)可配置內(nèi)存(Dynamically Configurable Memory, DCM):控制平面具有集群級(jí)應(yīng)用和用戶工作負(fù)載可見性,可動(dòng)態(tài)決定數(shù)據(jù)寫入時(shí)的保留時(shí)間,精準(zhǔn)適配MRM至工作負(fù)載。這是MRM的完全靈活實(shí)例。硬件層面,內(nèi)存控制器支持不同持續(xù)時(shí)間和能量的寫入,運(yùn)行時(shí)編程保留時(shí)間。基礎(chǔ)模型OS可編排最優(yōu)數(shù)據(jù)刷新、磨損均衡和垃圾回收。

保留感知糾錯(cuò):MRM的寬松保留時(shí)間要求提出數(shù)據(jù)完整性問題。MRM存儲(chǔ)的數(shù)據(jù)多為他處持久存儲(chǔ)(權(quán)重)或軟狀態(tài)(KV緩存),持久性要求不似傳統(tǒng)存儲(chǔ)系統(tǒng)嚴(yán)格。然而,系統(tǒng)需確保數(shù)據(jù)完整性以保證計(jì)算正確性,避免頻繁重算軟狀態(tài)。現(xiàn)有內(nèi)存糾錯(cuò)技術(shù) [55] 是起點(diǎn),但基于大塊的MRM接口可考慮低開銷的大碼字糾錯(cuò)技術(shù) [8]。設(shè)計(jì)滿足嚴(yán)格延遲和吞吐量要求的MRM高效糾錯(cuò)是開放研究領(lǐng)域。

5.相關(guān)工作

保留時(shí)間、耐久性和寫能效的權(quán)衡在STT-MRAM [18, 43, 48]和RRAM [15, 23, 34, 41]中已有深入研究。利用此機(jī)制提高混合片上CPU緩存能效已被提出 [18, 41, 43, 48]。與本研究不同,該工作聚焦通用多核CPU,優(yōu)化問題不同。AI集群具有機(jī)架級(jí)能耗和冷卻需求,內(nèi)存層和互連更復(fù)雜,但工作負(fù)載更可預(yù)測(cè)。

斯坦福大學(xué)近期啟動(dòng)一項(xiàng)5年項(xiàng)目,應(yīng)對(duì)主內(nèi)存層級(jí)和異構(gòu)性增加的預(yù)期 [45]。我們一致認(rèn)為,內(nèi)存墻 [40] 是關(guān)鍵工作負(fù)載的主要挑戰(zhàn),可能導(dǎo)致內(nèi)存異構(gòu)性增加,因無單一技術(shù)能滿足所有需求。此趨勢(shì)在其他應(yīng)用中常見,例如嵌入式領(lǐng)域傳統(tǒng)使用ROM(只讀存儲(chǔ)器) [9, 33](一次寫入多次讀取)、EPROM(可擦除可編程只讀存儲(chǔ)器) [29](少次寫入多次讀取,用于存儲(chǔ)程序,可用紫外線擦除)及RAM。ROM和EPROM提供非易失性存儲(chǔ),需謹(jǐn)慎設(shè)計(jì)以利用不同技術(shù)的優(yōu)勢(shì)。

當(dāng)前努力通過緊密集成內(nèi)存與計(jì)算克服內(nèi)存墻,包括將更多內(nèi)存置于計(jì)算芯片上 [26, 42]或內(nèi)存內(nèi)計(jì)算(IMC) [53]。IMC常針對(duì)AI工作負(fù)載,采用模擬 [11]或數(shù)字 [20, 21]計(jì)算,可基于MRAM [12]或RRAM [12]。本研究與之正交,旨在優(yōu)化主流內(nèi)存/計(jì)算模型,而非探索新范式。

AI集群異構(gòu)內(nèi)存訪問模式的研究頗多。例如,提出用CPU主內(nèi)存卸載空閑KV緩存 [49]。Nvidia最新GB200超級(jí)芯片集成LPDDR5控制器,提供更高容量、較慢的內(nèi)存層 [35],表明內(nèi)存異構(gòu)性在AI集群中將成常態(tài)。本研究提出利用更多數(shù)據(jù)訪問異構(gòu)性,最大化每美元生成的Token。

6.結(jié)論

AI工作負(fù)載的興起及其對(duì)HBM的依賴凸顯了HBM的局限性。AI推理工作負(fù)載需高讀吞吐量、密度和能效,而HBM難以成本效益高地滿足這些需求。我們提出一種可與HBM共存的新型內(nèi)存類別:托管式保留內(nèi)存(MRM),利用原本為SCM設(shè)計(jì)的技術(shù),通過犧牲保留時(shí)間和寫吞吐量等指標(biāo),優(yōu)化AI工作負(fù)載的關(guān)鍵性能指標(biāo)。通過放寬保留時(shí)間要求,MRM有望使現(xiàn)有SCM技術(shù)提供更優(yōu)的讀吞吐量、能效和密度。我們希望本文激發(fā)針對(duì)AI推理集群需求的內(nèi)存單元技術(shù)和內(nèi)存芯片設(shè)計(jì)的創(chuàng)新思考。

責(zé)任編輯:武曉燕 來源: Andy730
相關(guān)推薦

2020-02-29 15:18:10

DevOpsNoOps運(yùn)維

2015-04-13 10:21:39

大數(shù)據(jù)大數(shù)據(jù)前景

2023-07-19 10:22:42

AI人工智能

2025-02-18 11:15:12

2013-10-22 11:32:34

2011-04-02 09:07:46

OOP

2020-06-30 09:54:20

IT策略疫情主管

2012-05-11 11:51:46

桌面虛擬化

2020-10-23 09:57:31

數(shù)據(jù)安全SaaS技術(shù)

2016-09-09 09:24:30

服務(wù)器

2011-01-07 10:18:28

RSSWeb

2023-02-06 07:37:29

Java編程語言

2022-09-15 10:44:42

SidecarIstioeBPFizer

2011-05-11 09:01:29

面向?qū)ο蠹夹g(shù)函數(shù)式語言

2023-03-03 12:58:23

2023-03-03 12:19:44

2013-04-28 09:01:41

2016-06-08 14:05:30

2012-02-20 10:12:09

Java

2013-10-23 09:45:41

云WANWAN廣域網(wǎng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 一级看片免费视频囗交动图 | 国产高清精品网站 | 国产91久久久久久久免费 | 欧美日韩亚洲系列 | 亚洲高清av在线 | 国产亚洲成av人片在线观看桃 | 国产精品久久久久久久久免费高清 | 日本一区二区三区在线观看 | 久久av一区二区三区 | 亚洲乱码国产乱码精品精的特点 | 久久久久国产视频 | 91伦理片 | 精品成人av | 天堂一区二区三区四区 | 日日摸天天添天天添破 | 一区二区在线 | 欧美三级在线 | 老外几下就让我高潮了 | 亚洲午夜av久久乱码 | 三级在线观看 | 黄频免费 | 日本电影免费完整观看 | 久久国品片 | 一级免费毛片 | 欧美日韩三级 | 97色在线视频 | 嫩草视频网 | 精品欧美一区二区三区久久久 | 免费的av | 中文字幕在线看第二 | ririsao久久精品一区 | 国产www成人 | 国产一级片在线播放 | 97色在线视频 | 国产一区二区欧美 | 日韩中文字幕久久 | 国产亚洲一区二区三区在线观看 | 国产精品永久免费视频 | 国产特级毛片 | 国产欧美一级二级三级在线视频 | 在线观看视频中文字幕 |