世界超大芯片解鎖“人腦級”AI模型,集群頂配1.63億核心
今日凌晨,Cerebras Systems宣布推出 世界上第一個人類大腦規(guī)模的AI解決方案,一臺CS-2 AI計算機可支持超過120萬億參數(shù)規(guī)模的訓(xùn)練。 相比之下,人類大腦大約有100萬億個突觸。
此外,Cerebras還 實現(xiàn)了192臺CS-2 AI計算機近乎線性的擴展,從而打造出包含高達1.63億個核心的計算集群。
Cerebras成立于2016年,迄今在14個國家擁有超過350位工程師,此前Cerebras推出的世界最大計算芯片WSE和WSE-2一度震驚業(yè)界。
WSE-2采用7nm工藝,是一個面積達46225平方毫米的單晶圓級芯片,擁有2.6萬億個晶體管和85萬個AI優(yōu)化核,無論是核心數(shù)還是片上內(nèi)存容量均遠高于迄今性能最強的GPU。
WSE-2被集成在Cerebras CS-2 AI計算機中。隨著近年業(yè)界超大規(guī)模AI模型突破1萬億參數(shù),小型集群難以支撐單個模型的高速訓(xùn)練。
而Cerebras最新公布的成果, 將單臺CS-2機器可支持的神經(jīng)網(wǎng)絡(luò)參數(shù)規(guī)模,擴大至現(xiàn)有最大模型的100倍——達到120萬億參數(shù) 。
在國際芯片架構(gòu)頂會Hot Chips上,Cerebras聯(lián)合創(chuàng)始人兼首席硬件架構(gòu)師Sean Lie詳細展示了實現(xiàn)這一突破的 新技術(shù)組合, 包括4項創(chuàng)新:
(1)Cerebras Weight Streaming:一種新的軟件執(zhí)行架構(gòu), 首次實現(xiàn)在芯片外存儲模型參數(shù)的能力,同時提供像片上一樣的訓(xùn)練和推理性能 。這種新的執(zhí)行模型分解了計算和參數(shù)存儲,使得擴展集群大小和速度更加獨立靈活,并消除了大型集群往往面臨的延遲和內(nèi)存帶寬問題,極大簡化工作負載分布模型, 使得用戶無需更改軟件,即可從使用1臺CS-2擴展到192臺CS-2。
(2)Cerebras MemoryX:一種內(nèi)存擴展技術(shù),為WSE-2提供高達2.4PB的片外高性能存儲,能保持媲美片上的性能。 借助MemoryX,CS-2可以支持高達120萬億參數(shù)的模型。
(3)Cerebras SwarmX:是一種高性能、AI優(yōu)化的通信結(jié)構(gòu),將片上結(jié)構(gòu)擴展至片外,使Cerebras能夠 連接多達192臺CS-2的1.63億個AI優(yōu)化核 ,協(xié)同工作來訓(xùn)練單個神經(jīng)網(wǎng)絡(luò)。
(4)Selectable Sparsity:一種動態(tài)稀疏選擇技術(shù),使用戶能夠在模型中選擇權(quán)重稀疏程度,并直接減少FLOP和解決時間。權(quán)重稀疏在機器學(xué)習(xí)研究領(lǐng)域一直頗具挑戰(zhàn)性,因為它在GPU上效率極低。該技術(shù)使CS-2能夠加速工作,并使用包括非結(jié)構(gòu)化和動態(tài)權(quán)重稀疏性在內(nèi)的各種可用稀疏性類型在更短的時間內(nèi)生成答案。
Cerebras首席執(zhí)行官兼聯(lián)合創(chuàng)始人Andrew Feldman稱這推動了行業(yè)的發(fā)展。阿貢國家實驗室副主任Rick Stevens亦肯定這一發(fā)明,認為這將是我們第一次能夠探索大腦規(guī)模的模型,為研究和見解開辟廣闊的新途徑。
一、 Weight Streaming :存算分離,實現(xiàn)片外存儲模型參數(shù)
使用大型集群解決AI問題的最大挑戰(zhàn)之一,是為特定的神經(jīng)網(wǎng)絡(luò)設(shè)置、配置和優(yōu)化它們所需的復(fù)雜性和時間。軟件執(zhí)行架構(gòu)Cerebras Weight Streaming恰恰能降低對集群系統(tǒng)編程的難度。
Weight Streaming建立在WSE超大尺寸的基礎(chǔ)上,其計算和參數(shù)存儲完全分離。通過與最高配置2.4PB的存儲設(shè)備MemoryX結(jié)合,單臺CS-2可支持運行擁有120萬億個參數(shù)的模型。
參與測試的120萬億參數(shù)神經(jīng)網(wǎng)絡(luò)由Cerebras內(nèi)部開發(fā),不是已公開發(fā)布的神經(jīng)網(wǎng)絡(luò)。
在Weight Streaming中,模型權(quán)重存在中央芯片外存儲位置,流到晶圓片上,用于計算神經(jīng)網(wǎng)絡(luò)的每一層。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的delta通道上,梯度從晶圓流到中央存儲區(qū)MemoryX中用于更新權(quán)重。
與GPU不同,GPU的片上內(nèi)存量很小,需要跨多個芯片分區(qū)大型模型,而WSE-2足夠大,可以適應(yīng)和執(zhí)行超大規(guī)模的層,而無需傳統(tǒng)的塊或分區(qū)來分解。
這種無需分區(qū)就能適應(yīng)片上內(nèi)存中每個模型層的能力,可以被賦予相同的神經(jīng)網(wǎng)絡(luò)工作負載映射,并獨立于集群中所有其他CS-2對每個層進行相同的計算。
這帶來的好處是, 用戶無需進行任何軟件更改,就能很方便地將模型從運行在單臺CS-2上,擴展到在任意大小的集群上。也就是說,在大量CS-2系統(tǒng)集群上運行AI模型,編程就像在單臺CS-2上運行模型一樣。
Cambrian AI創(chuàng)始人兼首席分析師Karl Freund評價道:“Weight Streaming的執(zhí)行模型非常簡潔、優(yōu)雅,允許在CS-2集群難以置信的計算資源上進行更簡單的工作分配。通過Weight Streaming,Cerebras消除了我們今天在構(gòu)建和高效使用巨大集群方面所面臨的所有復(fù)雜性,推動行業(yè)向前發(fā)展,我認為這將是一場變革之旅。”
二、 MemoryX :實現(xiàn)百萬億參數(shù)模型
擁有100萬億個參數(shù)的人腦規(guī)模級AI模型,大約需要2PB字節(jié)的內(nèi)存才能存儲。
前文提及模型參數(shù)能夠在片外存儲并高效地流至CS-2,實現(xiàn)接近片上的性能,而存儲神經(jīng)網(wǎng)絡(luò)參數(shù)權(quán)重的關(guān)鍵設(shè)施,即是Cerebras MemoryX。
MemoryX是DRAM和Flash的組合,專為支持大型神經(jīng)網(wǎng)絡(luò)運行而設(shè)計,同時也包含精確調(diào)度和執(zhí)行權(quán)重更新的智能。
其架構(gòu)具有可擴展性, 支持從4TB至2.4PB的配置,支持2000億至120萬億的參數(shù)規(guī)模 。
三、 SwarmX :幾乎線性擴展性能,支持 192臺 CS-2 互連
雖然一臺CS-2機器就可以存儲給定層的所有參數(shù),但Cerebras還提議用一種高性能互連結(jié)構(gòu)技術(shù)SwarmX,來實現(xiàn)數(shù)據(jù)并行性。
該技術(shù)通過將Cerebras的片上結(jié)構(gòu)擴展至片外,擴展了AI集群的邊界。
從歷史上看,更大的AI集群會帶來顯著的性能和功率損失。在計算方面,性能呈亞線性增長,而功率和成本呈超線性增長。隨著越來越多的圖形處理器被添加到集群中,每個處理器對解決問題的貢獻越來越小。
SwarmX結(jié)構(gòu)既做通信,也做計算,能使集群實現(xiàn) 接近線性的性能擴展。這 意味著如果擴展至16個系統(tǒng),訓(xùn)練神經(jīng)網(wǎng)絡(luò)的速度接近提高16倍。 其結(jié)構(gòu)獨立于MemoryX進行擴展,每個MemoryX單元可用于任意數(shù)量的CS-2。
在這種完全分離的模式下, SwarmX結(jié)構(gòu)支持從2臺CS-2擴展到最多192臺,由于每臺CS-2提供85萬個AI優(yōu)化核,因此將支持多達1.63億個AI優(yōu)化核的集群。
Feldman說,CS-2的利用率要高得多。其他方法的利用率在10%~20%之間,而Cerebras在最大網(wǎng)絡(luò)上的利用率在70%~80%之間。“今天每個CS2都取代了數(shù)百個GPU,我們現(xiàn)在可以用集群方法取代數(shù)千個GPU。”
四、 Selectable Sparsity :動態(tài)稀疏提升計算效率
稀疏性對提高計算效率至為關(guān)鍵。隨著AI社區(qū)努力應(yīng)對訓(xùn)練大型模型的成本呈指數(shù)級增長,用稀疏性及其他算法技術(shù)來減少將模型訓(xùn)練為最先進精度所需的計算FLOP愈發(fā)重要。
現(xiàn)有稀疏性研究已經(jīng)能帶來10倍的速度提升。
為了加速訓(xùn)練,Cerebras提出一種新的稀疏方法Selectable Sparsity,來減少找到解決方案所需的計算工作量,從而縮短了應(yīng)答時間。
Cerebras WSE基于一種細粒度的數(shù)據(jù)流架構(gòu),專為稀疏計算而設(shè)計,其85萬個AI優(yōu)化核能夠單獨忽略0,僅對非0數(shù)據(jù)進行計算。這是其他架構(gòu)無法做到的。
在神經(jīng)網(wǎng)絡(luò)中,稀疏有多種類型。稀疏性可以存在于激活和參數(shù)中,可以是結(jié)構(gòu)化或非結(jié)構(gòu)化。
Cerebras架構(gòu)特有的數(shù)據(jù)流調(diào)度和巨大的內(nèi)存帶寬,使此類細粒度處理能加速動態(tài)稀疏、非結(jié)構(gòu)化稀疏等一切形式的稀疏。結(jié)果是,CS-2可以選擇和撥出稀疏,以產(chǎn)生特定程度的FLOP減少,從而減少應(yīng)答時間。
結(jié)語:新技術(shù)組合讓集群擴展不再復(fù)雜
大型集群歷來受設(shè)置和配置挑戰(zhàn)的困擾,準(zhǔn)備和優(yōu)化在大型GPU集群上運行的神經(jīng)網(wǎng)絡(luò)需要更多時間。為了在GPU集群上實現(xiàn)合理的利用率,研究人員往往需要人工對模型進行分區(qū)、管理內(nèi)存大小和帶寬限制、進行額外的超參數(shù)和優(yōu)化器調(diào)優(yōu)等復(fù)雜而重復(fù)的操作。
而通過將Weight Streaming、MemoryX和SwarmX等技術(shù)相結(jié)合,Cerebras簡化了大型集群的構(gòu)建過程。它開發(fā)了一個全然不同的架構(gòu),完全消除了擴展的復(fù)雜性。由于WSE-2足夠大,無需在多臺CS-2上劃分神經(jīng)網(wǎng)絡(luò)的層,即便是當(dāng)今最大的網(wǎng)絡(luò)層也可以映射到單臺CS-2。
Cerebras集群中的每臺CS-2計算機將有相同的軟件配置,添加另一臺CS-2幾乎不會改變?nèi)魏喂ぷ鞯膱?zhí)行。因此,在數(shù)十臺CS-2上運行神經(jīng)網(wǎng)絡(luò)與在單個系統(tǒng)上運行在研究人員看來是一樣的,設(shè)置集群就像為單臺機器編譯工作負載并將相同的映射應(yīng)用到所需集群大小的所有機器一樣簡單。
總體來說,Cerebras的新技術(shù)組合旨在加速運行超大規(guī)模AI模型,不過就目前AI發(fā)展進程來看,全球能用上這種集群系統(tǒng)的機構(gòu)預(yù)計還很有限。