GPU推理時(shí)代終結(jié)?世界最大芯片加持推理狂飆20倍,英偉達(dá)H100也被干趴!
LLM若想高速推理,現(xiàn)如今,連GPU都無法滿足了?
曾造出世界最大芯片公司Cerebras,剛剛發(fā)布了全球最快的AI推理架構(gòu)——Cerebras Inference。
運(yùn)行Llama3.1 8B時(shí),它能以1800 token/s的速率吐出文字。
不論是總結(jié)文檔,還是代碼生成等任務(wù),響應(yīng)幾乎一閃而過,快到讓你不敢相信自己的眼睛。
如下圖右所示,以往,微調(diào)版Llama3.1 8B推理速度為90 token/s,清晰可見每行文字。
而現(xiàn)在,直接從90 token/s躍升到1800 token/s,相當(dāng)于從撥號上網(wǎng)邁入了帶寬時(shí)代。
左邊Cerebras Inference下模型的推理速度,只能用「瞬間」、「瘋狂」兩字形容。
這是什么概念?
比起英偉達(dá)GPU,Cerebras Inference的推理速度快20倍,還要比專用Groq芯片還要快2.4倍。
另外,對于70B參數(shù)的Llama3.1,可達(dá)到450 token/s及時(shí)響應(yīng)。
值得一提的是,Cerebras并沒有因?yàn)樘岣週LM的速度,而損失其精度。
測試中,使用的Llama3.1模型皆是采用了Meta原始16位權(quán)重,以便確保響應(yīng)高精度。
最關(guān)鍵的是,價(jià)格還實(shí)惠。
根據(jù)官方API定價(jià),Llama 3.1 8B每百萬token僅需10美分,Llama 3 70B每百萬token僅需60美分。
如此之高的性價(jià)比,更是打破了業(yè)界紀(jì)錄——
不僅遠(yuǎn)超之前的保持者Groq,而且和其他平臺(tái)相比,甚至是隔「坐標(biāo)軸」相望了。
Artificial Analysis
正是因?yàn)镃erebras Inference背后,是由自研的第三代芯片Wafer Scale Engine助力,才得以1/5價(jià)格快速推理Llama3.1。
看到自家模型推理如此神速,LeCun、Pytorch之父紛紛動(dòng)手轉(zhuǎn)發(fā)起來。
還有網(wǎng)友看后表示,我想要!
推理很慢,英偉達(dá)GPU也不中用?
為什么LLM的響應(yīng),就像撥號上網(wǎng)加載網(wǎng)頁一樣,一個(gè)字一個(gè)字慢慢地吐出?
關(guān)鍵原因所在,大模型自身的順序特性,以及需要大量的GPU內(nèi)存和帶寬。
由于GPU的內(nèi)存帶寬限制,如今推理速度為每秒幾十個(gè)token,而不是數(shù)千個(gè)。
更進(jìn)一步說,大模型每個(gè)生成的單詞,都必須通過整個(gè)模型進(jìn)行處理,即所有參數(shù)必須從內(nèi)存投入到計(jì)算中。
而每生成一個(gè)單詞,就需要一次處理,以此循環(huán)往復(fù)。
也就是,生成100個(gè)單詞需要100次處理,因?yàn)椤赶乱辉~」的預(yù)測,皆需要依賴前一個(gè)單詞,而且這個(gè)過程無法并行。
那么,想要每秒生成100個(gè)單詞,就需要所有模型參數(shù),每秒投入計(jì)算100次。
由此,這對GPU內(nèi)存帶寬提出了高要求。
以社區(qū)流行的Llama3.1-70B模型為例。
模型有700億參數(shù),每個(gè)參數(shù)是16位,需要2字節(jié)的存儲(chǔ),那整個(gè)模型便需要140GB的內(nèi)存。
想要模型輸出一個(gè)token,那700億參數(shù)必須從內(nèi)存,移動(dòng)到計(jì)算核心,以執(zhí)行前向推理計(jì)算。
由于GPU只有約200MB的片上內(nèi)存,模型無法存儲(chǔ)在芯片。
因此,每次生成的token輸出時(shí),需將整個(gè)占用140GB內(nèi)存的模型,完整傳輸?shù)接?jì)算中。
再細(xì)算下來,為了實(shí)現(xiàn)10 token/s,則需要10*140=1.4 TB/s的內(nèi)存帶寬。
那么,一個(gè)H100有3.3 TB/s的內(nèi)存帶寬,足以支持這種緩慢的推理。
而若要實(shí)現(xiàn)即時(shí)推理,需要達(dá)到1000 token/s或140 TB/s,這遠(yuǎn)遠(yuǎn)超過任何GPU服務(wù)器/系統(tǒng)內(nèi)存帶寬。
或許,你想到了一種「暴力」解決方案,將多個(gè)GPU串聯(lián)搭建DGX系統(tǒng)。
這完全是大錯(cuò)特錯(cuò),更多的處理器只會(huì)增加系統(tǒng)的吞吐量(給出更長響應(yīng)),并不會(huì)加速單個(gè)查詢的響應(yīng)時(shí)間。
自研世界最大芯片,打破推理想象
那么,Cerebras如何打破這一困局呢?
一直以來,這家公司就致力于打造世界上最大芯片,希望將整個(gè)模型存儲(chǔ)在一個(gè)晶片上,以此來解決內(nèi)存帶寬瓶頸。
憑借獨(dú)特的晶圓設(shè)計(jì),WSE-3單個(gè)芯片上便集成了44GB SRAM,具備21 PB/s的內(nèi)存帶寬。
單個(gè)芯片擁有如此大內(nèi)存,便消除了對外部內(nèi)存的需求,以及將外部內(nèi)存連接到計(jì)算的慢速通道。
總的來說,WSE-3的總內(nèi)存帶寬為21PB/s,是H100的7000倍。
它是唯一一款同時(shí)具有PB級計(jì)算和PB級內(nèi)存帶寬的AI芯片,使其成為高速推理的近乎理想設(shè)計(jì)。
Cerebras推理不僅速度超快,而且吞吐量巨大。
與小型AI芯片相比,芯片上內(nèi)存多了約200倍,支持從1-100的批大小,使其在大規(guī)模部署時(shí),具有極高的成本效益。
正是有了如此強(qiáng)大的芯片,Cerebras Inference的快速推理得以實(shí)現(xiàn)。
它的出現(xiàn),是為了實(shí)現(xiàn)數(shù)十億到萬億參數(shù)模型的推理。
如果模型參數(shù)超過單個(gè)晶圓的內(nèi)存容量時(shí),研究人員將在「層邊界」將其拆分,并映射到多個(gè)CS-3系統(tǒng)上。
20B模型適合單個(gè)CS-3,而70B模型則至少需要4個(gè)這樣的系統(tǒng)。
官方表示,未來幾周,將會(huì)測試更大參數(shù)版本的模型,比如Llama3-405B、Mistral Large。
16位精度,不做取舍
推理速率高,并非在模型權(quán)重上,做了取舍。
業(yè)界中,一些公司試圖將模型權(quán)重精度,從16位減少到8位,來克服內(nèi)存帶寬的瓶頸。
這樣方法,通常會(huì)造成模型精度損失,也就是響應(yīng)結(jié)果的準(zhǔn)確性、可靠性不如以前。
Cerebras Inference之所以強(qiáng)就強(qiáng)在了,速率和原始權(quán)重,皆要顧及。
正如開篇所述,他們采用了原始16位權(quán)重運(yùn)行了Llama3.1 8B和70B。
通過評估,16位模型準(zhǔn)確率比8位模型,高出多達(dá)5%。尤其是在,多輪對話、數(shù)學(xué)和推理任務(wù)中表現(xiàn)更好。
最優(yōu)性價(jià)比,百萬token免費(fèi)送
目前,Cerebras Inference可通過聊天平臺(tái),以及API訪問,任何一個(gè)人可隨時(shí)體驗(yàn)。
體驗(yàn)傳送門:https://cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed
基于熟悉的OpenAI Chat Completions格式,開發(fā)者只需更換API密鑰即可集成強(qiáng)大的推理功能。
Cerebras Inference API提供最佳的性能、速度、精度和成本組合。
它是唯一能即時(shí)運(yùn)行Llama3.1-70B的方案,可實(shí)現(xiàn)450 token/s,同樣使用的是原始16位模型權(quán)重。
在此,Cerebras送上大福利,每天為開發(fā)者們提供100萬個(gè)免費(fèi)token。對于大規(guī)模部署,其定價(jià)只是H100云的一小部分。
首次推出時(shí),Cerebras提供了Llama3.1 8B和70B模型,而且有能力每天為開發(fā)者和企業(yè),提供數(shù)千億token。
接下來幾周,他們將增加對更大模型的支持,如Llama3 405B、Mistral Large 2。
有開發(fā)者問道,你們提供的rpm(每分鐘請求次數(shù))和tpm(每分鐘處理token數(shù))是多少?
Cerebras提供了一張針對Llama 3.1 8B和70B模型完整的請求/token處理數(shù)的圖。
快速推理,不只為速度
最后,讓我們來聊聊,為什么快速推理非常重要?
通常,LLM會(huì)即刻輸出自己的全部想法,而不考慮最佳答案。而諸如scaffolding(腳手架)這類的新技術(shù),則如同一個(gè)深思熟慮的智能體,會(huì)在作出決定前探索不同的可能解決方案。
這種「先思考后發(fā)言」的方式在代碼生成等嚴(yán)苛任務(wù)中,可以帶來超過10倍的性能提升,從根本上提升了AI模型的智能,且無需額外訓(xùn)練。
但這些技術(shù)在運(yùn)行時(shí),需要多達(dá)100倍的token。
因此可見,如果我們能大幅縮短處理時(shí)間,那么就可以實(shí)現(xiàn)更為復(fù)雜的AI工作流程,進(jìn)而實(shí)時(shí)增強(qiáng)LLM的智能。
速度爆表,但上下文只有8K
雖然在價(jià)格和延遲上,Cerebras都不是最低的。
但極致的速度,確實(shí)為Cerebras帶來了極致的速度-價(jià)格和速度-延遲比。
不過,值得注意的是,在Cerebras上跑的Llama 3.1,上下文只有8k……
相比之下,其他平臺(tái)都是128K。
具體數(shù)據(jù)如下: