成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<label id="61661"><style id="61661"></style></label>

<output id="61661"><form id="61661"><code id="61661"></code></form></output>

<blockquote id="61661"></blockquote>

<button id="61661"><ins id="61661"><optgroup id="61661"></optgroup></ins></button>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

GPU推理時(shí)代終結(jié)？世界最大芯片加持推理狂飆20倍，英偉達(dá)H100也被干趴！

作者：新智元 2024-08-28 13:34:13

人工智能新聞

LLM若以每秒1000+token高速推理，當(dāng)前最先進(jìn)的GPU根本無法實(shí)現(xiàn)！Cerebras Inference一出世，推理速度趕超英偉達(dá)GPU，背靠自研的世界最大芯片加持。而且，還將推理價(jià)格打了下來。

LLM若想高速推理，現(xiàn)如今，連GPU都無法滿足了？

曾造出世界最大芯片公司Cerebras，剛剛發(fā)布了全球最快的AI推理架構(gòu)——Cerebras Inference。

運(yùn)行Llama3.1 8B時(shí)，它能以1800 token/s的速率吐出文字。

不論是總結(jié)文檔，還是代碼生成等任務(wù)，響應(yīng)幾乎一閃而過，快到讓你不敢相信自己的眼睛。

如下圖右所示，以往，微調(diào)版Llama3.1 8B推理速度為90 token/s，清晰可見每行文字。

而現(xiàn)在，直接從90 token/s躍升到1800 token/s，相當(dāng)于從撥號上網(wǎng)邁入了帶寬時(shí)代。

左邊Cerebras Inference下模型的推理速度，只能用「瞬間」、「瘋狂」兩字形容。

這是什么概念？

比起英偉達(dá)GPU，Cerebras Inference的推理速度快20倍，還要比專用Groq芯片還要快2.4倍。

另外，對于70B參數(shù)的Llama3.1，可達(dá)到450 token/s及時(shí)響應(yīng)。

值得一提的是，Cerebras并沒有因?yàn)樘岣週LM的速度，而損失其精度。

測試中，使用的Llama3.1模型皆是采用了Meta原始16位權(quán)重，以便確保響應(yīng)高精度。

最關(guān)鍵的是，價(jià)格還實(shí)惠。

根據(jù)官方API定價(jià)，Llama 3.1 8B每百萬token僅需10美分，Llama 3 70B每百萬token僅需60美分。

如此之高的性價(jià)比，更是打破了業(yè)界紀(jì)錄——

不僅遠(yuǎn)超之前的保持者Groq，而且和其他平臺(tái)相比，甚至是隔「坐標(biāo)軸」相望了。

Artificial Analysis

正是因?yàn)镃erebras Inference背后，是由自研的第三代芯片Wafer Scale Engine助力，才得以1/5價(jià)格快速推理Llama3.1。

看到自家模型推理如此神速，LeCun、Pytorch之父紛紛動(dòng)手轉(zhuǎn)發(fā)起來。

還有網(wǎng)友看后表示，我想要！

推理很慢，英偉達(dá)GPU也不中用？

為什么LLM的響應(yīng)，就像撥號上網(wǎng)加載網(wǎng)頁一樣，一個(gè)字一個(gè)字慢慢地吐出？

關(guān)鍵原因所在，大模型自身的順序特性，以及需要大量的GPU內(nèi)存和帶寬。

由于GPU的內(nèi)存帶寬限制，如今推理速度為每秒幾十個(gè)token，而不是數(shù)千個(gè)。

更進(jìn)一步說，大模型每個(gè)生成的單詞，都必須通過整個(gè)模型進(jìn)行處理，即所有參數(shù)必須從內(nèi)存投入到計(jì)算中。

而每生成一個(gè)單詞，就需要一次處理，以此循環(huán)往復(fù)。

也就是，生成100個(gè)單詞需要100次處理，因?yàn)椤赶乱辉~」的預(yù)測，皆需要依賴前一個(gè)單詞，而且這個(gè)過程無法并行。

那么，想要每秒生成100個(gè)單詞，就需要所有模型參數(shù)，每秒投入計(jì)算100次。

由此，這對GPU內(nèi)存帶寬提出了高要求。

以社區(qū)流行的Llama3.1-70B模型為例。

模型有700億參數(shù)，每個(gè)參數(shù)是16位，需要2字節(jié)的存儲(chǔ)，那整個(gè)模型便需要140GB的內(nèi)存。

想要模型輸出一個(gè)token，那700億參數(shù)必須從內(nèi)存，移動(dòng)到計(jì)算核心，以執(zhí)行前向推理計(jì)算。

由于GPU只有約200MB的片上內(nèi)存，模型無法存儲(chǔ)在芯片。

因此，每次生成的token輸出時(shí)，需將整個(gè)占用140GB內(nèi)存的模型，完整傳輸?shù)接?jì)算中。

再細(xì)算下來，為了實(shí)現(xiàn)10 token/s，則需要10*140=1.4 TB/s的內(nèi)存帶寬。

那么，一個(gè)H100有3.3 TB/s的內(nèi)存帶寬，足以支持這種緩慢的推理。

而若要實(shí)現(xiàn)即時(shí)推理，需要達(dá)到1000 token/s或140 TB/s，這遠(yuǎn)遠(yuǎn)超過任何GPU服務(wù)器/系統(tǒng)內(nèi)存帶寬。

或許，你想到了一種「暴力」解決方案，將多個(gè)GPU串聯(lián)搭建DGX系統(tǒng)。

這完全是大錯(cuò)特錯(cuò)，更多的處理器只會(huì)增加系統(tǒng)的吞吐量（給出更長響應(yīng)），并不會(huì)加速單個(gè)查詢的響應(yīng)時(shí)間。

自研世界最大芯片，打破推理想象

那么，Cerebras如何打破這一困局呢？

一直以來，這家公司就致力于打造世界上最大芯片，希望將整個(gè)模型存儲(chǔ)在一個(gè)晶片上，以此來解決內(nèi)存帶寬瓶頸。

憑借獨(dú)特的晶圓設(shè)計(jì)，WSE-3單個(gè)芯片上便集成了44GB SRAM，具備21 PB/s的內(nèi)存帶寬。

單個(gè)芯片擁有如此大內(nèi)存，便消除了對外部內(nèi)存的需求，以及將外部內(nèi)存連接到計(jì)算的慢速通道。

總的來說，WSE-3的總內(nèi)存帶寬為21PB/s，是H100的7000倍。

它是唯一一款同時(shí)具有PB級計(jì)算和PB級內(nèi)存帶寬的AI芯片，使其成為高速推理的近乎理想設(shè)計(jì)。

Cerebras推理不僅速度超快，而且吞吐量巨大。

與小型AI芯片相比，芯片上內(nèi)存多了約200倍，支持從1-100的批大小，使其在大規(guī)模部署時(shí)，具有極高的成本效益。

正是有了如此強(qiáng)大的芯片，Cerebras Inference的快速推理得以實(shí)現(xiàn)。

它的出現(xiàn)，是為了實(shí)現(xiàn)數(shù)十億到萬億參數(shù)模型的推理。

如果模型參數(shù)超過單個(gè)晶圓的內(nèi)存容量時(shí)，研究人員將在「層邊界」將其拆分，并映射到多個(gè)CS-3系統(tǒng)上。

20B模型適合單個(gè)CS-3，而70B模型則至少需要4個(gè)這樣的系統(tǒng)。

官方表示，未來幾周，將會(huì)測試更大參數(shù)版本的模型，比如Llama3-405B、Mistral Large。

16位精度，不做取舍

推理速率高，并非在模型權(quán)重上，做了取舍。

業(yè)界中，一些公司試圖將模型權(quán)重精度，從16位減少到8位，來克服內(nèi)存帶寬的瓶頸。

這樣方法，通常會(huì)造成模型精度損失，也就是響應(yīng)結(jié)果的準(zhǔn)確性、可靠性不如以前。

Cerebras Inference之所以強(qiáng)就強(qiáng)在了，速率和原始權(quán)重，皆要顧及。

正如開篇所述，他們采用了原始16位權(quán)重運(yùn)行了Llama3.1 8B和70B。

通過評估，16位模型準(zhǔn)確率比8位模型，高出多達(dá)5%。尤其是在，多輪對話、數(shù)學(xué)和推理任務(wù)中表現(xiàn)更好。

最優(yōu)性價(jià)比，百萬token免費(fèi)送

目前，Cerebras Inference可通過聊天平臺(tái)，以及API訪問，任何一個(gè)人可隨時(shí)體驗(yàn)。

體驗(yàn)傳送門：https://cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed

基于熟悉的OpenAI Chat Completions格式，開發(fā)者只需更換API密鑰即可集成強(qiáng)大的推理功能。

Cerebras Inference API提供最佳的性能、速度、精度和成本組合。

它是唯一能即時(shí)運(yùn)行Llama3.1-70B的方案，可實(shí)現(xiàn)450 token/s，同樣使用的是原始16位模型權(quán)重。

在此，Cerebras送上大福利，每天為開發(fā)者們提供100萬個(gè)免費(fèi)token。對于大規(guī)模部署，其定價(jià)只是H100云的一小部分。

首次推出時(shí)，Cerebras提供了Llama3.1 8B和70B模型，而且有能力每天為開發(fā)者和企業(yè)，提供數(shù)千億token。

接下來幾周，他們將增加對更大模型的支持，如Llama3 405B、Mistral Large 2。

有開發(fā)者問道，你們提供的rpm（每分鐘請求次數(shù)）和tpm（每分鐘處理token數(shù)）是多少？

Cerebras提供了一張針對Llama 3.1 8B和70B模型完整的請求/token處理數(shù)的圖。

快速推理，不只為速度

最后，讓我們來聊聊，為什么快速推理非常重要？

通常，LLM會(huì)即刻輸出自己的全部想法，而不考慮最佳答案。而諸如scaffolding（腳手架）這類的新技術(shù)，則如同一個(gè)深思熟慮的智能體，會(huì)在作出決定前探索不同的可能解決方案。

這種「先思考后發(fā)言」的方式在代碼生成等嚴(yán)苛任務(wù)中，可以帶來超過10倍的性能提升，從根本上提升了AI模型的智能，且無需額外訓(xùn)練。

但這些技術(shù)在運(yùn)行時(shí)，需要多達(dá)100倍的token。

因此可見，如果我們能大幅縮短處理時(shí)間，那么就可以實(shí)現(xiàn)更為復(fù)雜的AI工作流程，進(jìn)而實(shí)時(shí)增強(qiáng)LLM的智能。

速度爆表，但上下文只有8K

雖然在價(jià)格和延遲上，Cerebras都不是最低的。

但極致的速度，確實(shí)為Cerebras帶來了極致的速度-價(jià)格和速度-延遲比。

不過，值得注意的是，在Cerebras上跑的Llama 3.1，上下文只有8k……

相比之下，其他平臺(tái)都是128K。

具體數(shù)據(jù)如下：

Llama 3.1 70B

Llama 3.1 8B

責(zé)任編輯：張燕妮來源：新智元

數(shù)據(jù)模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：日韩av.com | 国产免费福利小视频 | 天天操天天射综合 | 亚洲av毛片成人精品 | 一级做a爰片久久毛片 | 色婷婷国产精品综合在线观看 | 国产欧美一区二区三区久久人妖 | 欧美日韩一卡二卡 | 欧美一级久久精品 | 国内自拍视频在线观看 | 日韩欧美在线免费 | 麻豆一区一区三区四区 | 欧美日韩国产中文字幕 | 五月综合色啪 | 一级毛片成人免费看a | 日韩成人高清在线 | 欧美在线视频网 | 亚洲综合资源 | 色爱综合网 | 精品一区二区三区入口 | 日韩中文字幕免费在线观看 | 99热播放| 丝袜亚洲欧美日韩综合 | 日韩视频观看 | 精品视频一区二区三区 | 日本不卡高字幕在线2019 | 久久这里只有精品首页 | 久久亚洲欧美日韩精品专区 | 国产乱码精品1区2区3区 | 国产精品完整版 | 成人av免费看 | 日本三级线观看视频 | 国产情侣啪啪 | 日本a v在线播放 | 国产视频黄色 | 精品日韩在线 | 日韩精品在线看 | 狠狠干狠狠操 | 色综合色综合色综合 | 视频一区二区三区中文字幕 | 日韩久久久久久 |

<label id="11661"><style id="11661"></style></label>

<big id="11661"></big>

<var id="11661"><delect id="11661"><dfn id="11661"></dfn></delect></var>