成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人馬打造，喊話奧特曼：你們也太慢了

2024-02-20 12:50:51

人工智能芯片

至于GPT-4這邊的表現(xiàn)，內(nèi)容質量自然更好，也體現(xiàn)了整個思路過程。但要完全生成超過了三十秒。單是讀后感內(nèi)容的生成，也有近二十秒鐘的時間。

太快了太快了。

一夜間，大模型生成已經(jīng)沒什么延遲了……來感受下這速度。

，時長00:06

眼花繚亂了吧，生成速度已經(jīng)接近每秒500 tokens。

還有更直觀的列表對比，速度最高能比以往這些云平臺廠商快個18倍吧。

（這里面還有個熟悉的身影：Lepton）

網(wǎng)友表示：這速度簡直就是飛機vs走路。

值得一提的是，這并非哪家大公司進展——

初創(chuàng)公司Groq，谷歌TPU團隊原班人馬，基于自研芯片推出推理加速方案。（注意不是馬斯克的Grok）

據(jù)他們介紹，其推理速度相較于英偉達GPU提高了10倍，成本卻降低到十分之一。

換言之，任何一個大模型都可以部署實現(xiàn)。

目前已經(jīng)能支持Mixtral 8x7B SMoE、Llama 2的7B和70B這三種模型，并且可直接體驗Demo。

他們還在官網(wǎng)上喊話奧特曼：

你們推出的東西太慢了……

每秒接近500tokens

既然如此，那就來體驗一下這個號稱「史上最快推理」的Groq。

先聲明：不比較生成質量。

就像它自己說的那樣，內(nèi)容概不負責。

目前，演示界面上有兩種模型可以選擇。

就選擇Mixtral 8x7B-32k和GPT-4同擂臺對比一下。

提示詞：你是一個小學生，還沒完成寒假作業(yè)。請根據(jù)《星際穿越》寫一篇500字的讀后感。

結果啪的一下，只需1.76秒就生成了一長串讀后感，速度在每秒478Tokens。

不過內(nèi)容是英文的，以及讀后感只有三百六十多字。但后面也趕緊做了解釋說考慮到是小學生寫不了那么多……

至于GPT-4這邊的表現(xiàn)，內(nèi)容質量自然更好，也體現(xiàn)了整個思路過程。但要完全生成超過了三十秒。單是讀后感內(nèi)容的生成，也有近二十秒鐘的時間。

除了Demo演示外，Groq現(xiàn)在支持API訪問，并且完全兼容，可直接從OpenAI的API進行簡單切換。

可以免費試用10天，這期間可以免費獲得100萬Tokens。

目前支持Llama 2-70B 和7B， Groq可以實現(xiàn)4096的上下文長度，還有Mixtral 8x7B這一型號。當然也不局限于這些型號，Groq支持具體需求具體定制。

價格方面，他們保證：一定低于市面上同等價格。

不過可以看到，每秒500tokens似乎還不是終極速度，他們最快可以實現(xiàn)每秒750Tokens。

谷歌TPU團隊創(chuàng)業(yè)項目

Groq是集軟硬件服務于一體的大模型推理加速方案，成立于2016年，創(chuàng)始團隊中很多都是谷歌TPU的原班人馬。

公司領導層的10人中，有5人都曾有谷歌的工作經(jīng)歷，3人曾在英特爾工作。

創(chuàng)始人兼CEO Jonathan Ross，設計并實現(xiàn)了第一代TPU芯片的核心元件，TPU的研發(fā)工作中有20%都由他完成。

Groq沒有走GPU路線，而是自創(chuàng)了全球首個L（anguage）PU方案。

LPU的核心奧義是克服兩個LLM瓶頸——計算密度和內(nèi)存帶寬，最終實現(xiàn)的LLM推理性能比其他基于云平臺廠商快18倍。

據(jù)此前他們介紹，英偉達GPU需要大約10焦耳到30焦耳才能生成響應中的tokens，而 Groq 設置每個tokens大約需要1焦耳到3焦耳。

因此，推理速度提高了10倍，成本卻降低了十分之一，或者說性價比提高了100倍。

延遲方面，在運行70B模型時，輸出第一個token時的延時僅有0.22秒。

甚至為了適應Groq的性能水平，第三方測評機構ArtificialAnalysis還專門調(diào)整了圖表坐標軸。

據(jù)介紹，Groq的芯片采用14nm制程，搭載了230MB大SRAM來保證內(nèi)存帶寬，片上內(nèi)存帶寬達到了80TB/s。

算力層面，Gorq芯片的整型（8位）運算速度為750TOPs，浮點（16位）運算速度則為188TFLOPs。

Groq主要基于該公司自研的TSP架構，其內(nèi)存單元與向量和矩陣深度學習功能單元交錯，從而利用機器學習工作負載固有的并行性對推理進行加速。

在運算處理的同時，每個TSP都還具有網(wǎng)絡交換的功能，可直接通過網(wǎng)絡與其他TSP交換信息，無需依賴外部的網(wǎng)絡設備，這種設計提高了系統(tǒng)的并行處理能力和效率。

結合新設計的Dragonfly網(wǎng)絡拓撲，hop數(shù)減少、通信延遲降低，使得傳輸效率進一步提高；同時軟件調(diào)度網(wǎng)絡帶來了精確的流量控制和路徑規(guī)劃，從而提高了系統(tǒng)的整體性能。

Groq支持通過PyTorch、TensorFlow等標準機器學習框架進行推理，暫不支持模型訓練。

此外Groq還提供了編譯平臺和本地化硬件方案，不過并未介紹更多詳情，想要了解的話需要與團隊進行聯(lián)系。

而在第三方網(wǎng)站上，搭載Groq芯片的加速卡售價為2萬多美元，差不多15萬人民幣。

它由知名電子元件生產(chǎn)商莫仕（molex）旗下的BittWare代工，同時該廠也為英特爾和AMD代工加速卡。

目前，Groq的官網(wǎng)正在招人。

技術崗位年薪為10萬-50萬美元，非技術崗位則為9萬-47萬美元。

“目標是三年超過英偉達”

除此之外，這家公司還有個日常操作是叫板喊話各位大佬。

當時GPTs商店推出之后，Groq就喊話奧特曼：用GPTs就跟深夜讀戰(zhàn)爭與和平一樣慢……陰陽怪氣直接拉滿~

馬斯克也曾被它痛斥，說“剽竊”自己的名字。

在最新討論中，他們疑似又有了新操作。

一名自稱Groq工作人員的用戶與網(wǎng)友互動時表示，Groq的目標是打造最快的大模型硬件，并揚言：

三年時間內(nèi)趕超英偉達。

這下好了，黃院士的核武器有新的目標了。

參考鏈接：
[1]https://wow.groq.com/
[2]https://news.ycombinator.com/item?id=39428880?

責任編輯：姜華來源：量子位

GPT-4 人工智能芯片

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

主站蜘蛛池模板：色综合天天天天做夜夜夜夜做 | 日韩视频观看 | 91精品国产一二三 | 狠狠干av | 在线观看视频你懂得 | 国产在线观看一区二区 | 欧美女优在线观看 | 国产亚洲精品久久久久久豆腐 | 澳门永久av免费网站 | 亚洲综合在线视频 | 国产欧美一区二区三区另类精品 | 麻豆国产一区二区三区四区 | 久久国产精品色av免费观看 | 欧美阿v| 一级黄色录像片子 | 国产精品亚洲一区二区三区在线 | 成人av激情| 2023亚洲天堂 | 午夜欧美a级理论片915影院 | 精品国产一区二区三区久久 | 找个黄色片| 成人老司机 | 欧美午夜一区二区三区免费大片 | 亚洲成人网在线播放 | 亚洲精品在线观看视频 | 久久免费视频观看 | 成人在线精品 | 国产精品123区 | 99免费在线观看视频 | 爱爱视频网 | 欧美日韩专区 | 婷婷在线免费 | 欧美日韩一区不卡 | 欧美精品福利 | 亚洲乱码一区二区 | 国产一区二区三区在线 | 日本一区二区三区视频在线 | 在线亚洲一区 | 亚洲欧美日韩一区二区 | 99国产精品久久久久久久 | 日韩第一夜 |