10倍英偉達GPU：大模型專用芯片一夜成名，來自谷歌TPU創業團隊

作者：機器之心 2024-02-20 12:30:53

有名為 Groq 的初創公司開發出一種機器學習處理器，據稱在大語言模型任務上徹底擊敗了 GPU—— 比英偉達的 GPU 快 10 倍，而成本僅為 GPU 的 10%，只需要十分之一的電力。

我們知道，大模型到 GPT-3.5 這種千億體量以后，訓練和推理的算力就不是普通創業公司所能承擔的了，人們用起來速度也會很慢。

但自本周起，這種觀念已成為歷史。

這是在 Groq 上運行 Llama 2 的速度：

來源：https://twitter.com/emollick/status/1759633391098732967

這是 Groq（Llama 2）和 ChatGPT 面對同一個 prompt 的表現：

圖源：https://x.com/JayScambler/status/1759372542530261154?s=20

盡管看起來不可思議，但事實就是如此，感興趣的朋友不妨一試。

目前，Groq 的官網提供了試用體驗，有這些模型可選：

官網地址：https://groq.com/

Groq 的處理器名為 LPU（語言處理單元），是一種新型的端到端處理單元系統，可以為具備序列組件的計算密集型應用（比如 LLM）提供極快的推理速度。

它帶動的大模型速度能達到前所未有的 500 Token/s，并且實現了極低的延遲。

用硬件加速軟件，總能給人一種力大磚飛的感覺。Groq 還在 LPU 上運行了最新銳的開源模型 Mixtral，模型在不到一秒的時間內回復了包含數百個單詞的事實性的、引用的答案（其中四分之三的時間是用來搜索）：

Groq 放出的 Demo 視頻下，有人評論道：這也太快了，不該這么快。

有網友因此提出建議：因為大模型生成內容的速度太快，所以從用戶體驗的角度來看不應該再自動翻頁了，因為人眼看不過來。

或許在 LPU 的加持下，生成式 AI 真的要如同 Gartner 最近預測所言：在兩年內對搜索引擎構成巨大威脅了。仔細一想也確實合理，畢竟當年神經網絡就是被 GPU 算力的發展帶飛的。

至于為什么這么快？

有人分析，GPU 專為具有數百個核心的并行處理而設計，主要用于圖形渲染，而 LPU 的架構旨在為 AI 計算提供確定性的性能。

LPU 的架構不同于 GPU 使用的 SIMD（單指令、多數據）模型，而是采用更精簡的方法，消除了對復雜調度硬件的需求。這種設計允許有效利用每個時鐘周期，確保一致的延遲和吞吐量。

能源效率是 LPU 相對于 GPU 的另一個值得注意的優勢。通過減少與管理多個線程相關的開銷并避免核心利用率不足，LPU 可以提供更多的每瓦計算量，將其定位為更環保的替代方案。

Groq 的芯片設計允許將多個 TSP 連接在一起，不會出現 GPU 集群中的傳統瓶頸，使其具有極高的可擴展性。隨著更多 LPU 的添加，這可以實現性能的線性擴展，從而簡化大規模 AI 模型的硬件要求，并使開發人員更輕松地擴展其應用程序，而無需重新架構其系統。

在 A100 和 H100 相對緊缺的時代，LPU 或許會成為大模型開發商的新選擇。

Groq 成立于 2016 年，這家公司的創始團隊出自谷歌，曾經設計了谷歌自研 AI 芯片張量處理單元 TPU 系列。據官網介紹，Groq 公司創始人、首席執行官 Jonathan Ross 曾經承擔了 TPU 的 20% 工作。

Jonathan Ross。

在去年的高性能計算會議 SC23 上，Groq 就展示過在 LPU 上運行 LLM 的全球最佳低延遲性能。當時，Groq 能夠以每秒超過 280 個 Token 的速度生成回復，刷新了 Llama-2 70B 推理的性能記錄。

今年 1 月，Groq 首次參與公開基準測試，就在 Anyscale 的 LLMPerf 排行榜上取得了突出的成績，遠超其他基于云的推理提供商。

圖源：https://github.com/ray-project/llmperf-leaderboard?tab=readme-ov-file

人工智能已經在科技界掀起了一場風暴。2023 年可能是世界意識到人工智能將成為現實的一年，而 2024 年則是人工智能真正成為現實而不僅僅是假設的一年。這是 Jonathan Ross 曾經表達的一個觀點。

當我們擁有 100 萬 Token 上下文的 Gemini Pro 1.5、每秒 500 Token 推理速度的 Groq、推理能力更進一步的 GPT-5，夢想還會遠嗎？

責任編輯：張燕妮來源：機器之心

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看