成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

人工智能 新聞
這個推理引擎速度有多快?在單個 NVIDIA RTX 4090 GPU 上運行 LLM ,PowerInfer 的平均 token 生成速率為 13.20 tokens/s,峰值為 29.08 tokens/s,僅比頂級服務器 A100 GPU 低 18%,可適用于各種 LLM。

不僅如此,PowerInfer 與最先進的本地LLM推理框架 llama.cpp 相比,在單個 RTX 4090 (24G) 上運行 Falcon (ReLU)-40B-FP16,實現了 11 倍多的加速,還能保持模型的準確性。

具體來說,PowerInfer 是一個用于本地部署 LLM 的高速推理引擎。與那些采用多專家系統(MoE)不同的是,PowerInfer 通過利用 LLM 推理中的高度局部性,巧妙的設計了一款 GPU-CPU 混合推理引擎。

它的工作原理是這樣的,將頻繁激活的神經元(即熱激活,hot-activated)預加載到 GPU 上以便快速訪問,而不常激活的神經元(冷激活,cold-activated)(占大多數)則在 CPU 上計算。

這種方法顯著減少了 GPU 內存需求和 CPU-GPU 數據傳輸。

圖片

  • 項目地址:https://github.com/SJTU-IPADS/PowerInfer
  • 論文地址:https://ipads.se.sjtu.edu.cn/_media/publications/powerinfer-20231219.pdf

PowerInfer 可以在配備單個消費級 GPU 的 PC 上高速運行 LLM。現在用戶可以將 PowerInfer 與 Llama 2 和 Faclon 40B 結合使用,對 Mistral-7B 的支持也即將推出。

一天的時間,PowerInfer 就獲得了 2K 星標。

圖片

看到這項研究后,網友激動的表示:單卡 4090 跑 175B 大模型不再是夢。

圖片


PowerInfer 架構

PowerInfer 設計的關鍵是利用 LLM 推理中固有的高度局部性,其特征是神經元激活中的冪律分布。這種分布表明,一小部分神經元(稱為熱神經元)跨輸入一致激活,而大多數冷神經元則根據特定輸入而變化。PowerInfer 利用這種機制設計了 GPU-CPU 混合推理引擎。

圖片

下圖 7 展示了 PowerInfer 的架構概述,包括離線和在線組件。離線組件處理 LLM 的激活稀疏,區分熱神經元和冷神經元。在線階段,推理引擎將兩種類型的神經元加載到 GPU 和 CPU 中,在運行時以低延遲服務 LLM 請求。

圖片

圖 8 說明了 PowerInfer 如何協調 GPU 和 CPU 來處理層之間的神經元。PowerInfer 根據離線數據對神經元進行分類,將熱激活的神經元(例如索引 3、5、7)分配給 GPU 內存,將其他神經元分配給 CPU 內存。

一旦接收到輸入,預測器就會識別當前層中哪些神經元可能會被激活。值得注意的是,通過離線統計分析識別的熱激活神經元可能與運行時激活行為不一致。例如,神經元 7 雖然標記為熱激活,但事實卻并非如此。然后,CPU 和 GPU 都會處理激活的神經元,忽略沒有激活的神經元。GPU 計算神經元 3 和 5,而 CPU 處理神經元 4。神經元 4 的計算完成后,其輸出將發送到 GPU 進行結果集成。

圖片

實驗

該研究使用不同參數的 OPT 模型進行了實驗,參數從 6.7B 到 175B 不等,還包括 Falcon (ReLU)-40B 和 LLaMA (ReGLU)-70B 模型。值得注意的是,175B 參數模型的大小與 GPT-3 模型相當。

本文還將 PowerInfer 與 llama.cpp 進行了比較,llama.cpp 是最先進的本地 LLM 推理框架。為了便于進行比較,該研究還擴展了 llama.cpp 以支持 OPT 模型。

由于本文專注于低延遲設置,因此評估指標是端到端生成速度,量化為每秒生成 token 的數量(tokens/s)。 

該研究首先比較了 PowerInfer 和 llama.cpp 的端到端推理性能,批大小為 1。

圖 10 展示了在配備 NVIDIA RTX 4090 的 PC-High 上各種模型和輸入輸出配置的生成速度。平均而言,PowerInfer 實現了 8.32 tokens/s 的生成速度,最高可達 16.06 tokens/s, 顯著優于 llama.cpp,比 llama.cpp 提高了 7.23 倍,比 Falcon-40B 提高了 11.69 倍。

隨著輸出 token 數量的增加,PowerInfer 的性能優勢變得更加明顯,因為生成階段在整體推理時間中扮演著更重要的角色。在此階段,CPU 和 GPU 上都會激活少量神經元,與 llama.cpp 相比,減少了不必要的計算。例如,在 OPT-30B 的情況下,每生成一個 token,只有大約 20% 的神經元被激活,其中大部分在 GPU 上處理,這是 PowerInfer 神經元感知推理的好處。

圖片

圖 11 顯示,在 PC-Low 上,PowerInfer 仍然比 llama.cpp 獲得了相當大的性能增強,平均加速為 5.01 倍,峰值為 7.06 倍。然而,與 PC-High 相比,這些改進較小,主要是由于 PC-Low 的 11GB GPU 內存限制。此限制會影響可分配給 GPU 的神經元數量,特別是對于具有大約 30B 參數或更多參數的模型,導致更大程度地依賴于 CPU 來處理大量激活的神經元。

圖片

圖 12 顯示了 PowerInfer 和 llama.cpp 的 CPU 和 GPU 之間的神經元負載分布。值得注意的是,在 PC-High 上,PowerInfer 顯著增加了 GPU 的神經元負載份額,從平均 20% 增加到 70%。這表明 GPU 處理了 70% 的激活神經元。然而,在模型的內存需求遠遠超過 GPU 容量的情況下,例如在 11GB 2080Ti GPU 上運行 60GB 模型,GPU 的神經元負載會降低至 42%。這種下降是由于 GPU 的內存有限,不足以容納所有熱激活的神經元,因此需要 CPU 計算這些神經元的一部分。

圖片

圖 13 說明 PowerInfer 有效支持使用 INT4 量化壓縮的 LLM。在 PC-High 上,PowerInfer 的平均響應速度為 13.20 tokens/s,峰值可達 29.08 tokens/s。與 llama.cpp 相比,平均加速 2.89 倍,最大加速 4.28 倍。在 PC-Low 上,平均加速為 5.01 倍,峰值為 8.00 倍。由于量化而減少的內存需求使 PowerInfer 能夠更有效地管理更大的模型。例如,在 PC-High 上使用 OPT-175B 模型進行的實驗中,PowerInfer 幾乎達到每秒兩個 token,超過 llama.cpp 2.66 倍。

圖片

最后,該研究還評估了 PowerInfer 在不同批大小下的端到端推理性能,如圖 14 所示。當批大小小于 32 時,PowerInfer 表現出了顯著的優勢,與 llama 相比,性能平均提高了 6.08 倍。隨著批大小的增加,PowerInfer 提供的加速比會降低。然而,即使批大小設置為 32,PowerInfer 仍然保持了相當大的加速。

圖片

參考鏈接:https://weibo.com/1727858283/NxZ0Ttdnz

了解更多內容,請查看原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-07-08 13:04:01

2025-01-20 07:30:00

2025-01-16 08:03:44

2024-01-10 17:13:42

模型數據

2024-03-21 13:59:06

圖像研究

2024-07-17 12:18:27

2022-11-08 15:00:51

芯片英偉達

2023-04-05 14:31:49

AI超算人工智能

2023-08-13 07:44:18

GPU模型英偉達

2023-02-06 10:25:13

AI模型

2023-03-27 18:56:11

2025-02-17 09:06:00

AI算力模型

2023-04-06 09:37:22

谷歌AI

2024-06-21 09:17:09

2023-04-07 09:28:31

模型訓練

2021-10-12 15:03:18

模型人工智能深度學習

2023-11-27 13:43:00

AI模型

2023-07-13 23:16:19

英偉達GPU

2023-08-14 08:07:46

ChatGPTAI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线看一区二区三区 | 欧美在线高清 | 久久精品国产a三级三级三级 | 日韩伦理一区二区 | 亚洲国产精品自拍 | 韩国av影院 | 国产精品毛片一区二区在线看 | 综合久久综合久久 | 婷婷福利| 国产亚洲一区二区三区在线 | 国内毛片毛片毛片毛片 | 国产1区| 天天综合天天 | 天天精品在线 | 国产精品色 | 欧美亚洲国产日韩 | 亚洲一区 中文字幕 | 亚洲福利视频网 | 香蕉久久网 | 自拍偷拍亚洲视频 | 岛国av免费在线观看 | 欧美精品片 | 中文字幕在线观看 | 精品一区二区三区在线观看国产 | 亚洲三区在线观看 | 91精品国产综合久久久久久丝袜 | 91精品国产欧美一区二区成人 | 欧美精品一区二区三区在线 | 日日摸夜夜添夜夜添精品视频 | av在线免费网 | 亚洲 欧美 另类 日韩 | 亚洲高清在线观看 | 国产一区久久 | 亚洲日本欧美 | 中国一级特黄真人毛片 | 午夜欧美a级理论片915影院 | 国产视频久久 | 亚洲人人| 亚洲精品在线免费观看视频 | 久久99深爱久久99精品 | 日本黄色不卡视频 |