成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<small id="apjxo"></small>

<label id="apjxo"></label>

<abbr id="apjxo"></abbr>

<abbr id="apjxo"></abbr>

<button id="apjxo"><option id="apjxo"></option></button>

_{<ol id="apjxo"></ol>}

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

大模型到底需要消耗多少GPU顯存？公式和工具全都有

發布于 2024-8-21 09:40

瀏覽

0收藏

如何計算大模型到底需要多少顯存，是常常被問起的問題。

現從實用角度再介紹一個簡單公式和一個工具方便大家工作中使用。

1）估算公式（該公式來自于Sam Stoelinga簡化[1]）

大模型到底需要消耗多少GPU顯存？公式和工具全都有-AI.x社區

符號	描述
M	用千兆字節 (GB) 表示的 GPU 內存
P	模型中的參數數量。例如，一個 7B 模型有 7 億參數。
4B	4 字節，即每個參數使用的字節數
32	4 字節中有 32 位
Q	加載模型時應使用的位數，例如 16 位、8 位或 4 位。
1.2	表示在 GPU 內存中加載額外內容的 20% 開銷。

注意：該公式只是為了簡化計算的估計，并未包含kvcache所需顯存以及context大小的影響。

下面以運行16位精度的 Llama 70B 模型所需的 GPU 內存為例套用公式：

該模型有 700 億參數。

M = (70 ? 4) / (32 / 16) ? 1.2 ≈ 168GB

由此可見，模型所需的 GPU 內存相當大。單個 80GB 的 A100 GPU 不足以滿足需求，需要多個A100 GPU才能跑的起來。

如何進一步減少 Llama 2 70B 所需的 GPU 內存？

量化(Quantization)是一種減少內存占用的方法。通過將模型參數的精度從浮點數降低到低位表示（如 8 位整數），量化顯著降低了內存和計算需求，使模型在資源有限的設備上更高效地部署。然而，這需要仔細管理以保持模型的性能，因為降低精度可能會影響輸出的準確性。

通常認為 8 位量化能實現與 16 位精度相似的性能。而 4 位量化可能會顯著影響模型的性能。

讓我們再舉一個 4 位量化的 Llama 2 70B 的例子：

M = (70 ? 4) / (32 / 4) ? 1.2 ≈ 42GB

這意味著你可以使用 2 個 24GB 的 L4 GPU 來運行這個模型。

2）評估工具：

大模型到底需要消耗多少GPU顯存？公式和工具全都有-AI.x社區

在此基礎上，介紹一個能夠自動計算顯存能載入運行多大參數量模型的程序[2]，它的輸入如下:

可用的 RAM（以 GB 為單位）
估計操作系統 RAM 使用量（以 GB 為單位）
上下文窗口大小（Token 數量）
量化級別（Quantization level，每個參數的比特數）

計算過程:

將可用的 RAM 和操作系統的開銷從 GB 轉換為字節數。
通過將 Token 數量乘以 0.5 MB 并轉換為字節數來計算上下文窗口所需的內存。
通過從總可用 RAM 中減去操作系統開銷和上下文窗口內存，計算出可用的 RAM（以字節為單位）。
將量化級別從比特轉換為每個參數的字節數。
通過將可用 RAM 除以每個參數的字節數來計算最大參數數量。
將結果從參數轉換為以十億為單位的參數數量進行顯示。

確定上述輸入后就能直接看到能夠支持的最大參數量，如果計算出的最大參數量為負值，這表示上下文窗口大小對于可用的 RAM 來說太大了。在這種情況下，程序會顯示一個錯誤信息，建議用戶減少上下文窗口大小或增加可用的 RAM。

參考:

[1]https://www.substratus.ai/blog/calculating-gpu-memory-for-llm

[2]??https://github.com/RayFernando1337/LLM-Calc??

標簽

贊

收藏

回復

舉報

1條回復

按時間正序

/

按時間倒序

多一度想念

模型中的參數數量。例如，一個 7B 模型有 70 億參數。

回復

2024-12-19 17:37:58

回復

相關推薦

大語言模型高效推理知多少？三萬字長文帶你揭開神秘面紗（數據級、模型級和系統級）

angel ? 1.3w瀏覽 ? 0回復
大模型所謂的參數是什么？大模型為什么需要訓練？大模型訓練到底干了什么？

AI探索時代 ? 6903瀏覽 ? 0回復
大模型的訓練與調優，SFT(監督微調)和RLHF(基于人類反饋的強化學習)到底是什么？

AI探索時代 ? 8049瀏覽 ? 0回復
什么是多模態大模型？為什么需要多模態大模型？

AI探索時代 ? 5238瀏覽 ? 0回復
Cohere CEO：只賣模型的利潤有多少？零

51CTO技術棧 ? 2347瀏覽 ? 0回復
數據高效和計算高效全都要！中科大&微信等提出多模態大語言模型EE-MLLM

angel ? 2581瀏覽 ? 0回復
什么時候需要訓練和微調屬于自己的大模型——小微企業必須要明白的問題

AI探索時代 ? 2343瀏覽 ? 0回復
大模型微調哪家好？小孩子才做選擇，成年人當然是全都要

arnoldzhw ? 2988瀏覽 ? 0回復
GPU和CPU如何混合訓練？大模型訓練的GPU聯手CPU顯存優化分析方法

angel ? 4784瀏覽 ? 0回復
訓練大模型時，顯存都哪去了？

魚蟲子 ? 3268瀏覽 ? 0回復
大模型壓縮后可在24GB顯存GPU上本地運行！！

老蛀蟲 ? 2862瀏覽 ? 0回復
如何估算不同大小的大模型需要多大的GPU？

sulu637 ? 2791瀏覽 ? 0回復
奧特曼再談DeepSeek：每天醒來都有壓力

Crystalcxt ? 1764瀏覽 ? 0回復
大語言模型都有哪些特質？區分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini

angel ? 2335瀏覽 ? 0回復
Unsloth開源新算法：讓GRPO訓練大模型所需顯存降低90%，告別顯存焦慮！

sbf_2000 ? 3131瀏覽 ? 0回復
大型語言模型 (LLM) 入門的五個基本工具和框架

Halo咯咯 ? 2873瀏覽 ? 0回復
自家的大模型秘方開源到底！國產大模型雄起

51CTO技術棧 ? 2793瀏覽 ? 0回復
公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力

大模型自然語言處理 ? 1343瀏覽 ? 0回復
部署一個大模型，到底需要多大機器？

hm673c38238a021 ? 1840瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

思維外包化！AI正在“廢掉”我們的大腦 2天前發布
上下文工程的崛起：提示工程已是過去式 2天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： Gamma創始人暢談現象級AI+PPT產品是怎么做出來的？

下一篇：谷歌：Transformer在音樂推薦中的實踐

社區精華內容

目錄

主站蜘蛛池模板：丝袜美腿av | 日韩在线一区二区三区 | 在线播放国产一区二区三区 | 国产一区二区精品在线 | 亚洲黄色一区二区三区 | 国产乱码高清区二区三区在线 | 成人午夜视频在线观看 | 亚洲午夜精品一区二区三区他趣 | 一区中文字幕 | 中文字幕视频在线观看 | 在线免费观看黄色网址 | 99久久久国产精品 | 久草视频在 | 亚洲xxxxx | 在线观看日韩av | 国产精品一区二区在线观看 | 网色 | 成人精品视频在线观看 | 高清视频一区 | 欧美综合色 | 51ⅴ精品国产91久久久久久 | 69视频在线播放 | 欧美综合视频在线 | 久久高清 | 免费一区二区 | 日韩一区二区在线播放 | 国产成人精品一区二区三区在线观看 | 噜噜噜噜狠狠狠7777视频 | 日韩欧美二区 | 午夜欧美 | 精品一区二区在线看 | 日本一区二区高清不卡 | 久久婷婷国产麻豆91 | 国产精品久久在线观看 | 国产一级精品毛片 | aaaa网站| 国产九九九 | 日韩午夜网站 | 国产精品三级久久久久久电影 | 久久国产成人 | 久久88|

<button id="lzbhw"><tbody id="lzbhw"><small id="lzbhw"></small></tbody></button>

<button id="lzbhw"><option id="lzbhw"></option></button>

<cite id="lzbhw"><center id="lzbhw"></center></cite>