Llama 3.1 70B AQLM-PV版發布！大模型壓縮后可在24GB顯存GPU上本地運行！！

發布于 2024-12-6 08:13

瀏覽

0收藏

Llama 3.1 70 B參數模型無疑是一個非常優秀的模型。不僅是基準測試證明了這一點，現實世界中的應用也毫無疑問地證明了它的表現與封閉源的知名模型相媲美，比如 OpenAI 的 GPT-4、Anthropic 的 Claude 和 Google 的 Gemini Pro。

Llama 3.1 70B AQLM-PV版發布！大模型壓縮后可在24GB顯存GPU上本地運行！！-AI.x社區

這也是為什么我看到有許多組織努力將這個 70B參數的模型移植到普通 GPU 上，特別是那些顯存為 24GB 或以下的設備。在這篇文章中，我將向大家展示一個全新的微調模型，叫做 Meta Llama 3.1 70B Instruct，使用了 AQLM。

Llama 3.1 70B AQLM-PV版發布！大模型壓縮后可在24GB顯存GPU上本地運行！！-AI.x社區

如果你還不知道 Meta 的 Llama 3.1 是什么：它是一個多語言的大語言模型的集合，預訓練和指令調優的生成模型，尺寸分別為 80 B、70B和 405B參數。

Llama 3.1 指令調優的文本模型針對多語言對話用例進行了優化，在很多通用的行業基準上，已經超越了很多現有的開源和封閉的聊天模型。在這篇文章中，我將向大家展示這個模型是如何通過使用 AQLM 技術和 PV 調優進行壓縮的。我們還將學習什么是 AQLM 和 PV，然后我們將本地安裝它，并體驗一下這個模型。

現在在安裝之前，有兩個術語，或者我說三個術語，是你必須要清楚了解的。

首先，什么是量化？因為這個模型 Llama 3.1 70 BInstruct AQLM 是對原始70B模型的 AQLM 量化。當我們說量化時，指的是一種用于減少大語言模型內存和計算需求的技術。它涉及到使用更少的位數來表示模型的權重和激活，通常每個參數使用 1 到 2 位，而不是標準的 32 位浮點數。

這種壓縮會降低模型的精度，但可以加快執行速度并減少存儲需求，使得在較小設備或顯存較少的 GPU 上運行復雜模型成為可能。

AQLM 代表大語言模型的加法量化。它是一種專門設計用于將大語言模型壓縮到極小尺寸的新量化技術，每個參數使用 2 到 3 位。它使用加法量化技術將權重矩陣分解為更小的部分，并在模型的不同部分優化壓縮。

AQLM 在保持模型精度的同時，極大地減少了內存需求，使得在資源有限的設備上部署大語言模型成為可能。

另一個我們需要學習的術語是 PV，PV 代表 PV 調優。

PV 調優是一種改進壓縮大語言模型性能的微調框架。它設計用于與像 AQLM 這樣的量化技術協作，以優化壓縮模型的權重，提高其準確性。PV 調優可以推廣并改進現有的微調策略，提供收斂保證，并在 Llama 和 Mistral 等高性能模型上超越之前的方法。

通過使用 PV 調優，開發人員可以在不犧牲模型精度的情況下實現更好的壓縮比，使得在較小設備上高效部署大語言模型成為可能。

所以現在我希望大家對量化、AQLM 和 PV 調優有了理解。

接下來我們打開我的終端，我運行的是 Ubuntu 22.04 和 NVIDIA RTX A6000 GPU，顯存是 48GB，不過你可以在 24GB 顯存的 GPU 上運行這個模型。

首先創建一個虛擬環境，

Llama 3.1 70B AQLM-PV版發布！大模型壓縮后可在24GB顯存GPU上本地運行！！-AI.x社區

安裝所有的前置需求，安裝 AQLM 在GPU上、

Llama 3.1 70B AQLM-PV版發布！大模型壓縮后可在24GB顯存GPU上本地運行！！-AI.x社區

所有前置需求都已安裝完成。接下來，啟動我們的 Jupyter Notebook，以便在瀏覽器環境中進行安裝。

Llama 3.1 70B AQLM-PV版發布！大模型壓縮后可在24GB顯存GPU上本地運行！！-AI.x社區

Jupyter Notebook 已啟動。接下來導入我們已安裝的庫，然后下載模型。模型開始下載了，我想模型的大小大約是 24GB，所以我們等待下載完成。這會花一些時間。

Llama 3.1 70B AQLM-PV版發布！大模型壓縮后可在24GB顯存GPU上本地運行！！-AI.x社區

模型和分詞器都下載完畢，現在我們可以進行推理了。

Llama 3.1 70B AQLM-PV版發布！大模型壓縮后可在24GB顯存GPU上本地運行！！-AI.x社區

第一個問題，我問它世界上最小的國家是什么？讓我們運行一下。等待結果。

Llama 3.1 70B AQLM-PV版發布！大模型壓縮后可在24GB顯存GPU上本地運行！！-AI.x社區

結果很準確，世界上最小的國家是梵蒂岡城，這是一個獨立國家。所以答案是正確的。接下來我們再測試一個。

這次我讓它寫 10 個以 “美麗” 結尾的句子。這次我測試的重點是，看看我們把 70 億模型壓縮到 2 位，大小只有 24GB，現在看看是否有精度損失。

Llama 3.1 70B AQLM-PV版發布！大模型壓縮后可在24GB顯存GPU上本地運行！！-AI.x社區

你可以看到，大部分答案是非常準確的，它甚至還生成了一個答案，每個句子都以 “美麗” 結尾，真的很棒，太酷了。

接下來我們再試一個。接下來我問它一個問題，“草莓里有多少個 r ？”

Llama 3.1 70B AQLM-PV版發布！大模型壓縮后可在24GB顯存GPU上本地運行！！-AI.x社區

這次它沒答對。70 B完整模型曾經能回答這個問題，但這個壓縮版本失敗了。8B的 Llama 3.1 也給出了錯誤答案，但 405B的版本是正確的。好吧，至少我們發現一個問題在完整模型中是正確的。好，讓我們再試一個。

接下來我問了一個負面問題，“如何讓對話變得尷尬？” 看看模型是否會回答我。

Llama 3.1 70B AQLM-PV版發布！大模型壓縮后可在24GB顯存GPU上本地運行！！-AI.x社區

嗯，這次模型花了點時間。

Llama 3.1 70B AQLM-PV版發布！大模型壓縮后可在24GB顯存GPU上本地運行！！-AI.x社區

它說我必須聲明讓對話變得尷尬并不是一個值得追求的目標，然后它給了我一些建議，比如過于個人化、做假設、用錯場合的幽默、尷尬的沉默、提出有爭議的話題等等。這花了大約 29 秒。好吧，這很有趣，因為這是一個相對比較難的問題，或者說是一個不尋常的問題，所以它花了一些時間。

好，讓我們試一個編碼問題。所以我讓它繪制 Mandelbrot 集合，這是一個幾何構造。

Llama 3.1 70B AQLM-PV版發布！大模型壓縮后可在24GB顯存GPU上本地運行！！-AI.x社區

等待一下，結果出來了，幾何圖形的代碼很好，非常高質量。

Llama 3.1 70B AQLM-PV版發布！大模型壓縮后可在24GB顯存GPU上本地運行！！-AI.x社區

它還給出了代碼的概要，甚至告訴我們如何安裝以便運行這個代碼。不過花了點時間，超過了 25 秒。不過總的來說表現還是很不錯的。

我認為這真的是一個很大的進步，現在我們可以在 24GB 顯存以上的單個 GPU 上運行 70B的模型，而且準確率非常好。

希望在未來不久我們也可以在這樣的普通硬件上運行 4050 億的 Llama 3.1 模型，甚至是顯存為 24GB 或更少的單個 GPU 上。

本文轉載自 ??AI進修生??，作者： Aitrainee

標簽

Llama 3.1

GPU

顯存

贊

回復

舉報

回復

相關推薦

五個簡單好用的本地運行大模型的方法

51CTO技術棧 ? 5920瀏覽 ? 0回復
Llama 3來了！首批開源 8B 和 70B兩個版本，未來有望開源400B大模型！

AIGC最前線 ? 1.2w瀏覽 ? 0回復
大模型競技場全面測評結果出爐：Llama3 70B成開源模型中最強王者！

AIGC最前線 ? 6164瀏覽 ? 0回復
本地使用Groq Llama 3 70B的逐步指南

51CTO內容精選 ? 3666瀏覽 ? 0回復
最強模型Llama 3.1 405B正式發布，扎克伯格：開源引領新時代

輕薄滴假象 ? 2517瀏覽 ? 0回復
最強大模型 Llama 3.1-405B 架構設計剖析

玄姐聊AGI ? 3341瀏覽 ? 0回復
Meta正式發布Llama-3.1，超大杯405B！千呼萬喚始出來！

PaperAgent ? 3317瀏覽 ? 0回復
大模型到底需要消耗多少GPU顯存？公式和工具全都有

Syrupup ? 1.2w瀏覽 ? 1回復
ViT篇外：NVIDIA Llama-3.1-Minitron 4B

魯班模錘1 ? 2675瀏覽 ? 0回復
GPU和CPU如何混合訓練？大模型訓練的GPU聯手CPU顯存優化分析方法

angel ? 4790瀏覽 ? 0回復
Ollama，本地運行大模型最強工具，輕松上手

小虎哦哦 ? 1.0w瀏覽 ? 0回復
Llama 3.1 405B，教你白嫖使用最強開源大模型

小虎哦哦 ? 2950瀏覽 ? 0回復
從 Llama 1 到 3.1：Llama 模型架構演進詳解

Baihai_IDP ? 4691瀏覽 ? 0回復
Meta AI 開源 Llama 3.3：全新 70B 多語言大語言模型 (LLM)

Halo咯咯 ? 3497瀏覽 ? 0回復
Dolphin 3.0 發布（Llama 3.1 + 3.2 + Qwen 2.5）：本地優先、可操縱的 AI 模型

Halo咯咯 ? 2626瀏覽 ? 0回復
Good Fire AI 針對 Llama 3.1 8B 和 Llama 3.3 70B 的開源稀疏自動編碼器 (SAE)

Halo咯咯 ? 2077瀏覽 ? 0回復
在個人電腦上運行Llama 3 70B大規模模型指南

丟翅膀的魚 ? 4323瀏覽 ? 0回復
從推理到編程，詳細比較DeepSeek 32B、70B、R1實踐性能

小虎哦哦 ? 1.2w瀏覽 ? 0回復
AI大模型本地化方案：Xinference 本地運行大模型

風云2002_1 ? 3146瀏覽 ? 0回復

老蛀蟲

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

Llama 3.1 70B AQLM-PV版發布！大模型壓縮后可在24GB顯存GPU上本地運行！！

目錄