如何在本地運行量化版的DeepSeek-R1-0528？

作者：布加迪 2025-06-16 08:11:47

本文介紹了使用Ollama和WebUI在本地運行量化版的 DeepSeek-R1-0528 模型。

譯者 | 布加迪

審校 | 重樓

DeepSeek-R1-0528是DeepSeek R1 推理模型的最新版本，需要715GB的磁盤空間，使其成為市面上最大的開源模型之一。然而由于來自Unsloth 的先進的量化技術，該模型的大小可以縮減至162GB，整整縮減了80%。這使得用戶能夠以顯著降低的硬件要求體驗模型的全部功能，盡管性能略有下降。

在本教程中，我們將：

設置Ollama和Open Web UI，以便在本地運行DeepSeek-R1-0528 模型。
下載并配置該模型的 1.78 位量化版（IQ1_S）。
使用GPU + CPU和純CPU兩種配置環境運行該模型。

先決條件

要運行IQ1_S 量化版本，你的系統必須滿足以下要求：

GPU要求：至少1個24GB GPU（比如英偉達RTX 4090或A6000）和128GB RAM。在此配置下，預期生成速度約為每秒5個token。
RAM要求：運行該模型至少需要64GB RAM；可以不使用 GPU 運行該模型，但性能將限制為每秒1個token。
最佳設置：為了獲得最佳性能（每秒5個以上token），你至少需要180GB的統一內存或180GB的RAM + VRAM組合內存。
存儲：確保你至少有200GB的可用磁盤空間用于模型及其依賴項。

第1步：安裝依賴項和Ollama

更新你的系統并安裝所需的工具。Ollama是一款輕量級服務器，用于在本地運行大語言模型。在Ubuntu 發行版上使用以下命令安裝它：

apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

第2步：下載并運行模型

使用以下命令運行DeepSeek-R1-0528 模型的 1.78 位量化版本（IQ1_S）：

ollama serve &
ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0

第3步：設置并運行Open Web UI

拉取支持CUDA的Open Web UI Docker鏡像。運行支持GPU并集成Ollama的Open Web UI 容器。

該命令將：

在8080端口啟動Open Web UI服務器
使用--gpus all 標志，啟用GPU加速
掛載必要的數據目錄（-v open-webui:/app/backend/data）

docker pull ghcr.io/open-webui/open-webui:cuda
docker run -d -p 9783:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:cuda

一旦容器運行，在瀏覽器中訪問Open Web UI 界面：http://localhost:8080/。

第4步：在Open Web UI中運行DeepSeek R1 0528

從模型菜單中選擇hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0模型。

如果Ollama服務器無法正確使用GPU，你可以切換到CPU執行。雖然這會顯著降低性能（大約每秒1個token），但可以確保模型仍然能夠運行。

# Kill any existing Ollama processes
pkill ollama 

# Clear GPU memory
sudo fuser -v /dev/nvidia* 

# Restart Ollama service
CUDA_VISIBLE_DEVICES="" ollama serve

一旦模型運行，你可以通過Open Web UI與其交互。但請注意，由于缺乏GPU加速，速度將被限制為每秒1個token。

結語

即使運行量化版本也頗具挑戰性。你需要快速的網絡連接來下載模型，如果下載失敗，必須從頭開始整個過程。我在試著在GPU上運行時也遇到了很多問題，我一直收到與VRAM 不足相關的GGUF錯誤。盡管嘗試了幾種常見的GPU錯誤修復方法，但都不起作用，于是我最終把一切都切換到了CPU。雖然這確實有效，但現在模型僅僅生成響應就需要大約10分鐘，這遠非理想狀態。

我相信肯定有更好的解決方案，比如使用llama.cpp，但相信我，我花了一整天才讓它運行起來。

原文標題：Run the Full DeepSeek-R1-0528 Model Locally，作者：Abid Ali Awan

責任編輯：姜華來源： 51CTO內容精選

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看