使用vLLM部署工具加速QWQ,推理速度比ollama更快、并發更高
與傳統的HuggingFace Transformers相比,vLLM的吞吐量高達24倍,且無需改變模型架構,它采用創新的PagedAttention算法,優化了注意力鍵和值的管理,從而提升了推理速度,并且其能夠有效地利用多核CPU和GPU資源,顯著提升LLM的推理速度。
相比于ollama,vllm輸出的速度更快,支持的并發更高,目前也沒有遇到安全問題,穩定性非常好,更適合作為服務器的接口服務來部署。
但相應的,vllm會把服務器的GPU顯存都占滿,使得機器無法再部署其他服務,同時ollama部署更加的簡單,也是因為這個原因ollama在最近部署deepseek的熱潮中被提到的更多一些,因此個人使用可能ollama更合適。
關于vllm和ollama的對比可以看文章:ollama和vllm部署對比那個更合適
vLLM本地環境準備
vllm需要使用最新的0.7.3版本,支持思考過程增加<think>標簽。
建議用conda新建一個環境來安裝
pip install vllm==0.7.3
python環境我這里使用的是python3.8,顯卡為a40顯卡40g顯存版本。
模型權重下載
因為網絡問題,建議在阿里魔塔社區下載QWQ模型。
選擇好對應的版本后,使用pip安裝modelscope,便可以下載選中的版本模型了:
from modelscope import snapshot_download
model_dir = snapshot_download('qwen/QWQ-32B')
vLLM部署運行模型
因為之前已經配置好vLLM的環境,所以使用以下命令可以運行模型:
/root/miniconda3/envs/vllm/bin/python
-m vllm.entrypoints.openai.api_server
--served-model-name qwq-32b
--model /root/.cache/modelscope/hub/qwen/QWQ-32B
參數解析:
模型路徑:--model /root/.cache/modelscope/hub/qwen/QWQ-32B
模型名稱:–served-model qwq-32b
QWQ的推理效果可以查看文章 QwQ總結能力測評,32b小模型真能超過deepseek嗎
寫在最后
2025年的今天,AI創新已如井噴,幾乎每天都有新的技術出現。作為親歷三次AI浪潮的技術人,我堅信AI不是替代人類,而是讓我們從重復工作中解放出來,專注于更有創造性的事情,關注我們公眾號口袋大數據,一起探索大模型落地的無限可能!