Ollama高并發測試

2025-03-10 10:00:00

本文主要來測試一下ollama的高并發能力。

具體配置如下：

我們打開4個窗口，然后分別讓DeepSeek “給我講一個笑話” ，看下不同窗口的答題順序。

通過答題順序可以看到，在不進行參數設置時，模型是一個一個執行。這樣就說明，默認參數下，Ollama并不支持高并發，它會逐個回復我們的請求。

在ollama內，有兩個參數與高并發有關分別是：

OLLAMA_MAX_LOADED_MODELS：每個模型將同時處理的最大并行請求數，也就是能同時響應幾個LLM。

至于應用場景的話，就是我們可以同時在聊天頁面調用兩個LLM同時聊天，看看不同的LLM會有怎樣不同的響應。

當然，這樣設置后，不同的用戶也可以在同一時間請求不同的模型。

OLLAMA_NUM_PARALLEL：每個模型將同時處理的最大并行請求數，也就是能同時回復多少個LLM。

這個參數對于高并發非常重要，如果你部署好了Ollama，假如有10個人同時請求了你的LLM，如果一個一個回答，每個模型回復10秒鐘，那輪到第10個人將會在1分多種后，對于第10個人來說是不可接受的。

以上兩個參數應根據自己的硬件條件自行設置。

高并發測試：

我們將以上兩個參數添加到電腦的環境變量內，均設置為4。

OLLAMA_MAX_LOADED_MODELS  4
OLLAMA_NUM_PARALLEL 4

設置好后，確認環境變量并重啟Ollama，我們來看一下效果。

可以看到，在設置并發數為4之后，模型就能同時響應4個用戶的請求。

一般來說，對于中小型的部署，可以采用Ollam當作底座，只需要部署多個服務器，通過反向代理與負載均衡即可實現。

如果要面對更多的并發請求，不建議使用Ollama當作底座，應采用VLLM進行部署。

責任編輯：龐桂玉來源： Python伊甸園

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看