Ollama高并發測試
本文主要來測試一下ollama的高并發能力。
具體配置如下:
一、Ollama默認參數執行
我們打開4個窗口,然后分別讓DeepSeek “給我講一個笑話” ,看下不同窗口的答題順序。
通過答題順序可以看到,在不進行參數設置時,模型是一個一個執行。這樣就說明,默認參數下,Ollama并不支持高并發,它會逐個回復我們的請求。
二、調整Ollama高并發參數
在ollama內,有兩個參數與高并發有關分別是:
OLLAMA_MAX_LOADED_MODELS:每個模型將同時處理的最大并行請求數,也就是能同時響應幾個LLM。
至于應用場景的話,就是我們可以同時在聊天頁面調用兩個LLM同時聊天,看看不同的LLM會有怎樣不同的響應。
當然,這樣設置后,不同的用戶也可以在同一時間請求不同的模型。
OLLAMA_NUM_PARALLEL:每個模型將同時處理的最大并行請求數,也就是能同時回復多少個LLM。
這個參數對于高并發非常重要,如果你部署好了Ollama,假如有10個人同時請求了你的LLM,如果一個一個回答,每個模型回復10秒鐘,那輪到第10個人將會在1分多種后,對于第10個人來說是不可接受的。
以上兩個參數應根據自己的硬件條件自行設置。
高并發測試:
我們將以上兩個參數添加到電腦的環境變量內,均設置為4。
OLLAMA_MAX_LOADED_MODELS 4
OLLAMA_NUM_PARALLEL 4
設置好后,確認環境變量并重啟Ollama,我們來看一下效果。
可以看到,在設置并發數為4之后,模型就能同時響應4個用戶的請求。
一般來說,對于中小型的部署,可以采用Ollam當作底座,只需要部署多個服務器,通過反向代理與負載均衡即可實現。
如果要面對更多的并發請求,不建議使用Ollama當作底座,應采用VLLM進行部署。