在Docker中巧用Healthcheck檢查健康狀態
Docker 原生健康檢查能力
自 1.12 版本之后,Docker 引入了原生的健康檢查實現。對于容器而言,最簡單的健康檢查是進程級的健康檢查,即檢驗進程是否存活。Docker Daemon會自動監控容器中的PID 1進程,如果docker run命令中指明了restart policy,可以根據策略自動重啟已結束的容器。在很多實際場景下,僅使用進程級健康檢查機制還遠遠不夠。比如,容器進程雖然依舊運行卻由于應用死鎖無法繼續響應用戶請求,這樣的問題是無法通過進程監控發現的。
當一個容器有指定健康檢查 (HEALTHCHECK) 時,它除了普通的容器狀態之外,還有以下幾種狀態:
- starting:容器仍在啟動時的初始狀態
- healthy:如果命令成功,則容器是健康的
- unhealthy:如果單次運行時間超過指定的超時時間,則認為它不健康。如果運行狀況檢查失敗,則將運行重試次數,如果仍然失敗,將被宣布為不健康。
容器啟動之后,初始狀態會為 starting (啟動中)。Docker Engine會等待 interval 時間,開始執行健康檢查命令,并周期性執行。如果單次檢查返回值非0或者運行需要比指定 timeout 時間還長,則本次檢查被認為失敗。如果健康檢查連續失敗超過了 retries 重試次數,狀態就會變為 unhealthy (不健康)。
注:
一旦有一次健康檢查成功,Docker會將容器置回 healthy (健康)狀態
當容器的健康狀態發生變化時,Docker Engine會發出一個 health_status 事件。通過檢查容器監控狀態有以下兩種方式:
1. Dockerfile 方式
可以在Dockerfile中聲明應用自身的健康檢測配置。HEALTHCHECK指令聲明了健康檢測命令,用這個命令來判斷容器主進程的服務狀態是否正常,從而比較真實的反應容器實際狀態。
HEALTHCHECK指令格式:
HEALTHCHECK [選項] CMD <命令>:設置檢查容器健康狀況的命令
HEALTHCHECK NONE:如果基礎鏡像有健康檢查指令,使用這行可以屏蔽掉
注 :在Dockerfile中HEALTHCHECK只可以出現一次,如果寫了多個,只有最后一個生效。
使用包含HEALTHCHECK指令的Dockerfile構建出來的鏡像,在實例化Docker容器的時候,就具備了健康狀態檢查的功能。啟動容器后會自動進行健康檢查。參考:healthcheck
HEALTHCHECK 支持下列選項:
--interval=<間隔>:兩次健康檢查的間隔,默認為 30 秒;
--timeout=<間隔>:健康檢查命令運行超時時間,如果超過這個時間,本次健康檢查就被視為失敗,默認 30 秒;
--retries=<次數>:當連續失敗指定次數后,則將容器狀態視為 unhealthy,默認 3 次。
--start-period=<間隔>: 應用的啟動的初始化時間,在啟動過程中的健康檢查失效不會計入,默認 0 秒;
參數作用解釋如下:
運行狀態檢查首先會在容器啟動后的 interval 秒內運行,然后在前一次檢查完成后的 interval 秒內再次運行。
如果一次狀態檢查花費的時間超過 timeout 秒,則認為這次檢查失敗。
容器的運行狀態檢查連續失敗 retries 次才會被視為不健康。
start period 為需要時間啟動的容器提供初始化時間。在此期間的探測失敗將不計入最大重試次數。
但是,如果在啟動期間健康檢查成功,則認為容器已啟動,所有連續失敗的情況都將計算到最大重試次數。
在HEALTHCHECK [選項] CMD后面的命令,格式和ENTRYPOINT一樣,分為 shell 格式,和 exec 格 式。命令的返回值決定了該次健康檢查的成功與否:
0:成功;
1:失敗;
2:保留值,不要使用
假設有個鏡像是個最簡單的 Web 服務,我們希望增加健康檢查來判斷其 Web 服務是否在正常工作,我們可以用 curl來幫助判斷,其 Dockerfile 的HEALTHCHECK可以這么寫:
FROM nginx:1.23
HEALTHCHECK --interval=5s --timeout=3s --retries=3 \
CMD curl -fs http://localhost/ || exit 1
這里設置了每 5 秒檢查一次(這里為了試驗所以間隔非常短,實際應該相對較長),如果健康檢查命令超過 3 秒沒響應,并且重試3次都沒響應就視為失敗,并且使用curl -fs http://localhost/ || exit 1作為健康檢查命令。
使用docker build來構建這個鏡像:
docker build -t myweb:v1 .
構建好后啟動容器:
docker run -d --name web myweb:v1
當運行該鏡像后,可以通過docker container ls看到最初的狀態為(health: starting):
docker container ls
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
7068d793c6e4 myweb:v1 "/docker-entrypoint.…" 3 seconds ago Up 2 seconds (health: starting) 80/tcp web
在等待幾秒鐘后,再次docker container ls,就會看到健康狀態變化為了(healthy):
$ docker container ls
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
7068d793c6e4 myweb:v1 "/docker-entrypoint.…" 18 seconds ago Up 16 seconds (healthy) 80/tcp web
如果健康檢查連續失敗超過了重試次數,狀態就會變為(unhealthy)。
為了幫助排障,健康檢查命令的輸出(包括stdout以及stderr)都會被存儲于健康狀態里,可以用 docker inspect來查看。
2. docker run 方式
另外一種方法是在docker run命令中,直接指明healthcheck相關策略
$ docker run -d \
--name=myweb \
--health-cmd="curl -fs http://localhost/ || exit 1" \
--health-interval=5s \
--health-retries=12 \
--health-timeout=2s \
nginx:1.23
通過執行docker run --help | grep health命令查看相關的參數及解釋如下:
--health-cmd string:運行檢查健康狀況的命令
--health-interval duration:運行間隔時間(ms|s|m|h)(缺省為0s)
--health-retries int:需要報告不健康的連續失敗次數
--health-start-period duration :容器在開始健康重試倒計時之前初始化的起始周期(ms|s|m|h)(默認0)
--health-timeout duration:允許一次檢查運行的最大時間(ms|s|m|h)(默認為0s)
--no-healthcheck:禁用任何容器指定的HEALTHCHECK,會使得Dockerfile構建出來的HEALTHCHECK功能失效。
如果是以supervisor來管理容器的多個服務,想通過子服務的狀態來判斷容器的監控狀態,可以使用supervisorctl status來做判斷,比如:
$ docker run --rm -d \
--name=myweb \
--health-cmd="supervisorctl status" \
--health-interval=5s \
--health-retries=3 \
--health-timeout=2s \
nginx:v1
按照此參數的設置,如果supervisorctl status檢查子服務有一個不為正常的RUNNING狀態,那么在等待大約15秒左右,容器的健康狀態就會從(healthy)變為(unhealthy)。
3. docker-compose 方式
在docker-compose中,healthcheck聲明運行該檢查以確定此服務的容器是否“正常”。這將覆蓋由服務的 Docker 映像設置的 HEALTHCHECK Dockerfile 指令。參考:healthcheck
以通過supervisor管理子進程的容器為例:
version: '3.8'
services:
web:
image: nginx:v1
container_name: web
healthcheck:
test: ["CMD", "supervisorctl", "status"]
interval: 5s
timeout: 2s
retries: 3
start_period: 10s
注意:start_period參數,在Version 2.3和Version 3.4中引入,如果在yml文件中的開頭寫的是version: ‘3’,這相當于是3.0版本,會導致啟動失敗,出現類似信息:services.web.healthcheck value Additional properties are not allowed ('start_period' was unexpected)。因此需要把docker-compose的version指定2.3或者3.4之后的版本。Compose版本及Docker Engine的兼容版本對應關系參考:compatibility-matrix
執行成功后,等待數秒查詢容器的狀態:
$ docker-compose ps
Name Command State Ports
--------------------------------------------------------------------------------
web supervisord -c /etc/superv ... Up (healthy) 443/tcp, 80/tcp
當通過手動supervisorctl stop停掉里面的一些子服務,導致里面的子服務狀態不全為RUNNING狀態時,再查看容器的狀態:
$ docker-compose ps
Name Command State Ports
----------------------------------------------------------------------------------
web supervisord -c /etc/superv ... Up (unhealthy) 443/tcp, 80/tcp
容器的健康狀態也會從(healthy)變為(unhealthy)。
也可以通過設置disable: true來禁用鏡像設置的運行狀況檢查:
healthcheck:
disable: true