使用 Node Exporter 監(jiān)控 Linux 主機之二
前文我們介紹了如何使用 Node Exporter 監(jiān)控 Linux 主機的 CPU 使用率,接下來我們來介紹如何監(jiān)控 Linux 的磁盤空間、磁盤 IO、網(wǎng)絡(luò) IO 等方面。
內(nèi)存監(jiān)控
除了 CPU 監(jiān)控之外,我們可能最關(guān)心的就是節(jié)點內(nèi)存的監(jiān)控了,平時我們查看節(jié)點的內(nèi)存使用情況基本上都是使用 free 命令來查看:
free命令
free 命令的輸出會顯示系統(tǒng)內(nèi)存的使用情況,包括物理內(nèi)存、交換內(nèi)存(swap)和內(nèi)核緩沖區(qū)內(nèi)存等,所以要對內(nèi)存進行監(jiān)控我們需要先了解這些概念,我們先了解下 free 命令的輸出內(nèi)容:
- Mem 行(第二行)是內(nèi)存的使用情況
- Swap 行(第三行)是交換空間的使用情況
- total 列顯示系統(tǒng)總的可用物理內(nèi)存和交換空間大小
- used 列顯示已經(jīng)被使用的物理內(nèi)存和交換空間
- free 列顯示還有多少物理內(nèi)存和交換空間可用使用
- shared 列顯示被共享使用的物理內(nèi)存大小
- buff/cache 列顯示被 buffer 和 cache 使用的物理內(nèi)存大小
- available 列顯示還可以被應(yīng)用程序使用的物理內(nèi)存大小
其中我們需要重點關(guān)注的 free 和 available 兩列。free 是真正尚未被使用的物理內(nèi)存數(shù)量,而 available 是從應(yīng)用程序的角度看到的可用內(nèi)存,Linux 內(nèi)核為了提升磁盤操作的性能,會消耗一部分內(nèi)存去緩存磁盤數(shù)據(jù),就是 buffer 和 cache,所以對于內(nèi)核來說,buffer 和 cache 都屬于已經(jīng)被使用的內(nèi)存,只是應(yīng)用程序需要內(nèi)存時,如果沒有足夠的 free 內(nèi)存可以用,內(nèi)核就會從 buffer 和 cache 中回收內(nèi)存來滿足應(yīng)用程序的請求。所以從應(yīng)用程序的角度來說 available = free + buffer + cache,不過需要注意這只是一個理想的計算方式,實際中的數(shù)據(jù)有較大的誤差。
如果要在 Prometheus 中來查詢內(nèi)存使用,則可以用 node_memory_* 相關(guān)指標,同樣的要計算使用的,我們可以計算可使用的內(nèi)存,使用 promql 查詢語句 node_memory_Buffers_bytes + node_memory_Cached_bytes + node_memory_MemFree_bytes。
available Mem
然后計算可用內(nèi)存的使用率,和總的內(nèi)存相除,然后同樣用 1 減去即可,語句為 (1- (node_memory_Buffers_bytes + node_memory_Cached_bytes + node_memory_MemFree_bytes) / node_memory_MemTotal_bytes) * 100,這樣計算出來的就是節(jié)點內(nèi)存使用率。
內(nèi)存使用率
當然如果想要查看各項內(nèi)存使用直接使用對應(yīng)的監(jiān)控指標即可,比如要查看節(jié)點總內(nèi)存,直接使用 node_memory_MemTotal_bytes 指標即可獲取。
總內(nèi)存
磁盤監(jiān)控
接下來是比較中的磁盤監(jiān)控,對于磁盤監(jiān)控我們不僅對磁盤使用情況感興趣,一般來說對于磁盤 IO 的監(jiān)控也是非常有必要的。
磁盤容量監(jiān)控
要監(jiān)控磁盤容量,需要用到 node_filesystem_* 相關(guān)的指標,比如要查詢節(jié)點磁盤空間使用率,則可以同樣用總的減去可用的來進行計算,磁盤可用空間使用 node_filesystem_avail_bytes 指標,但是由于會有一些我們不關(guān)心的磁盤信息,所以我們可以使用 fstype 標簽過濾關(guān)心的磁盤信息,比如 ext4 或者 xfs 格式的磁盤:
可用磁盤空間
要查詢磁盤空間使用率,則使用查詢語句 (1 - node_filesystem_avail_bytes{fstype=~"ext4|xfs"} / node_filesystem_size_bytes{fstype=~"ext4|xfs"}) * 100 即可:
磁盤空間使用率
這樣就可以得到我們關(guān)心的磁盤空間使用率了。
磁盤 IO 監(jiān)控
要監(jiān)控磁盤 IO,就要區(qū)分是讀的 IO,還是寫的 IO,讀 IO 使用 node_disk_reads_completed 指標,寫 IO 使用 node_disk_writes_completed_total 指標。
磁盤讀 IO 使用 sum by (instance) (rate(node_disk_reads_completed_total[5m])) 查詢語句即可:
磁盤讀IO
當然如果你想根據(jù) device 進行聚合也是可以的,我們這里是全部聚合在一起了。
磁盤寫 IO 使用 sum by (instance) (rate(node_disk_writes_completed_total[5m])) 查詢語句即可:
磁盤寫IO
網(wǎng)絡(luò) IO 監(jiān)控
上行帶寬需要用到的指標是 node_network_receive_bytes,由于我們對網(wǎng)絡(luò)帶寬的瞬時變化比較關(guān)注,所以一般我們會使用 irate 函數(shù)來計算網(wǎng)絡(luò) IO,比如計算上行帶寬用查詢語句 sum by(instance) (irate(node_network_receive_bytes_total{device!~"bond.*?|lo"}[5m])) 即可:
上行帶寬
下行帶寬用到的指標為 node_network_transmit_bytes,同樣的方式查詢語句為 sum by(instance) (irate(node_network_transmit_bytes{device!~"bond.*?|lo"}[5m])):
下行帶寬
當然我們還可以根據(jù)網(wǎng)卡設(shè)備進行分別聚合計算,最后還可以根據(jù)自己的需求將結(jié)果進行單位換算。