系統性能指標:洞察系統運行的關鍵脈搏
在當今數字時代,軟件系統在我們的生活和工作中發揮著越來越重要的作用。我們需要確保這些系統能夠在高負載、高并發的情況下穩定運行,為用戶提供良好的體驗。為了實現這一目標,我們需要關注系統性能監控指標,洞察系統運行的關鍵脈搏。本文將從指標分類、指標詳細說明等方面介紹系統性能監控指標的相關知識,幫助你更好地理解和應用這些關鍵數據。
指標分類:多維度看系統性能
指標其實非常多,在公司就監控管理的人更能體會,動不動就是成千上萬的指標,不僅管理的人頭皮發麻,看的人也頭皮發麻(當然,可能跟具體的公司業務有關)。
這里,我就不把事情搞復雜了,整體我認為可以按以下方式進行分類:
指標分類 | 說明 |
基礎設施指標 | 衡量系統底層基礎設施的健康狀況,包括服務器、網絡、存儲等 |
應用程序指標 | 衡量應用程序的性能和可用性,包括請求響應時間、吞吐量、錯誤率等 |
用戶體驗指標 | 衡量用戶在使用系統時的體驗和滿意度,包括頁面加載時間、頁面渲染時間、交互響應時間等 |
業務指標 | 衡量系統對業務的貢獻,包括銷售額、轉化率、市場份額等。 |
每個分類的關注人群會不一樣,比如老板們可能更關注業務指標,用戶更關注使用體驗,開發或運維就更關注應用本身和基礎設施了。
指標詳細說明:深入解析具體的指標
基礎設施指標
類型 | 指標 | 說明 |
服務器 | CPU 利用率 | CPU 在某一時刻內的使用率,通常以百分比表示,高 CPU 利用率可能會導致系統響應緩慢或崩潰。 |
內存使用率 | 系統內存在某一時刻內的使用率,通常以百分比表示,當內存使用率過高時,可能會導致系統變慢、程序崩潰等問題。 | |
磁盤空間使用率 | 磁盤容量在某一時刻內的使用率,通常以百分比表示,當磁盤空間使用率過高時,可能會導致系統崩潰或無法寫入新數據。 | |
磁盤讀寫速度 | 磁盤讀取和寫入數據的速度,通常以 MB/s 表示,磁盤讀寫速度較低可能會導致程序響應緩慢。 | |
網絡延遲和帶寬 | 指網絡傳輸數據的速度和時間延遲,網絡延遲和帶寬越高,網絡傳輸速度越快,系統響應也更加及時。 | |
進程數量 | 系統中正在運行的進程數量,進程數量過多可能會導致系統資源耗盡,從而影響系統性能。 | |
系統負載 | 指系統在某一時刻內的負載狀況,通常以 1 分鐘、5 分鐘和 15 分鐘的平均負載來表示,系統負載越高,表明系統正在處理更多的任務,也可能會導致系統響應變慢。 | |
數據庫 | 執行耗時 | SQL 語句執行耗時統計,有助于發現并解決慢查詢 |
吞吐量 | QPS(每秒查詢次數)和 TPS(事務每秒執行次數) | |
命中率 | 緩存命中率監控,有助于排查并提升 SQL 語句的執行效率 |
應用程序指標
指標 | 說明 |
請求響應時間 | 請求響應時間是指從發送請求到接收響應所需的時間,這通常以毫秒為單位測量,較短的響應時間意味著應用程序能夠快速響應用戶請求,提高用戶體驗和滿意度。 |
吞吐量 | 吞吐量是指在一段時間內處理的請求數量,這通常以每秒鐘處理的請求數(QPS)或每分鐘處理的請求數(RPM)來測量,高吞吐量表示應用程序能夠同時處理更多的請求,因此具有更好的性能。 |
錯誤率 | 錯誤率是指發生錯誤的請求數與總請求數之間的比率,它通常以百分比表示,較低的錯誤率表示應用程序的穩定性和可靠性更高。 |
并發數 | 并發數是指同時處理的請求數量,如果應用程序無法處理大量并發請求,則會導致響應延遲和性能下降。 |
用戶體驗指標
指標 | 說明 |
頁面加載時間 | 指從用戶請求頁面到頁面完全加載完成所需的時間。它包括了網絡延遲、DNS 查詢、服務器響應時間、下載資源等等因素。這個指標可以幫助你了解你的網站是否需要優化以提高頁面加載速度。 |
頁面渲染時間 | 指從頁面開始加載到頁面呈現給用戶之間的時間。這個指標會受到瀏覽器性能、JavaScript 代碼復雜度、CSS 文件大小、圖片數量等多種因素的影響。如果你的網站的頁面渲染時間過長,可能會導致用戶流失或者對用戶體驗造成負面影響。 |
交互響應時間 | 指用戶與網站進行交互(如點擊按鈕、輸入文本)時,從用戶操作到頁面響應之間的時間。這個指標是用戶體驗的重要組成部分,若響應時間太長,對用戶造成負面影響 |
業務指標
分類 | 指標 | 說明 |
用戶指標 | 日新增活躍用戶數 | 指在某一天內新注冊并且在這一天內有活躍行為的用戶數量?;钴S行為可以是在產品/服務中進行任何有意義的操作,如閱讀內容、發表評論、點贊等。這個指標可以幫助我們了解產品/服務的用戶增長情況,以及新用戶對產品/服務的參與度。 |
活躍用戶 | 指在一定時間內(通常是一個月)內至少有一次活躍行為的用戶數量。這個指標可以幫助我們了解產品/服務的用戶參與度和活躍度,以及用戶對產品/服務的滿意度。 | |
留存用戶 | 指在某一個時間段內(通常是一個月或更長時間)內至少有一次活躍行為的用戶數量,相對于該時間段的總注冊用戶數的比例。這個指標可以幫助我們了解產品/服務的用戶忠誠度和用戶滿意度,以及產品/服務的長期用戶增長情況。留存用戶率越高,說明產品/服務的用戶滿意度和忠誠度越高,也說明產品/服務的長期用戶增長趨勢越穩定。 | |
行為指標 | PV(訪問次數) | 指在某一時間段內網站或應用程序中的頁面被訪問的總次數。每當用戶打開一個頁面,就會增加一次 PV,PV 是衡量網站流量的重要指標,可以反映出網站的受歡迎程度、用戶活躍度、內容質量等方面的情況。通常情況下,PV 數越高,說明網站的流量越大,也意味著網站的曝光率越高,用戶的活躍度也越高。 |
UV(訪問人數) | 指一定時間內(通常為一天)訪問網站或應用程序的獨立用戶數量。對于衡量網站或應用程序的受眾規模非常有用,并且可以幫助營銷人員確定其市場份額和潛在受眾。 | |
轉化率 | 指在某個時間段內,完成了預設目標的用戶數量與總用戶數量之間的比率。它用于衡量一個產品、服務或者網站的營銷效果,反映了用戶在經歷了一系列環節后最終完成目標的比率,比如購買商品、注冊賬號、填寫問卷等。轉化率可以幫助我們了解用戶對于產品或服務的興趣程度,以及產品或服務的銷售質量和效果如何。 | |
產品指標 | 收入和利潤 | 衡量產品所帶來的經濟效益,包括總收入、凈利潤、每用戶平均收益等指標,這個指標可以幫助團隊了解產品的商業價值和盈利能力。 |
產品排行 | 衡量產品的受歡迎程度,利于運營推廣 |
業務指標涵蓋的范圍很多,把握“領導驅動、數據驅動”來做。
其他指標
除了上面的指標之外,還會有其他指標,比如:
- 中間件指標,比如 MQ、Nacos、JVM 等
- 穩定性指標,比如常說的 4 個 9,5 個 9 等
- 可靠性指標,比如備份和恢復、集群可靠性等
指標很多,主要是區分指標,哪些有用,哪些沒用。是什么人關注什么指標,按照不同的類型進行分類,方面管理和維護。
總結
本篇文章主要是從廣義上來定義系統的性能指標,主要包括:
- 基礎設施指標
- 應用程序指標
- 用戶體驗指標
- 業務指標
- 其他指標
image.png
但是整體還是比較空泛,因為落地到每個公司會進行調整和適配。