云原生基礎設施監控要有效,得走好這七步
數字企業繼續改造和發展其IT基礎設施,以增強與業務目標的一致性。數字服務中斷可能會損害銷售、收入和公司聲譽,因此團隊面臨著最大限度提高整個堆棧的彈性和正常運行時間的壓力。組織比以往任何時候都更需要全面的基礎設施監控,以保持可見性,并在最終用戶受到影響之前幫助工程師識別和解決問題。
基礎設施監控的演變
基礎設施監控是一個整理和分析來自IT環境所有組件的度量、跟蹤、日志和其他遙測數據的過程,以提供對可用性和性能的可操作洞察。然而,隨著云環境的復雜性和動態性的增加,實現有效的監控變得更具挑戰性。
例如,在多云環境中,每個平臺都附帶一個來自公共云提供商的原生監控解決方案,該解決方案只提供對其自身基礎設施組件的可見性。因此,組織必須拼湊各種工具,這會造成復雜性并妨礙整個堆棧中的端到端可見性。
有了正確的技術和配置,基礎設施監控將改變游戲規則。它幫助團隊發現和分析趨勢,并在潛在問題破壞用戶體驗或違反服務級別協議(SLA)之前標記它們。它還可以支持A/B測試,這有助于團隊確定性能和用戶體驗的最佳基礎設施設置。高度自動化的監控解決方案有助于團隊減少手動流程,隨著基礎設施的發展可以輕松擴展,最重要的是,專注于創新,而不是修復bug。
以下是七個優秀實踐,可幫助基礎設施團隊設置和優化云原生監控功能。
1. 盡可能實現自動化
對于大型動態環境,使用高度自動化的基礎設施監控解決方案是關鍵。監控功能的手動配置和儀表化是令人望而卻步的勞動密集型任務。團隊發現無法對其基礎設施的一些部分進行檢測,并且難以保持對代理的監控處于最新狀態。
另一方面,自動部署、自動配置和自動基線使組織能夠擴大可以捕獲的度量范圍,消除盲點,并在云原生基礎設施堆棧中實現端到端的可觀察性。這將帶來更高質量的監控,并生成更精確的上下文洞察。通過增強數據,團隊可以更快地解決問題,從而獲得更好的客戶體驗。減少人為干預可以騰出時間讓團隊專注于更高效的任務,從而加快轉型和現代化計劃。
2. 花時間配置警報
概述需要哪種警報是值得的,這樣就可以盡快發現問題。如果沒有可靠的警報配置,團隊將無法確定問題并確定多個警報是否與同一問題相關。警報特指性可提高準確性并減少誤報。周密的警報機制可以縮短響應時間,幫助團隊更快地解決根本原因,提高正常運行時間。
為了獲得最大的效率,自動基線功能可以顯著減少警報配置的需要,能夠自動消除誤報,執行自動根本原因分析,并根據業務影響確定警報優先級。
3. 創建優先級
根據業務影響對警報進行分組有助于團隊首先將精力集中在最嚴重的問題上。這種方法消除了在對通知重要性的猜測,從而節省了團隊的時間和壓力。還可以將警報定向到不同的頻道。
例如,一家公司可以將其IT服務管理(ITSM)系統配置為通過SMS向待命工程師的智能手機發送高優先級警報,并通過電子郵件發送低優先級問題。對于擁有24小時待命工程師的企業,優先順序可以減少非工作時間的警報疲勞和團隊中斷。
4. 設置自定義儀表板
通過創建特定于角色的儀表板,確保合適的人員能夠訪問所需的監控數據。組織內的不同團隊可能需要出于不同的目的查看基礎設施監控報告。例如,ITOps工程師可能與IT安全團隊、營銷部門和業務主管擁有不同的關鍵績效指標(KPI)。
確定利益相關者認為哪些見解最有價值,哪些見解不必要。為僅顯示相關數據的每個組設置自定義儀表板。(但是,關鍵是所有儀表盤的基礎數據都是一致的,并且基于相同的數據模型。)
5. 測試系統
如果不徹底測試系統,大多數企業永遠不會啟動系統或部署重大更改。基礎設施監控也不例外。確定最可能的場景并設計測試框架,以確保基礎設施監控解決方案按預期執行。最安全的方法是在指定的測試環境中進行測試,以防止生產和客戶受到影響。然后,團隊可以微調設置和警報配置,以確保一切正常。
6. 定期檢查度量和KPI
目標不斷演變,因此定期審查指標以確保基礎設施監控解決方案生成每個利益相關者所需的數據和洞察至關重要。評估KPI并與團隊合作以確定未來要建立的新基準也是有益的。隨著一個組織在數字化轉型過程中的進一步發展,新的基礎設施盲點將出現。定期的度量審查可以避免無意的疏忽,并確保在整個基礎設施堆棧中保持完全的可見性。
7. 利用供應商專有技術和資源
難以完善其監控設置或缺乏內部專有技術或經驗的組織可以選擇供應商提供支持。供應商專家將具備行業最佳實踐方面的專業知識,并熟悉團隊正在解決的問題。利用供應商的專業知識可以幫助團隊更快地實現其監控目標,同時提高內部技能。
一種可擴展的基礎設施監控方法
隨著企業繼續向現代多云環境過渡,最大限度地延長正常運行時間和彈性對于確保業務連續性和客戶滿意度比以往任何時候都更為重要。將正確的監控解決方案落實到位,以實現基礎設施性能的明確戰略目標,可以讓團隊獲得最大的成功。
對許多人來說,最有效的方法是實現一個統一的平臺,該平臺可以在一個地方為所有云環境提供可觀察性。這有助于團隊更有效地協作并充分利用時間。通過將AIOps驅動的自動化與這些功能結合起來,組織可以設計一個可擴展的基礎設施監控框架——該框架將隨著業務的發展而發展,為創新和進一步轉型創造更多空間。
原文鏈接:
https://thenewstack.io/seven-steps-to-effective-cloud-native-infrastructure-monitoring/