五步跨越事件管理中的運營鴻溝
通過從傳統的、被動的運作方式轉向主動的、自動化的事件管理,組織可以更高效、更智能地工作。
譯自5 Steps To Cross the Operational Chasm in Incident Management,作者 Debora Cambe。
構建具有彈性的運營,確保高可用性和可靠性,對于維護客戶忠誠度并最終實現業務增長至關重要。根據近期研究,十分之九的IT領導者認為,中斷或故障降低了客戶對其組織的信任度。
實現運營卓越的路徑是預防和學習的路徑,融入到事件管理流程中,團隊通過擁抱主動措施和事后審查,自信高效地運作,而不是陷入救火模式。
從反應式到主動式事件管理跨越運營鴻溝,對于降低運營成本和節省團隊能力以加速創新至關重要——即使面對意外挑戰,也能提供卓越的服務。
以下五個步驟可以幫助組織開始走向運營卓越的旅程。
1.擴展服務所有權以更高效地運營
手動事件管理流程的支離破碎性質是組織面臨的主要挑戰。分布式團隊經常使用不同的工具和工作流程,這使得在關鍵事件期間的協調變得困難。平均而言,與自動化事件管理流程相比,手動解決事件的平均修復時間 (MTTR)要長1小時18分鐘。
使用構建用于在整個組織中擴展全服務所有權模型的平臺,可以利用各種運營模型(從集中式到分散式),并在整個事件生命周期中協調團隊的響應。DevOps最佳實踐的標準化推動了這種方法。它推動問責制和跨團隊協作,同時通過自動化重復性任務和專注于創新來增強團隊的能力,從而幫助減少重大事件和中斷的影響。
2.使用 AI 和自動化來消除噪音
對組織基礎設施和潛在故障點的了解有限,往往限制了團隊采用反應式事件管理策略。例如,網絡運營中心 (NOC) 傳統上偏愛一種“眼睛盯著屏幕”的模型,這種模型過于依賴人工,并且容易出錯,無法有效地分類當今涌入企業的龐大數據量。
事件驅動自動化使用 AI 和機器學習來僅顯示需要人工關注和干預的關鍵工作。它可以抑制和分組警報,同時啟動分類和自動修復以消除噪音。或者,它可以確定需要更多診斷信息,并通知團隊進行調查。這使響應者能夠自動修復低優先級問題,并專注于推動業務價值(創新、效率和卓越的客戶體驗)的高影響事件。 通過智能事件檢測和主動問題解決,團隊可以在問題升級之前預測和解決問題,從而顯著減少響應時間并改進整體事件管理實踐。此外,AI驅動的分析可以幫助發現可能無法通過人工分析發現的模式和趨勢,從而確保更具彈性和效率的系統。
3.促進主動的跨職能協作
采用孤立的事件管理方法會減慢決策速度,并損害事件期間的跨團隊溝通。相反,組織必須培養一種跨職能文化,讓所有團隊成員能夠無縫協作。
跨職能協作確保事件響應計劃全面,并考慮特定團隊中包含的見解和專業知識。借助 AI 工具總結信息和起草消息,以及使用自動化共享定期更新,可以加快溝通速度。這會在利益相關者之間建立信任,并促進知識共享以加快解決速度。
4.將引導式修復帶到響應者工作的地方
許多響應者與 ChatOps 工具協作以啟動響應流程。事實上,有可能在不離開 Slack 或 Microsoft Teams 的情況下端到端地管理事件,從而最大限度地減少上下文切換以提高效率,降低協調成本并加快解決速度。 但是,除了創建專門的事故渠道并快速添加響應者和主題專家外,團隊還可以從具有引導性補救功能的事故管理平臺中受益。一個值得注意的例子是能夠直接在聊天中分配角色和任務,以提高責任感并消除猜測,甚至確定事故類型,從而為特定場景制定量身定制的響應流程。
此外,生成式AI聊天機器人可以為響應者提供上下文支持和可操作的見解,使他們在快速解決問題時更加有效。此外,聊天記錄可以自動攝取并在新創建的事故后審查中進行總結,從而促進將事故轉化為學習機會并釋放運營彈性的過程。
5.通過事故后審查改進彈性
制定主動事故管理策略的一個重要步驟是進行事故后審查。當事故得到解決時,團隊往往非常忙碌,以至于他們不得不繼續前進,而沒有檢查促成因素或確定哪些流程可以改進。
在重大事件(理想情況下是每個事件)之后進行無責備審查對于持續迭代地改進發生事件的系統至關重要。這應涵蓋技術和人為方面。審查必須徹底,并發現流程缺陷、培訓差距或系統漏洞,以改進事故管理。
有效地記錄這些審查的結果——這一過程可以在AI工具的支持下加速——有助于組織提高彈性并減少未來事件的影響。持續學習的思維模式將每個事件都轉化為推動改進事故管理成熟度的機會。
事故是不可避免的:滅火不是
事故將繼續發生,因此組織需要關注如何更好地承受它們。通過跨越運營鴻溝——從傳統的、被動的運作方式轉變為主動的、自動化的事件管理——組織可以更快、更聰明地工作,以提高其服務的可用性和可靠性。最終,這種轉變將改善客戶體驗,并為可持續的業務持續增長鋪平道路。