避免被頻繁的警報折騰死的七種方法
隨著公司成長,需要的工具越來越多,而隨工具的增加,警報和流程中斷也就越來越多。很快,每套系統和工具發出的警報,聽起來就像是一場喧囂的酒會,大家都在談論各自不同的話題。因此,安全和運維團隊正在逐漸喪失對警報的敏感度,甚至系統標出真正異常的活動,也有可能因警報疲勞而被無視掉。
你需要的,是唱詩班一樣和諧悅耳的警報,一切協調運作,只有真正的事件出現才會發出高音。那么,要怎么達到這種境界呢?Threat Stack 工程副總裁克里斯·杰維斯,以及VictorOps,提供了避免警報疲勞的七種方法。
1. 讓所有警報都具備上下文環境和可操作性
篩選無上下文無意義的警報來確定行動進程是十分疲憊的。有效警報需要具備兩個關鍵特性:
- 上下文:來自匹配整個系統的數據點以描繪出完整視圖,包括運行手冊、圖表、日志、注釋,以及解決問題有關的任何其他細節。
- 源細節:指向問題源頭和系統內受影響的任何其他區域,以便能從根源解決問題。
2. 減少冗余警報
很明顯,不停接到同一個問題的警報無疑是毫無效率的,尤其是在問題甚至都不稱之為問題的時候。這是導致警報疲勞的***因素之一。無論是常規工程工作出發的警報,還是第三方App引起的不必要警報,都無關緊要:這些實例全都會導致警報疲勞。精確調整每個工具的報警協議,可以減少和合并警報。甚至更好的是,將所有安全功能整合到單一平臺,可以統一警報配置和產生。
3. 為警報指定單一源或時間線
每個工具都發送自己的警報(多半直接發送到你的郵箱),讓連點成線發現真正的問題變得十分困難——即便真的在郵件堆中對這些警報投以關注。不能依賴郵件警報作為單一的真相來源。采用Slack之類開放式通信頻道無縫銜接警報,提供團隊范圍的可見性,允許開放討論以解決問題的做法,要好得多。
無縫銜接安全功能(威脅情報、漏洞管理、亞馬遜云追蹤服務CloudTrail等等)到單一平臺,同樣可以統一整合安全警報。
4. 調整異常檢測閾值
受日常忙碌所累,很多團隊都忘了定期精調基準線。這導致了更多的無用警報,讓警報疲勞進一步惡化。解決掉***的噪音警報是個不錯的開始,但更好的解決方案,是使用能隨時間從系統基線中學習的工具,可隨公司擴張自行調整,讓安全團隊無需手動調整。
5. 確保警報發給正確的人/團隊
隨著團隊成長突然出現的另一個問題,是確保團隊每一個人都能收到相應的警報以做出動作。作為持續改進過程的一部分,應讓每個團隊成員來決定自己收到警報的方式、頻率和主題。
6. 定制個人通知/尋呼
工程師和運維人員被深夜呼叫來處理根本不嚴重的警報已經司空見慣。這不僅僅會讓團隊疲憊,甚至會讓他們不再相信日間警報!所以,應確保只有高嚴重性警報會觸發“深夜呼叫”。其他所有警報可以等第二天一早來處理。
7. 定期審查和調整
上述6條建議不應只是一次性的工作;你得定期重審以確保系統正常運行。下面幾個問題,是在事后分析和定期團隊會議上應該向團隊提出的:
- 警報信噪比調整全隊皆知了嗎?
- 警報精調是持續改進過程中的一部分嗎?
- 團隊被授權自行安排工作優先級和處理警報疲勞相關因素了嗎?
- 上報流程是明智有效的嗎?
- 能集成更多的數據到警報中以提供合適的上下文來決策嗎?