?零事故背后|揭秘NGSOC如何助力冬奧安全運營中心——標準化運營篇
揭秘NGSOC如何助力冬奧安全運營中心--規劃和建設篇展示了冬奧安全運營中心從最開始的規劃設計,到將NGSOC作為核心安全監測平臺,再到交付部署和如何保障NGSOC安全穩定運行的技術攻堅過程,本篇將重點介紹冬奧安全運營中心是如何進行標準化運營的。
“磨刀不誤砍柴工” 標準化流程才能高效運營
提起冬奧安全運營,冬奧安全運營中心現場項目經理仝磊回憶道,“冬奧安全運營最大的挑戰在于,隨著2020年以來我們實現了冬奧項目所有安全產品的交付部署及多次升級,團隊人數不斷增加,如何才能實現高效運營?”實際上,早在初期規劃階段,考慮到冬奧項目相較于常規項目的復雜性和重要性,團隊已經預測了可能出現的問題并制定了完整的安全運營方案,但在方案執行過程中,還是發現了不少問題。
2020年冬奧安全運營中心監控人員還只有四五人,到了2021年人數擴增到二十多人,加上所有測試賽、場館的駐場人員,一線團隊多達兩百多人。隨著人員增多,原有流程難以有效保障工作流程運轉,仍有團隊成員搞不清安全事件的處置流程,溝通過程中難以凸顯重點,從場館到總部的跟蹤、匯報流程也眾說紛紜。
在問題日益凸顯和冬奧組委賽時要求提升的背景下,解決高效運營挑戰迫在眉睫。于是在2021年初,團隊成立專門的小組,調動集團作訓部專家、安全服務部門的咨詢專家、攻防專家和NGSOC事業部人員共同制定冬奧SOP(標準作業程序),主要包括安全運營流程、安全運維流程、應急響應流程。這一標準詳細劃分了監控崗、分析崗、運維崗、處置決策崗等不同崗位,并明確各個崗位的詳細工作內容和工作標準。此外,為了保證流程高效執行,NGSOC產品團隊也進行了一系列的測試。
第一輪測試從2021年2月初持續到4月底,這也是第一次將安全運營SOP也投入使用。雖然標準投入使用,但過程并沒有想象中順利,團隊成員在短時間內很難快速熟悉并嚴格執行,同時,流程本身也還有不少問題要完善。但隨著不斷的測試和演練,以及對所有冬奧一線人員進行培訓和考試,到了2021年8月份,安全運營SOP才算是真正形成。
雖然從初期交付部署到2021年底測試運營,梳理標準化流程很累、很繁瑣,但是有了SOP,到了2022年1月23日進入冬奧準賽時階段后,整個團隊反而輕松下來了。所有人都能熟練掌握SOP,明確知道自己的工作內容,該如何匯報、如何處置,對NGSOC平臺操作也高度熟練。雖然人數多,但是整個團隊高效協同、有序處置,絕大多數的安全事件都可以通過標準化流程解決。
回想起這一段,仝磊說:“我們真正的通過標準化流程實現了常態化運營,這一點我們非常自豪。”而且整個過程下來,每個人的責任感和參與感更強了,標準化動作和流程可以有效糾偏,各個崗位犯錯幾率大大降低,安全事件處置不再完全基于個人技術,而是靠人+工具+流程高效有序的運轉。
“工欲善其事必先利其器” 安全運營需要工具協同
在冬奧安全運營中心項目中,標準化流程的運轉,離不開人和工具的緊密配合,而NGSOC作為冬奧安全運營中心核心安全監測平臺,如何跟安全運營團隊緊密結合保證SOP高效落地?
首先,實用、易讀、美觀的可視化大屏。
NGSOC平臺的監控覆蓋到了網絡中心、數據中心、云上系統以及眾多場館,所以如何對不同組織的安全狀態進行呈現,讓安全運營團隊更快發現安全事件并且流暢處置,也是擺在NGSOC事業部冬奧項目組面前的問題,所以在做可視化設計的時候標出了幾個關鍵詞:實用、易讀、美觀。
經過了記不清多少次的改版調優,在可視化呈現上逐漸形成了綜合網絡安全監控大屏、各場館網絡安全監控大屏、實時監控大屏。
NGSOC-綜合網絡安全監控大屏
實時監控大屏為冬奧安全運營中心的實時監控工作帶來了最直觀、最及時的呈現,可以實時的看到最新的告警數據統計、告警處置狀態。當危急告警發生時,大屏通過告警提醒聲音、屏幕特效方式為7*24H運營工作帶來最及時有效的提醒,做到實用高效。
NGSOC-實時監控大屏
“可視化大屏的呈現從場館、應用系統維度,對面臨威脅情況、事件情況、數據趨勢情況做了直觀的展示,滿足了冬奧安全運營中心的使用需求。”NGSOC事業部冬奧項目經理表示,為了更好呈現展示效果,協同奇安信可視化團隊投入了巨大的人力,對競賽場館做實地踏勘,在短短兩個月內實現了所有競賽場館的3D建模,最終效果驚艷眾人,實現了實用、易讀、美觀的綜合呈現。
NGSOC-場館網絡安全監控大屏示意圖
第二,云上云下全覆蓋,監控能力全面提升。
在冬奧安全運營中心項目中,NGSOC平臺共計接入云上、云下1000+種數據源,涵蓋終端、服務器、網絡設備、安全設備、應用系統、業務系統等所有核心資產。日志種類超過80類,日均35億日志,存量日志千億級。
為了實現對冬奧云上服務全方位、無死角的持續安全監測,結合云上服務的安全架構設計,NGSOC共采集了云上網絡、主機、數據、監控審計四大部分共18類數據源、30余類日志,共設計60+個安全監測場景。在日常運營期間,監測到數千起云上安全事件。
第三,奇安信全產品體系接入、協同、聯動。
2021年8月,奇安信冬奧項目組緊急成立聯合項目組,目標是以NGSOC為核心,集成各個產品日志與流量分析能力,以解決冬奧會現場常態化安全運營與應急響應問題,經綜合評估,實現8大產線(NGSOC、椒圖、天眼、天擎、威脅情報、錫安、SOAR、天狗)產品聯動的研發及所有安全產品日志接入和解析的工作。按照冬奧項目工期進展,大家只有19個工作日去完成這項任務,這對項目組來說是一項幾乎不可能實現的挑戰。
時間緊迫,各產品線都在爭分奪秒。到了聯調階段,因NGSOC研發人員有限,及時調整應對策略,形成了1對多的聯調模式(1個人并發對接多條產線),從開發方案到對接聯調。為了交付滿意的答卷,NGSOC事業部冬奧項目組所有人日夜奮戰,積極推動各產線工作進展,只要發現阻塞性問題立即想辦法解決,得到了各產品線包括冬奧組委的高度認可。
除了產品聯動外,還有安全場景的打通這一重要任務。8大應急安全場景、40個常態化運營場景一并完成需求拆解、方案設計、開發、測試、交付上線。最終,NGSOC首次在冬奧實現了與奇安信全產品體系的集成。從各設備的日志接入,數據的集中呈現、關聯分析到安全能力的協同、聯動,安全運營人員只需要通過NGSOC即可實現一站式監測、調查、響應閉環,無需在眾多的安全產品之間來回切換。
當所有的工作接近尾聲時,看到各個研發團隊交付的答卷,大家不禁松了口氣,正是這樣一支富有冬奧精神的團隊,秉承著艱苦奮斗,披荊斬棘的信念贏得了最終勝利,完美地按照計劃完成這項看似不可完成的任務。
第四,設計上千個冬奧威脅檢測場景。
冬奧項目NGSOC預置規則有448條,到冬奧會開幕式之前,規則已經達到了958條,而且在賽時也會有新增的場景需求,每天也都在補充規則,冬奧結束時規則達到1043條,覆蓋云上、云下所有核心資產的威脅、異常、違規監測場景。小到場館的辦公機、服務器上部署的業務組件,大到數據中心的業務系統、安全防護系統,幾乎是有IP設備、有提供服務的系統就有采集其日志,有分析、監測價值的日志就有對應的監測場景。
既有監測外部入侵、社工釣魚、惡意破壞、惡意軟件的各種威脅場景,也有監測內部人員違規、異常操作的場景;既有針對突發漏洞、安全事件的持續監測,又有針對日常運營期間各系統、服務運行狀態的持續監測。在整個冬奧值守期間,通過外部入侵場景監控到1118次告警,違規、異常操作場景共監測到7起內部人員操作不當事件,常態化運營場景共監測到3起設備斷電事件,6起數據斷流事件。
在冬奧項目中規則的優化達到145條,將告警由之前存在大量誤報(由于業務觸發的誤報)讓監控人員疲于分析,到現在日均告警量不超過427條,日志告警比為7860974:1,并且達成了無安全事件遺漏的成就。
第五,設計高并發支撐多人同時運營。
根據冬奧會項目對NGSOC平臺設計要求,需支持200人使用50+人并發訪問,這種規模前所未有。這種并發訪問量對系統整體壓力特別大,會導致系統負載急劇上升。對此,NGSOC研發團隊主要的優化方案包括:其一,瓶頸節點進行集群部署節點優化,識別出瓶頸節點后,對集群的部署方案做出調整,資源向瓶頸節點傾斜,比如ES集群,在高并發的情況下性能損耗非常大,集群規模要保持在合適的量級。其二,優化數據庫,調研冬奧會的運營場景,根據冬奧會的運營場景,對數據庫配置進行針對性優化,通過性能監測工具排查所有耗時的數據操作,逐一進行設計與優化。最終NGSOC平臺在日均35億日志高吞吐和50+人并發運營條件下,實現了安全平穩運行。
結語:
在“人+工具+流程”高效運轉的支撐下,冬奧安全運營實戰效果有目共睹。
首先是標準化流程安全運營SOP的制定,充分保障了業務正常運轉。冬奧網絡安全監控值班經理提到:“安全運營SOP大大提升了團隊信心,大家清晰明確地了解自己的崗位職責,避免因為事實不清造成處置不當。這樣一來,比賽現場業務系統可以更加高效運轉。”
其次是NGSOC的多重功能極大提升了安全運營效率。如實時監控大屏,對于安全運營人員來說使用頻率最高,這塊大屏投放在冬奧安全運營中心正中間,每30秒刷新一次,高危告警會閃動和發出警報,所有人都可以看到告警情況,便于及時追蹤、解決。告警TOP5,可以直觀提醒安全運營人員可能規則有問題,當告警每天處于TOP5,可以在平臺上查看告警的規則解釋,NGSOC平臺所有告警都可以看規則解釋說明。這個細節極大的方便了我們查閱基于哪條規則產生的告警,方便找威脅建模工程師做規則優化,直接解決了告警冗余的問題。告警的高級篩選功能幫助特別大,通過預置的告警篩選器,每個監控值班經理看不同告警內容,極大提高了告警處置效率。
“對于NGSOC作為運營平臺的最大期望是能發現、能回溯,最好能通過一個平臺發現所有安全事件,完成所有操作,NGSOC平臺真的做到了。” 冬奧網絡安全監控值班經理總結到,這要歸功于NGSOC的高并發、全產品體系聯動和對告警的妥善處置。
首先是高并發,總指揮中心從監控崗、分析崗、處置崗等共計數十人同時在NGSOC上進行相關工作,這對NGSOC的并發要求很高,但是NGSOC在整個冬奧賽事期間,運行一直很流暢。其次,NGSOC與奇安信全產品體系的接入,監控范圍覆蓋了云上和云下所有業務,平臺需完成所有的監測、分析、處置工作,與安全運營SOP進行緊密結合。此外,除了安全事件回溯外,平臺還可以回溯告警處置人員、處置過程、處置結果,告警評論功能,可以將每條告警的處置寫出結論,所有近似告警可以通過往期告警進行關聯,分析是否歷史出現和查看結論,從而快速分析研判,不需要重復走監控處置流程。
如果說冬奧安全運營中心是奇安信得以兌現“零事故”承諾背后的重要保障,那么安全運維和應急響應就是安全運營中心的保障。下一篇我們將進一步為大家介紹,關于冬奧安全運營中心的安全運維保障和應急響應保障背后的故事。