從技術運營中臺建設到AIOps實踐,看著一篇就夠了
作者簡介:
朱世翔,北京移動信息系統部技術運維中臺產品經理、系統運維組主管。
具備較豐富的運營上部域系統一線運維管理經驗,今年帶領團隊進行技術運營能力的建設,初步完成了北京移動業務支撐系統運維能力自動化、智能化轉型。目前致力于AIOps和運維中臺體系實踐、運維開發團隊構建和管理。
文章目錄:
- 背景介紹
- 技術運營中臺
- 技術運營實踐
- AIOps 探索
- 未來展望
一、背景介紹
5G商用啟動開始,三大運營商正式推出了5G套餐,5G是下一代通信技術,那么5G時代來了之后同樣需要下一代運維。
我們就對下一代運維是怎么理解呢?其實當 5G 來了之后,我們理解是有兩個新的要求:第一,我們面臨的一些場景會變得復雜化,對原有運維能力的要求也更高了。第二,5G 來了之后運維邊界也是不斷拓展的。
第一點怎么理解呢?大家可以思考一個問題,我們運營商和互聯網行業、金融行業核心提供業務形態是不一樣的。
比如,一個電商企業提供了業務形態把產品賣好,可以在網站上完成購物,金融行業是圍繞錢提供一些服務,我們的運營商核心服務形態是資源,包括語音、流量等,這個業務形態有什么樣的特點呢?流量和資源服務每時每刻都在不斷變化的,所以在這個過程當中給客戶提供一些什么樣的運營服務呢?會有例如流量提醒等。
我們的團隊會做一些流量及時性保障,這是我們的運維核心工作之一。我們原來的東西是在變化的,因為 5G 已經變化更快了,要保障客戶進行實時提醒的難度在增大,要求更高。
第二,運維的邊界要進行拓展。那么,拓展方面的是什么挑戰呢?
第二個挑戰是提供端到端服務時,沒有辦法提供端到端的運維保障服務。舉個例子,有一天用戶手機正常時沒有辦法上網是什么情況呢?有可能是IT系統的計費出錯了,導致停機了沒有辦法上網了,有可能是網絡設備故障導致沒有網絡信號了,導致無法上網。
我們傳統運維響應特點就是各查各的,整個核查過程是比較長的,同時效率是比較低的,反映不及時,就會帶來不好的用戶體驗感。
第三個挑戰,我們是如何看待運維技術的發展和升級呢?實際上我們理解運維能力升級更新圍繞運維對象的技術變化而發生變化的,隨著運維對象引入云計算、容器等,導致運維技術和要求需要隨之迭代升級。
基于 5G 時代到來這么一個很好的切入點和我們傳統運維面臨的挑戰,最后匯總到一起可以讓技術運營中臺,打通整個全領域的運維能力。
二、技術運營中臺
什么是技術運營中臺?其實分為技術運營+中臺。
簡單來說,技術運營不僅關注傳統運營團體理解的系統穩定、系統安全等指標,還會從運營角度去關注效率、客戶體驗等指標。
那么我們對中臺理解是什么的呢?
第一,企業級是很關鍵的,如果你是一個小的團隊,你自己做一個中臺是沒有意義的。前臺是比較輕,中臺比較重,后臺是賦能的,所以企業級是很重要的,你現在是給企業里面的所有的應用團隊和業務團隊使用你的中臺。
在5G時代條件下,我們的中臺要面向B域、M域和O域,就是我們的網絡、IT系統等全局來考慮問題。
第二,能力是中臺主要承載的的對象,要從業務中抽離出來,梳理技術運營的公共能力。
第三,復用是中臺的核心價值,要去重早復用對比平臺更細粒度的抽離。
舉個簡單例子,其實我們的能力是不止這些的,在以前流程有一個業務平臺,用戶管理有一個平臺,流量管理有一個,他們都在不同平臺對數據進行采集、傳輸、檢測、管理,這些冗余都是重復的。
第二,他們在能力開放平臺去做一些場景運維分析,比如說這個能力時長、調動量、成功率是不是滿足要求,如果不能滿足要求要及時提出,去通知后端系統和能力去進行改進。
三、技術運營實踐
我們基于生態能力做了很多實踐場景,這些都基于中臺能力做了場景化。
我們現在做了一些簡單場景的東西,因為拓撲是從資源盤點來進行研究的。如果你想用好CMDB必須要流量和數據支撐,怎么保障數據是準確和穩定的呢?CMDB有兩個來源渠道:第一,我們每個月變更次數是在1萬次,你沒有辦法靠人工去做準確性,我們后面會講到監控,這是基于監控平臺做的,我們都會抓過來同步過來。
第二,CMDB自己有自發現平臺能力這個也會獨立采集到系統運行的數據,我們會對不同信源進行一個稽核,基于稽核結果有一個分析和更新算法,來保證數據是更新的。
第二塊講一下系統穩定性保障,這塊其實是核心,在每個核心環節都有自己的痛點和思考。穩定性保障圍繞核心就是 CMDB,也就是要做好異常發現、分析定位、操作恢復。
在異常發現做了一個監控體系,就是運營對象、規范指標定義和指標體系落地。我們的指標有內存運用率、處理時長等指標,這樣的對于加指標是一個標準化清單。比如說,請求總量的屬性包括采集頻率、采集數據值是什么單位。
還有一個是閾值,我們把所有傳統的指標基于自己的理解來做,像服務器CPU的值,我們定了一個標準化的東西,形成了一個清單。
第二,數據質量治理精細化。我們會發現系統里面哪些對象沒有進行監控,我們在運維生產過程當中發現100臺主機可能監控上了,但是其中80臺可能沒有完整的監控指標,那么其中一臺主機的內存率高的時候是沒有辦法發現異常的,所以從對象細化到了指標級別。我不僅僅要看每臺主機是不是上去了,還要是不是黃金指標,如果差一個就是不完整的,把我們監控點集合的顆粒度精細變成了指標級別。
監控是有體系、編碼、閾值的,你所有監控動作都是圍繞運行數據來做的,如果數據采集之后就是原數據的組成部分,就會形成很標準的運維數據,我們都是基于這個數據來做細分。
第三,團隊轉型賦能化。以前監控團隊是一個被動響應過程,我也不知道你是不是全了呢?當做了監控體系之后就會變成主控團隊,你上線時提出說要95臺,我要基于CMDB看是不是這么多?如果不是的話就不讓你上線。
第四,全鏈路監控。傳統的開源的APM產品是基于后端鏈路抓出來的,我們實現了業務端到端的全鏈路監控,既然到了業務就到用戶體驗的頁面,其實這個技術復雜性不難,但是是一個問題管理場景的思路體現。這樣做完之后形成什么好處呢?我能看到業務從最開始的環節到最后環節的流轉過程,這樣就會帶來一些運維改造。
你怎么讓開發配合改造呢?
第六,運維小秘賦能。我們在處理故障時會有一個故障應急響應微信群,領導、業務人員和不同故障人員會把好多信息發進去。我們會把一個小秘機器人實現了同步,當突發故障報時需要收集信息,運維小秘會自動匯總信息,它只要判斷有故障就可以直接匯總。當一二三線處理時會涉及到流轉問題,那時運維小秘就會直接進行處理,然后在復盤環節就會形成報告了。
第八,智能根因分析。之前看過一個廣發證券分享的主題,你的數據很多,但是你數據組合形式、展示內容對故障處理效率是有很大影響的。
這張圖左邊統計分析都不是AI過程,不是智能過程,這樣展現之后從故障影響范圍、故障的原因層層遞進,就可以很清楚直觀看到故障的原因是什么,現在是什么情況。這張圖把傳統信息和智能分析過程放在一起形成一個完整的視圖,就會帶來一個“1+1大于2”的結果。
第九,操作恢復是平臺級的支撐。我們變成了原子化組件來支撐場景,我們在故障分析、復盤時軌跡恢復是非常重要的。
四、AIOps 探索
比如說,我們在做第一次調適時,把算法調優了,指標就會很好。如果下次有新的指標就可以直接復用,因為你根據周期性做了調優,所以就會直接有比較好的效果。如果同樣的算法用原始算法做了指標,你算的指標和復用指標是不一樣的。
今天上午浙江移動提出了學件可視化過程,在我們這邊整個學件制作過程也是有可視化的,你要有一個數據員源,你還要配置指標,再進行算法訓練、最終實現復用。
異常檢測分析。我們在這里面做了算法應用、實踐效果、根因分析。我們首先會基于拓撲拿到異常現象先做一個確定范圍再做系統分析,同時把一些非告警的資源指標做多元分析,最后匯總之后計算出來一個列表。
五、未來展望
5G時代,5G本身技術的生態圈在不斷拓展,對于我們的運維團隊在5G時代,當5G給傳統行業或者創造新生行業時,新覆蓋行業同樣需要系統運維和技術運營。
盡管這些行業的商業和運行模式可能是千差萬別的,但是核心能力永遠不變,所以還是說中臺如果是在適配過程當中,基于中臺所有的不同行業進行賦能,把最核心不變的東西保持下來進行支撐。
這是我們今年剛剛建立起來的中臺,我們對未來的演進模式有一些思考。
第一,服務運營。隨著生態圈的擴大,可以提供更多場景,場景是可以千變萬化,中臺是以不變應萬變的過程,需要去沉淀更多共性的運維能力。第二,中臺運營。
參照主流技術的發展,當我們的容器技術出現之后,K8S等容器管控平臺逐步發展起來,這些平臺本身有自己的管理、調度等節點,就可以實現對容器和資源的靈活調動。