張真:AIOps六大技術難點與宜信運維的重大變革
原創【51CTO.com原創稿件】運維發展歷程與工業革命異曲同工,工業的三次革命分別是機械化、電氣化與信息化,運維則是原始手工、腳本與自動化工具。那么工業4.0悄然來臨的今天,智能化又將會給運維帶來哪些影響?AIOps早期是由Gartner提出,原義是基于算法的IT運維,隨實踐、反思和討論的不斷積累,對它的認知發生了一些變化。
隨著人工智能技術的發展,基于人工智能的IT運維越來越被普遍認可,所以AIOps如今被解讀為Artificial Intelligence for Operations。近日,宜信研發總監,接受了51CTO的采訪,核心圍繞AIOps技術難點,金融行業AIOps應用現狀與宜信運維的重大變革展開。
張真·宜信研發總監
什么如何理解AIOps?
要理解AIOps,首先要弄懂與DevOps之間的關系。張真表示,AIOps可以看成DevOps的高級階段,AIOps不是要完全取代成熟的DevOps工具鏈,而是給DevOps工具鏈裝上“大腦”,將人工決策驅動的運維過程轉型成系統自主決策驅動的過程,所以與DevOps工具鏈深度集成是落地AIOps的必由之路。
用一個形象的比喻,可以把AIOps看成運維的“鋼鐵俠”模式,系統不再是簡單的工具,而是像鋼鐵俠戰甲一樣可以協助甚至獨立自主的完成任務。
所以,AIOps其實就是將AI技術應用到IT運維領域,提升效率和創造現實價值的“工程化”過程。既然是AI的工程化過程,就需要務實的看待AI技術,需要選擇合適的AI技術去解決有效的運維場景,例如智能報警,智能巡檢,智能上線,智能自愈等等。
AIOps的六大技術難點
理解AIOps之后,我們來看看AIOps的技術難點。這部分,張真從六方面進行了闡述:
AI“工程化”的復雜性
目前,機器學習是AIOps的重要手段,其他還有自然語言處理,高級搜索,知識圖譜等,也需要綜合應用到這個領域,才能達成實際“工程化”的落地效果。換言之,把AIOps認為就是算法落地是片面的。
不僅如此,為了解決特定場景的問題,可能還要“借鑒”或“移植”其他領域的技術和方法,如宜信在實踐中從IoT領域受啟發創立的“微智能”方法,結合知識圖譜,建立微智能知識圖譜技術。
如何獲取高質量,高時效的監控數據
算法的運用是以數據為前提的,盡管經典監控架構已經可以覆蓋Metrics,Logging,Tracing三大類數據,但由于每種數據都是各自一套系統捕獲,歸集,存儲,使得數據的時效,對齊,品控的標準難以一致。
此外數據格式也可能差異很大,在經典大數據架構下,還要經過清洗,格式轉換,面對海量數據時,時效就會進一步下降。
多維度數據的關聯難度大
經典監控架構由于采集不統一,即便Metrics也可能來自不同的監控系統,例如面向網絡監控,面向主機監控,面向應用監控可能就是三套不同的系統,更不用說Logging,Tracing的數據,這就造成了多維度數據的關聯難度大。
除時效外,可實時關聯的數據是系統能夠“接近”甚至“達到”專業人員的任務決策能力的另一個關鍵。
機器學習模型的訓練困境
智能運維運用機器學習的重要目標之一就是能夠識別故障特征。但是運維SLA的目標是保證系統可用性99.9...%。這樣的矛盾造成故障在實際運行過程中盡管時有發生,但相對于機器學習需要的樣本實在是太少。
目前,宜信解決方案是建立一套與生產相同的仿真環境,它是樣本收集,也是訓練模型的場所,當然即便如此,也有仿真環境的局限性,有些場景也難以模擬。
如何實現運維場景的實時感知
運維的時效性也要求系統的感知足夠充分,這里不僅僅是監控數據,之所以運維人員比系統有更強的判斷力,在于他們掌握了更充分的運維場景的信息,例如他們清楚網絡架構,設備之間的關聯關系,物理機/虛擬機分布,應用關聯關系,應用技術棧,甚至業務用途等,它們是問題定位,根因分析,影響評估的基礎,所以這些信息也要能被實時感知起來,而這一塊在傳統監控中是缺失的。
遺留技術棧,混合架構增大復雜性
不管金融行業,還是其他行業,只要不是新企業,都面臨大量的遺留系統,它們在技術棧,架構上可能存在很大差異。因此對它們的感知,數據采集需要額外的投入。
另一方面,如果遺留系統還在不停的引入新的業務需求,會進一步引入新的復雜性。
AIOps于金融行業的應用現狀
當問及AIOps于金融行業的應用現狀如何,張真表示,智能運維目前是處于從初創走向成熟的階段,但其應用范圍還與行業特點相關,不同行業在運維模式上存在差異,這些差異會影響落地進展。金融行業還處于智能運維的早期試驗階段,這與金融行業的特點息息相關。
一方面,金融行業是傳統行業的代表,也包括互聯網金融企業,都需要嚴格落實合規,安全,法務,流程等,所以對智能運維帶來的新技術需要更長時間的適應;
另一方面,多數金融企業的基礎平臺,如監控,發布,CMDB,安全管控等,甚至包括支持金融業務的系統,建設已有很長時間,在技術棧,架構,部署,組織運作等層面都需面臨面向智能運維的轉型,這種轉型是帶有變革性的。
目前業內有切身痛點,同時又具備相關技術研發能力的企業會較早進入智能運維初級階段,宜信也是其中之一員。2017年9月,宜信開源了支撐AIOps的三大利器,也希望能夠促進AIOps在金融領域的發展。
宜信運維的重大變革
羅馬非一日建成,宜信運維也是從手工運維一次次變革,迭代到當下智能運維時代。宜信運維的重大變革大致可分為手工、自動化、DevOps工具鏈、基于全維監控移動化與智能運維五大階段。
手工運維時代
手工運維時代是人力+計算機腳本的模式,例如資產管理靠人工錄入,數據準確性完全依賴流程;應用打包依靠人工觸發,然后上傳到生產環境;應用部署依靠人工輸入命令或運行腳本完成;監控只能看到最基本的幾個指標;運維協作依賴于“人找人”等等,這個階段稱為“石器時代”。
自動化運維初期
自動化運維初期是人力+專業系統的模式,每一種專業系統覆蓋一個運維領域。例如建立了監控系統,提升了運維的監測效率;資產管理系統幫助提升資產管理的效率;持續集成系統幫助管理代碼,Build以及版本等;發布系統實現應用部署的遠程發布等等。
這個階段是運維的工業革命時代,效率被提升,同時也要注意到專業領域的系統其實是“割裂”的,人力依然是核心的驅動力。
DevOps工具鏈建設期
DevOps理念的發展以及相關開源工具幫助建設DevOps工具鏈,這個時期的明顯特征是通過DevOps工具鏈的建設從需求,開發,Build,測試,集成到發布/回滾的端到端流程被打通,開發,測試,運維的協作被較好的解決。
這個時期也伴隨了人員技能,團隊運作模式的轉型,例如功能測試人員逐步被自動化測試平臺取代,他們會轉型為測試平臺的研發和運維。開發人員不再只關注開發,借助自動化測試,CI/CD等可以實現自助式的測試,打包,上線/回滾,開始關注測試和運維過程。運維人員也不再只是被動接受工單,開始關注應用質量以及流程事件跟蹤。
當然,這個時期的監測,管控,安全,運維處理等還是依賴人力+專業系統的模式。
基于全維監控的移動化運維
這個階段還是自動化運維的范疇,但事實上宜信已經啟動了智能運維的建設,把它分為三個臺階:全維監控,全維關聯和全維智能。全維監控是基石,之所以強調全維,正是對前面難點中提到的“高質量,高時效的監控數據”和“運維場景的實時感知”的應對理念。
一方面,全維監控宜信重構了整個監控運維體系,使用統一監控系統采集Metrics,Logging,Tracing數據。同時在這個基礎上補充了Profiling(畫像)數據,它可以看成將用戶端到數據中心,以及數據中心內部的數字投影,這使得系統可以感知與人類相同甚至更加細粒度的“現實”場景。
另一方面,為了解放人員的“視野”,移動化運維模式也引入進來,這需要監控體系能夠支持這種工作模式,使包括業務,開發,測試,CI/CD,運維等所有人都可通過移動設備隨時監控,排障,甚至處理各種事件。
智能運維建設期
當前,宜信正處在智能運維建設階段,是人工智能技術的綜合應用時期。全維關聯,是將全維的監控數據和畫像數據完整的,高時效的關聯在一起。
一方面可以支持更快更好的自動化運維;另一方面,也夯實智能運維的第二個基石,使得系統可以全面地使用這些數據來實現協助甚至自主決策的運維。
在這個階段,任務機器人(AI-Mission Robot,也叫運維機器人)系統被建設起來,并初步具備了“智能”。同時,這個階段也促進了團隊運作方式的進一步轉型,從單鏈條的協作方式逐步轉向以系統為中心的多維協作,系統為所有人提供客觀的,統一的視圖,也為各種事件處理提供執行計劃、協助建議、甚至主動決策與實施。
張真表示,智能運維建階段是最具顛覆與飛躍性的迭代 ,目前已經在一些場景下落地:
- 如人可以通過各種渠道(微信,Web IM,各種IM)與任務機器人使用自然語言進行對話,用自然語言的形式下達目標,任務機器人會根據目標自主規劃如何達成這一目標;
- 如智能報警這個場景中,人可以通過自然語言向任務機器人訂閱報警,修正報警的參數,任務機器人也不是簡單將報警推送到交互渠道上,它會自動篩選/匯總報警事件,將真正有意義的報警事件推送給人;
- 如智能上線的場景中,人可以下達上線的系統,時間等目標信息,任務機器人一方面會按照與人的約定進行任務執行的規劃,也會在上線過程中遇到問題時,主動判斷是否要繼續,是否需要人的協助,是否要終止,轉而進入問題診斷;
- 如智能巡檢的場景中,任務機器人以自主驅動的模式,高頻率對成千上萬的應用實例進行異常檢測,問題定位,根因分析,影響評估,自愈執行,這個模式的目標就是完成初級到中級運維工程師的日常巡檢任務。
全維智能—宜信運維的未來規劃
當問及宜信運維的下一步規劃,張真表示,會很快迎來第六階段:全維智能。主要發力如下三方面:
不斷提高任務機器人的決策準確性。這里需要更多的數據積累,模型調試和整合,也需要嘗試更多的技術和方法,使得它的“智能”更加接近專業人員。
不斷提高任務機器人的學習能力。機器學習需要大量的訓練工作,目前“離線”訓練還是主流的方法,但是線上環境“千變萬化”,需要將這種“學習”逐步推向“線上”;此外,需要使用“更少”的數據獲得“更多”的判斷力,概括來說就是實現“小數據,大任務”的模式。這里看似矛盾,其實因為運維的時效要求,訓練數據越多自然效果越好,但是也意味著訓練時間越長,這也是一個更大的技術挑戰,。
不斷提高任務機器人的通用性。盡管宜信已經在一些場景下取得進展,但是還沒有覆蓋運維的所有場景,需要不斷發展新技術來適應更多的場景。更大一點說,不同行業的運維模式也是有差異的,如何通過一套系統的方法,甚至一套產品化的系統來應對不同行業的運維場景,也是一個挑戰。
張真老師,是5月18-19日,于北京·粵財JW萬豪酒店即將舉行的2018WOT全球軟件與運維技術峰會重量級嘉賓,分享的議題是“運維機器人之任務決策系統演進之路”,亮點內容內容搶先看:
首先,從總體分享UAVStack的智能研發/運維一體化路線藍圖,如前面提到,宜信智能化之路分為三個階段:從全維監控到全維關聯,最后到全維智能。
接著,分享運維機器人相關內容。運維機器人是全維關聯,全維智能兩個階段的核心,而其任務決策系統又是其“大腦”的“智能”重要組成之一。宜信運維機器人又叫任務機器人(AI-Mission-Robot),從類人行為上,它有兩種基本行為模式:任務驅動和自主驅動。
- 任務驅動是接受來自人的指示而采取行動;
- 自主驅動是人給定目標,它自主規劃達成目標的方案并采取行動。
無論是那種模式都依賴于任務決策系統。
議題會從宜信實踐出發,闡述任務決策系統的關鍵原理,架構演進,典型場景的應用剖析。
開發者可以從張真對任務機器人“大腦”聚焦和深入的剖析,從中獲得如下一些啟發:
- 從任務決策系統的架構演進,來共同探討任務機器人的“智能”是如何“被創造”。
- 從任務決策系統的“任務驅動”技術演進,來討論自然語言是如何被“映射”成一個系統的API并被準確執行。
- 從任務決策系統的“自主驅動”技術演進,來深入了解任務機器人是如何做到“發現問題,定位問題,分析問題”。
【本月排行TOP10】
- 張真:AIOps六大技術難點與宜信運維的重大變革
- 新炬網絡程永新:插上AI翅膀 運維平臺煥發出嶄新生命力
- 從SIEM&AI到SIEM@AI AI構建下一代企業安全大腦
- 基于線性網絡的語音合成說話人自適應
- 轉轉公司架構算法部孫玄:AI下的微服務架構
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】