監(jiān)控和智能運(yùn)維助力DevOps平臺(tái)建設(shè)
譯文DevOps平臺(tái)的作用日趨重要,尤其是在通過DevOps模型執(zhí)行軟件交付的時(shí)候。DevOps平臺(tái)以開發(fā)者為中心,面向多租戶提供自助服務(wù),同時(shí)是多云戰(zhàn)略的重要組成部分。它為開發(fā)者提供指引、標(biāo)準(zhǔn)化工具和技術(shù),以便輕松的構(gòu)建、測(cè)試和迭代產(chǎn)品。然而,在建立DevOps模型時(shí),彈性擴(kuò)展是一個(gè)不容忽視的核心功能。
DevOps將單一產(chǎn)品分解為更小但有價(jià)值的組件,這些組件可以作為獨(dú)立云服務(wù)進(jìn)行交付。一旦建立基于此模型的交付團(tuán)隊(duì),它將以SLA(Service Level Agreements,服務(wù)等級(jí)協(xié)議)的形式提供服務(wù)。為了實(shí)現(xiàn)這些要求,必須建立健全的監(jiān)控和告警實(shí)踐。與其他任何DevOps實(shí)踐一樣,自動(dòng)化運(yùn)維是終極目標(biāo)。但是,當(dāng)面對(duì)監(jiān)控和告警信息時(shí),AIOps平臺(tái)則是黃金標(biāo)準(zhǔn)。
平臺(tái)價(jià)值
如果沒有AIOps平臺(tái),告警信息和事件數(shù)量可能會(huì)迅速失控。如何識(shí)別并關(guān)聯(lián)來自不同系統(tǒng)的告警信息,特別是來自獨(dú)立系統(tǒng)或團(tuán)隊(duì)的告警信息,同樣是亟待解決的問題。至關(guān)重要的是,在問題事件發(fā)展到很嚴(yán)重之前,沒有內(nèi)置的智能程序可以協(xié)助預(yù)測(cè)并識(shí)別問題,因此像機(jī)器學(xué)習(xí)這樣的高級(jí)工具和技術(shù)是無法進(jìn)行自我修復(fù)的。
為了確保構(gòu)建有效的AIOps平臺(tái),必須深入理解監(jiān)控?cái)?shù)據(jù)。對(duì)致力于實(shí)現(xiàn)AIOps目標(biāo)的DevOps工程師來說,創(chuàng)建可以對(duì)告警信息進(jìn)行優(yōu)先級(jí)排序,并將結(jié)果傳遞至高級(jí)修復(fù)工具中的監(jiān)控平臺(tái)是非常必要的。P1(Priority 1,優(yōu)先級(jí)1)事件總是需要立即響應(yīng),但是P1級(jí)別的事件很少。對(duì)于客戶來說,更常見的是低級(jí)別事件。然而,跨系統(tǒng)的低級(jí)別事件碰到一起,很可能會(huì)導(dǎo)致嚴(yán)重的問題。理解和響應(yīng)這些需求,并關(guān)聯(lián)不同系統(tǒng)的告警信息,需要建立健全的監(jiān)控系統(tǒng)。
如果想要這些修復(fù)措施產(chǎn)生效果,就需要建立事件之間的關(guān)聯(lián)關(guān)系,而這些關(guān)聯(lián)關(guān)系需要依據(jù)規(guī)則庫(kù)建立,并通過自動(dòng)化工具進(jìn)行管理。需要明確的是,先進(jìn)的監(jiān)控系統(tǒng)會(huì)提供更多的告警信息,因此監(jiān)控的擴(kuò)展能力將變得很重要。這就是云原生DevOps平臺(tái)最有價(jià)值的部分,因?yàn)樗峁┝擞行У姆椒ǎ钥焖俟芾聿粩嘣鲩L(zhǎng)的數(shù)據(jù)量。
“左移”和“右移”
要轉(zhuǎn)向AIOps模型,需要對(duì)實(shí)踐和工具的左移和右移進(jìn)行組合并實(shí)施。這意味著在開發(fā)階段的早期,就需要結(jié)合來自產(chǎn)品線持續(xù)的反饋,優(yōu)先考慮監(jiān)控。一旦在此模型下大規(guī)模管理監(jiān)控和告警信息,就可以通過AIOps平臺(tái)來利用機(jī)器學(xué)習(xí)和其他先進(jìn)分析技術(shù)將這些任務(wù)自動(dòng)化管理,進(jìn)而獲得更積極、有效和動(dòng)態(tài)的觀測(cè)和修復(fù)能力。最終,通過滿足服務(wù)等級(jí)目標(biāo)、改進(jìn)交付體驗(yàn)和提升客戶滿意度,公司將更具彈性。
如果沒有AIOps平臺(tái),修復(fù)措施將需要不同領(lǐng)域(從云基礎(chǔ)設(shè)施到應(yīng)用系統(tǒng)架構(gòu))的專家共同開會(huì),以確定事件的根本原因,這將消耗大量的時(shí)間和資源。AIOps平臺(tái)可以確保在P1事件發(fā)生時(shí)將關(guān)聯(lián)告警信息立即通報(bào)相關(guān)領(lǐng)域?qū)<遥瑥亩鴾p少服務(wù)中斷時(shí)間,并采取有針對(duì)性的補(bǔ)救措施。
提升開發(fā)者和用戶體驗(yàn)
如果服務(wù)提供商希望建立先進(jìn)的DevOps生態(tài),AIOps是必不可少的。它可為開發(fā)者提供安全的CI/CD管道,為產(chǎn)品變更提供有效保障。由于產(chǎn)品質(zhì)量驗(yàn)證是自動(dòng)化的,因此這進(jìn)一步提高了企業(yè)的“右移”能力。這一舉措自然減輕了開發(fā)者在質(zhì)量管理方面的負(fù)擔(dān),也減少了同行評(píng)審的要求。因?yàn)閼?yīng)用程序和功能特性可以安全的快速迭代,同時(shí)服務(wù)可用性也得到持續(xù)維護(hù)和優(yōu)化,因此AIOps模型同樣提升了客戶滿意度。
研究表明,大多數(shù)事件(74%)發(fā)生時(shí)客戶是先于支持團(tuán)隊(duì)發(fā)現(xiàn)問題的。66%的現(xiàn)有監(jiān)控解決方案僅僅識(shí)別了不足一半的性能故障或中斷問題,而且隨著IT系統(tǒng)(特別是由云服務(wù)引起的)復(fù)雜性增強(qiáng),將會(huì)導(dǎo)致更多的中斷問題發(fā)生。當(dāng)這些問題逐漸暴露,向更加智能的解決方案靠攏,自然是非常清晰且迫切的需求。現(xiàn)在的客戶不僅希望服務(wù)提供商的服務(wù)可用性水平幾近百分百,同時(shí)還要求服務(wù)表現(xiàn)可視化。
監(jiān)控平臺(tái)可以通過先進(jìn)的報(bào)表和數(shù)據(jù)工具提供可視化服務(wù),從而輕松的創(chuàng)建多用途的儀表板(儀表數(shù)據(jù)展示界面)。這些數(shù)據(jù)同樣可以被DevOps工程師用來創(chuàng)建自我修復(fù)的工作流,這些工作流可以被內(nèi)嵌在AIOps平臺(tái),進(jìn)一步提升開發(fā)人員體驗(yàn)。
在構(gòu)建DevOps平臺(tái)時(shí),DevOps工程師的最終目標(biāo)是開發(fā)一個(gè)為開發(fā)人員量身定制的環(huán)境。減少開發(fā)人員在實(shí)現(xiàn)各種操作(例如安全、測(cè)試和監(jiān)控功能)中花費(fèi)的時(shí)間,讓他們可以專注提升交付服務(wù),為開發(fā)人員和客戶創(chuàng)造更好的體驗(yàn)。通過AIOps平臺(tái)將自動(dòng)化引入修復(fù)任務(wù),可大大降低生產(chǎn)階段報(bào)錯(cuò)的可能。這就是所有服務(wù)提供商在其DevOps戰(zhàn)略中所追求的目標(biāo)模型。
譯者介紹
仇凱,51CTO社區(qū)編輯,目前就職于北京宅急送快運(yùn)股份有限公司,職位為信息安全工程師。主要負(fù)責(zé)公司信息安全規(guī)劃和建設(shè)(等保,ISO27001),日常主要工作內(nèi)容為安全方案制定和落地、內(nèi)部安全審計(jì)和風(fēng)險(xiǎn)評(píng)估以及管理。
原文標(biāo)題:How Monitoring and AIOps Delivers the Ultimate DevOps Platform,作者:Prashant Jain