云計(jì)算帶來(lái)了集約化、效率、彈性與業(yè)務(wù)敏捷的同時(shí),對(duì)云上運(yùn)維提出了前所未有的挑戰(zhàn)。如何面對(duì)新技術(shù)趨勢(shì)的挑戰(zhàn),構(gòu)建面向云時(shí)代的智能監(jiān)測(cè)平臺(tái),讓云上應(yīng)用獲得更好的保障,是如今擺在每一個(gè)企業(yè)面前的一道難題。
在日前的【T·Talk】系列活動(dòng)第八期中,51CTO內(nèi)容中心特別邀請(qǐng)到了乘云產(chǎn)品VP張懷鵬做客直播間,為大家分享打造云時(shí)代數(shù)字化觀測(cè)利器的經(jīng)驗(yàn)與思考。【T·Talk】也將本期精彩內(nèi)容進(jìn)行了整理,望諸君能夠有所收獲:
?
數(shù)字化轉(zhuǎn)型浪潮下的數(shù)字化運(yùn)營(yíng)痛點(diǎn)
數(shù)字化轉(zhuǎn)型與數(shù)字經(jīng)濟(jì)建設(shè)是當(dāng)前時(shí)代的大趨勢(shì),數(shù)字化轉(zhuǎn)型可以說(shuō)是人類歷史上的第四次工業(yè)革命。我們?nèi)粘5霓k公方式、支付方式、購(gòu)物方式,包括出行方式等,無(wú)時(shí)無(wú)刻不受到數(shù)字化的影響。簡(jiǎn)單來(lái)說(shuō),目前我們已經(jīng)由傳統(tǒng)的IT時(shí)代邁入了數(shù)字化DT的時(shí)代。
在數(shù)字化DT的時(shí)代,數(shù)字化轉(zhuǎn)型幾乎重新定義了當(dāng)前企業(yè)的業(yè)務(wù)以及業(yè)務(wù)體驗(yàn)的方式。但隨著各行業(yè)數(shù)字化轉(zhuǎn)型的不斷深入,越來(lái)越多的數(shù)字化應(yīng)用事故也開(kāi)始逐漸顯露。例如年初某省市的健康碼崩潰、核酸檢測(cè)系統(tǒng)異常等,都對(duì)社會(huì)面造成了非常大的影響。
據(jù)調(diào)查,目前60%的CEO認(rèn)為數(shù)字化轉(zhuǎn)型非常重要,企業(yè)也在這部分人群的帶領(lǐng)下大踏步地向數(shù)字化轉(zhuǎn)型和人工智能演進(jìn)。然而與此形成鮮明對(duì)比的是,95%的企業(yè)應(yīng)用并沒(méi)有得到有效的監(jiān)測(cè)與關(guān)注。
當(dāng)前數(shù)字化運(yùn)營(yíng)手段,大多都產(chǎn)生于傳統(tǒng)的數(shù)據(jù)中心時(shí)代,大量的工具或技術(shù)都沒(méi)有考慮到云計(jì)算的場(chǎng)景。隨著云計(jì)算的普及,信息化的場(chǎng)景發(fā)生了天翻地覆的變化。應(yīng)用本身的復(fù)雜性呈現(xiàn)爆炸式增長(zhǎng),分布式越來(lái)越多,依賴關(guān)系也越來(lái)越復(fù)雜,軟件迭代節(jié)奏也越來(lái)越快。在這樣的場(chǎng)景下,企業(yè)急需構(gòu)建面向DT時(shí)代的,基于業(yè)務(wù)和數(shù)據(jù)流的一套解決方案。
DT時(shí)代產(chǎn)生了太多新的技術(shù)、新的場(chǎng)景,例如目前熱度很高的云原生,云原生的要求加速了傳統(tǒng)運(yùn)維向應(yīng)用運(yùn)維的演進(jìn)。傳統(tǒng)場(chǎng)景存在大量基礎(chǔ)設(shè)施,但隨著業(yè)務(wù)上云,基礎(chǔ)設(shè)施都將托管給運(yùn)營(yíng)商或運(yùn)營(yíng)者,企業(yè)不再需要為傳統(tǒng)的機(jī)房管理、弱電管理、硬件的監(jiān)控、裸金屬的監(jiān)控、UPS配電及溫濕度煩惱。因此傳統(tǒng)的設(shè)備運(yùn)維也演變成了Site reliability以應(yīng)用為重心的運(yùn)維,企業(yè)對(duì)傳統(tǒng)運(yùn)維的投入將會(huì)變得越來(lái)越少。
目前來(lái)說(shuō),我們處在向智能化運(yùn)維轉(zhuǎn)型的階段?,F(xiàn)在需要做的是讓數(shù)字化運(yùn)維、IT運(yùn)維變得更輕、效率更快、成本的支出更少。運(yùn)維團(tuán)隊(duì)的精力需要集中在企業(yè)業(yè)務(wù)本身,業(yè)務(wù)才是運(yùn)維人員所需要關(guān)注的重點(diǎn)問(wèn)題。這些都會(huì)帶來(lái)對(duì)智能運(yùn)維的需求。
企業(yè)通往智能運(yùn)維的典型技術(shù)路徑
1、什么是智能運(yùn)維
關(guān)于智能運(yùn)維,F(xiàn)orrester和Gartner曾在報(bào)告中進(jìn)行過(guò)定義:AIOps是一套將AI和數(shù)據(jù)科學(xué)應(yīng)用于業(yè)務(wù)和運(yùn)維的數(shù)據(jù)領(lǐng)域,以建立關(guān)聯(lián),并能夠提供實(shí)時(shí)的規(guī)范性和預(yù)測(cè)性答案的軟件系統(tǒng)。AIOps可以是一套軟件系統(tǒng),因此它可以是一個(gè)落地的產(chǎn)品。AIOps能夠增強(qiáng)并部分取代傳統(tǒng)的主要的IT運(yùn)維的功能,包括可用性和性能監(jiān)控、事件關(guān)聯(lián)和分析、IT的服務(wù)管理和自動(dòng)化。
AIOps ,面向的是Operations,Operations是需要覆蓋觀測(cè)、管理與處置三方面。但目前業(yè)界整體水平更多的是聚焦在觀測(cè)層面。Forrester對(duì)此也給出了一個(gè)經(jīng)典的語(yǔ)句:AIOps承諾了更強(qiáng)的可觀察性和穩(wěn)定性。
Forrester認(rèn)為,當(dāng)前AIOps的一個(gè)核心價(jià)值,就是將事前能力增強(qiáng),提升和擴(kuò)展你的可觀測(cè)能力。
2、什么是可觀測(cè)性
觀測(cè)性最早誕生于控制理論中,指系統(tǒng)可以由外部輸出,推斷其內(nèi)部狀態(tài)的程度。在IT領(lǐng)域中,Gartner將可觀測(cè)性定義為軟件與系統(tǒng)的一種特性。具體指根據(jù)系統(tǒng)生成的遙測(cè)的數(shù)據(jù)來(lái)判定當(dāng)前系統(tǒng)的狀態(tài)以及系統(tǒng)情況,這種能力便是可觀測(cè)能力或稱可觀察能力。
?
為什么需要可觀測(cè)性?
傳統(tǒng)的監(jiān)控的技術(shù)和工具很難跟蹤當(dāng)前的越來(lái)越多的分布式架構(gòu)中的通信路徑和依賴關(guān)系,在云原生的場(chǎng)景或者在云端的場(chǎng)景,依賴關(guān)系非常復(fù)雜,不再像傳統(tǒng)很多的單體架構(gòu)的應(yīng)用一樣。而可觀察性能夠更好地控制復(fù)雜系統(tǒng),通過(guò)可觀察性三大數(shù)據(jù)支柱能夠非常直觀詳細(xì)地了解到復(fù)雜系統(tǒng)的方方面面。
可觀察性不僅只服務(wù)于運(yùn)維,還能夠服務(wù)于開(kāi)發(fā)部門、SRE部門、Support部門、市場(chǎng)部門與Business部門。因此如果能夠?qū)IOps和可觀察性融合為一體,打造出來(lái)一體化的平臺(tái),將會(huì)得到非常完美的產(chǎn)品,能夠一舉兩得。
3、企業(yè)通往智能運(yùn)維AIOps 的兩條典型技術(shù)路徑
企業(yè)通往IT智能運(yùn)維的兩條典型的技術(shù)路徑可以形象的歸納為“外掛AIOps”與“內(nèi)生AIOps”。外掛AIOps,通過(guò)旁路的方式將AIOps的平臺(tái)植入企業(yè)IT運(yùn)維的環(huán)境中。AIOps是一個(gè)獨(dú)立的算法平臺(tái),通過(guò)接入企業(yè)異源異構(gòu)的數(shù)據(jù),而后通過(guò)數(shù)據(jù)工程師梳理數(shù)據(jù)之間的依賴關(guān)系,并借助大數(shù)據(jù)處理技術(shù),實(shí)現(xiàn)項(xiàng)目制的交付。
內(nèi)生AIOps強(qiáng)調(diào)的是一體化的技術(shù)路線,通過(guò)內(nèi)生AIOps引擎,能夠?qū)崿F(xiàn)數(shù)據(jù)處理全流程的閉環(huán),不需要數(shù)據(jù)工程師參與。類似于快遞的流程,寄件人的物品相當(dāng)于數(shù)據(jù)。拿到數(shù)據(jù)后,由快遞員實(shí)行封裝、倉(cāng)儲(chǔ)、調(diào)度、運(yùn)輸?shù)炔僮?。但最終收件人收到的就是這個(gè)物品,中間的所有的處理環(huán)節(jié)是不需要寄件人和收件人去處理的。內(nèi)生AIOps強(qiáng)調(diào)這一能力,將AI的能力嵌入到一體化觀測(cè)平臺(tái)當(dāng)中。
技術(shù)實(shí)現(xiàn)上的差異:
外掛AIOps一般使用傳統(tǒng)的機(jī)器學(xué)習(xí)AI,這種技術(shù)本質(zhì)上是一種統(tǒng)計(jì)方法,將Metric、log、事件等信息進(jìn)行關(guān)聯(lián)分析,旨在降低告警的噪聲。通過(guò)機(jī)器學(xué)習(xí)AI,我們能夠獲得一組關(guān)聯(lián)告警。因此其需要一定的時(shí)間周期,一般來(lái)說(shuō)外掛AIOps需要人工或歷史記錄去提出一個(gè)推薦性或者可能性的根因。
同時(shí),外掛AIOps需要大量外部數(shù)據(jù)的依賴,外掛AIOps廠商通常只做算法平臺(tái)。數(shù)據(jù)的清洗、CMDB的實(shí)體間的依賴關(guān)系等等,都需要外部的數(shù)據(jù)。因此,想要落地外掛AIOps,需要企業(yè)的信息化運(yùn)維的體系建設(shè)非常成熟,需要有調(diào)用數(shù)據(jù)的前提、有APM的產(chǎn)品、且可觀察性得做的相對(duì)完善,才能去做外掛的AIOps。
內(nèi)生AIOps則提供了一個(gè)確定性的人工智能分析,將確定性的分析結(jié)果作為目標(biāo),也就是在問(wèn)題發(fā)生后,問(wèn)題發(fā)生原因的根因是確定性的,且是一個(gè)接近實(shí)時(shí)的結(jié)果。內(nèi)生AIOps維系了一張實(shí)時(shí)性非常高的矩陣式依賴關(guān)系地圖,這項(xiàng)技術(shù)不需要去依賴傳統(tǒng)靜態(tài)的CMDB,而是這張依賴關(guān)系地圖本身就相當(dāng)于一張實(shí)時(shí)的CMDB,能夠?qū)⒁蕾囮P(guān)系進(jìn)行實(shí)時(shí)的變化,借助內(nèi)生的關(guān)系實(shí)現(xiàn)了管理分析。
企業(yè)如何決策選擇適合自己的技術(shù)路徑?
在AIOps的落地層面,企業(yè)需要考慮的問(wèn)題也比較多。從企業(yè)管理者的角度來(lái)說(shuō),除了成本、團(tuán)隊(duì)等基礎(chǔ)問(wèn)題外,還需要考慮不同部門之間的平衡,以及成本、穩(wěn)定性和效率之間的平衡問(wèn)題。AIOps的目標(biāo),是既要解決問(wèn)題,還要合理地解決問(wèn)題。在保證成本的同時(shí),最大化地提高企業(yè)業(yè)務(wù)的穩(wěn)定性與效率。
在Forrester的一篇報(bào)告中提到,企業(yè)落地AIOps時(shí)有以下幾點(diǎn)關(guān)鍵能力需要著重思考:
- AIOps平臺(tái)與ITOM工具鏈?zhǔn)欠衲軌驘o(wú)縫集成,是否能高度實(shí)現(xiàn)自動(dòng)化的能力
- AIOps平臺(tái)非??粗卦鷶?shù)據(jù),原生數(shù)據(jù)包括云原生的依賴關(guān)系、云原生機(jī)器數(shù)據(jù)的信息
- 全服務(wù)的依賴關(guān)系的地圖的自動(dòng)化和全景的構(gòu)建
- AIOps的未來(lái)是智能化的觀測(cè)感知和自動(dòng)化的落地實(shí)踐
- 根因分析和事件補(bǔ)救計(jì)劃的自動(dòng)化程度
- 現(xiàn)代技術(shù)運(yùn)營(yíng)需要智能化和自動(dòng)化
從數(shù)據(jù)處流程上來(lái)看兩種技術(shù)路徑的差異:
傳統(tǒng)AIOps平臺(tái),也就是外掛AIOps平臺(tái)在數(shù)據(jù)處理過(guò)程當(dāng)中會(huì)使用到很多工具拼湊組裝,打造一套搖搖晃晃的大數(shù)據(jù)系統(tǒng)。如果發(fā)生工作人員的更換,則很有可能給新的交接者遺留大量的技術(shù)債務(wù)。
第一步的數(shù)據(jù)收集環(huán)節(jié),需要依賴大量開(kāi)源與商業(yè)工具。第二步將數(shù)據(jù)注入大數(shù)據(jù)平臺(tái)。第三步,人工梳理數(shù)據(jù)關(guān)系以及清洗數(shù)據(jù)。前三個(gè)步驟是非常耗時(shí)的。第四步,發(fā)現(xiàn)問(wèn)題、定位問(wèn)題,這一步AIOps廠商才會(huì)參與進(jìn)來(lái),廠商團(tuán)隊(duì)需要落地到客戶現(xiàn)場(chǎng)駐點(diǎn)按需打造。廠商會(huì)詢問(wèn)需求,并提供相應(yīng)服務(wù)。第五,構(gòu)建儀表盤。第六,系統(tǒng)的擴(kuò)展,隨著應(yīng)用系統(tǒng)的規(guī)模的擴(kuò)大,整個(gè)系統(tǒng)呈線性增長(zhǎng)。
整個(gè)流程中,數(shù)據(jù)工程師需要花費(fèi)將近80%的時(shí)間用來(lái)做數(shù)據(jù)的清洗、采集和組織,整個(gè)方案需要尖端的運(yùn)維領(lǐng)域人才,既要是運(yùn)維專家,還需要懂算法、懂開(kāi)發(fā)。本身AIOps是一套支撐的系統(tǒng),是用來(lái)解決問(wèn)題的,但外掛式AIOps很有可能會(huì)使運(yùn)維變得更重,需要一支專門的團(tuán)隊(duì)來(lái)維護(hù)AIOps平臺(tái)本身。
內(nèi)生AIOps的數(shù)據(jù)處理流程則非常簡(jiǎn)單,一個(gè)工具即可解決數(shù)據(jù)采集。且由其是一個(gè)高度商業(yè)化的產(chǎn)品,且具有開(kāi)箱即用的儀表盤能力,包括引擎等。因此后續(xù)的處理流程都是黑盒的,無(wú)需企業(yè)過(guò)多關(guān)心,也不需要業(yè)務(wù)工程師懂算法并具備SRE的技術(shù)水平。
同時(shí),內(nèi)生AIOps會(huì)隨著企業(yè)業(yè)務(wù)系統(tǒng)的規(guī)模的擴(kuò)展,呈非線性的增長(zhǎng)。包括用戶的團(tuán)隊(duì)以及產(chǎn)品的整個(gè)系統(tǒng),都是呈非線性增長(zhǎng)的。整個(gè)方案布置下來(lái)的話,企業(yè)只需要要安裝一個(gè)Agent,后續(xù)很多都是自動(dòng)化的能力。這使得企業(yè)的運(yùn)維人員能夠?qū)⒕劢蛊髽I(yè)自身的業(yè)務(wù)。
總結(jié):
業(yè)界需要新一代的軟件智能平臺(tái),能夠全覆蓋整個(gè)數(shù)據(jù)處理流程。將客戶想要的結(jié)果直接交付,而不是呈現(xiàn)原始數(shù)據(jù)??偟膩?lái)說(shuō),在外掛AIOps與內(nèi)生AIOps兩條技術(shù)路徑當(dāng)中,更推薦企業(yè)使用內(nèi)生的AIOps,其屬于智能運(yùn)維的新的范式。
?
內(nèi)生AIOps助力云原生運(yùn)維化繁為簡(jiǎn)
內(nèi)生AIOps平臺(tái)的目標(biāo)是構(gòu)建一個(gè)集AIOps和可觀察性于一體的一體化平臺(tái)。其需要具備觀測(cè)能力,且觀測(cè)能力要以應(yīng)用監(jiān)控為中心,應(yīng)用監(jiān)控才是面向最終用戶的現(xiàn)象層。同時(shí),還需集成基礎(chǔ)設(shè)施的監(jiān)控,包括云平臺(tái)的監(jiān)控以及黑盒的監(jiān)控。最后還需要具備面向前端的數(shù)字體驗(yàn)的能力。
新的AIOps平臺(tái)需要打造出持續(xù)的自動(dòng)化,從數(shù)據(jù)的接入到數(shù)據(jù)結(jié)果的輸出實(shí)現(xiàn)自動(dòng)化。需要具備事前能力,擁有預(yù)測(cè)與預(yù)警的能力。
新的AIOps平臺(tái)需要提供高階的可觀察性,并不只是把原始數(shù)據(jù)、原始零件展示給企業(yè),而是要關(guān)注現(xiàn)象、關(guān)注體驗(yàn),給出準(zhǔn)確結(jié)果,這樣才能盡可能地減少海量噪音對(duì)企業(yè)帶來(lái)的影響與干擾。
內(nèi)生AIOps的數(shù)據(jù)處理模型,有很多差異化的地方,比如在數(shù)據(jù)采集上面強(qiáng)調(diào)一個(gè)Agent的能力。在數(shù)據(jù)處理上面,我們強(qiáng)調(diào)指標(biāo)體系,指標(biāo)體系的構(gòu)建和傳統(tǒng)的方式有所不同,我們強(qiáng)調(diào)內(nèi)生AIOps內(nèi)生于一體化平臺(tái)。
內(nèi)生AIOps平臺(tái)主要會(huì)從以下五個(gè)方面幫助云原生運(yùn)維實(shí)現(xiàn)化繁為簡(jiǎn):
- 內(nèi)生AIOps平臺(tái)能夠直接獲取優(yōu)質(zhì)的觀測(cè)數(shù)據(jù)
- 能夠打造持續(xù)的自動(dòng)化能力,對(duì)于運(yùn)維來(lái)說(shuō),工作效率會(huì)更高
- 平臺(tái)能夠構(gòu)建一個(gè)實(shí)時(shí)的矩陣式的拓?fù)?,按圖索驥
- 能夠即時(shí)輸出影響面分析
- 直指根因,見(jiàn)證成果
1、直接獲取優(yōu)質(zhì)的觀測(cè)數(shù)據(jù)
首先,直接獲取優(yōu)質(zhì)的監(jiān)測(cè)數(shù)據(jù)。一句比較經(jīng)典的總結(jié)是“高質(zhì)量的觀測(cè)來(lái)源于高質(zhì)量的遙測(cè)”,高質(zhì)量的后端的分析一定要求高質(zhì)量的前端的遙測(cè)數(shù)據(jù)的產(chǎn)生。可觀察性關(guān)注三大支柱,如果要做高階的可觀測(cè)性、內(nèi)生的AIOps分析,需要五大支柱,除了傳統(tǒng)的追蹤數(shù)據(jù)、指標(biāo)、日志數(shù)據(jù),還需要非常關(guān)鍵的拓?fù)鋽?shù)據(jù)與代碼數(shù)據(jù),數(shù)據(jù)的質(zhì)量能夠直接決定模型的上限。
直接獲取優(yōu)質(zhì)的監(jiān)測(cè)數(shù)據(jù),這些數(shù)據(jù)一定是實(shí)現(xiàn)非侵入式的、自動(dòng)化的采集,不用修改源代碼、業(yè)務(wù)與應(yīng)用,且能夠?qū)崿F(xiàn)上下文信息和自動(dòng)化的結(jié)合。上下文信息能夠輔助實(shí)現(xiàn)真正的根因分析,能夠幫助根因分析提取高保真的背景的信息,能夠幫助平臺(tái)構(gòu)建實(shí)時(shí)的服務(wù)流圖和拓?fù)鋱D,進(jìn)行依賴關(guān)系。包括矩陣式的關(guān)系拓?fù)涞募夹g(shù),這些上下文信息也是非常關(guān)鍵的。
拓?fù)鋱D,主要展示整個(gè)應(yīng)用環(huán)境的依賴關(guān)系,包括垂直的堆棧和水平的堆棧。服務(wù)流圖是從一個(gè)服務(wù)或請(qǐng)求的維度去提供整個(gè)交易的視圖,通過(guò)服務(wù)流圖和拓?fù)鋱D,可以說(shuō)明服務(wù)之間調(diào)用的序列。服務(wù)流圖顯示的是交易的整個(gè)分布的序列,是有序的,而拓?fù)鋱D則是更高級(jí)的抽象,顯示的是依賴關(guān)系等。
直接獲取優(yōu)質(zhì)的監(jiān)測(cè)關(guān)系需要用到商業(yè)化的Agent的技術(shù),雖然目前市面上已經(jīng)有許多開(kāi)源的工具或者免費(fèi)的工具,但商業(yè)化Agent技術(shù)有著以下幾個(gè)開(kāi)源工具所不具備的優(yōu)勢(shì)。
- 采集的代理探針的穩(wěn)定性、安全性和可靠性有保障
- 探針對(duì)宿主機(jī)、對(duì)于核心業(yè)務(wù)的資源開(kāi)銷、性能影響有保障
- 部署和插裝,包括變更,能夠更少地使用手工操作
- 監(jiān)測(cè)能自動(dòng)植入到動(dòng)態(tài)的方法或者容器類的這些組件當(dāng)中
- 各種指標(biāo)采樣精細(xì),原生高保真
- 有足夠的信息和上下文可供建立一個(gè)統(tǒng)一的數(shù)據(jù)模型
以上優(yōu)勢(shì)是很多免費(fèi)的工具不具備的。內(nèi)生AIOps平臺(tái)依賴于One Agent技術(shù),Agent擁有邊緣計(jì)算的設(shè)計(jì),在邊端端點(diǎn)上做了很多數(shù)據(jù)的聚合、數(shù)據(jù)的清洗的工作。
2、打造持續(xù)自動(dòng)化
內(nèi)生AIOps平臺(tái)的能力,旨在構(gòu)建持續(xù)的自動(dòng)化。監(jiān)測(cè)復(fù)雜的云原生環(huán)境,一定離不開(kāi)自動(dòng)化。包括自動(dòng)化的部署、自動(dòng)化的適配、自動(dòng)化的發(fā)現(xiàn)、監(jiān)控、注入、清洗等一系列自動(dòng)化。在復(fù)雜的云原生環(huán)境當(dāng)中,憑人力是難以了解這些端到端的業(yè)務(wù)的,所以需要用高度的自動(dòng)化能力來(lái)作為輔助工具,去輔助自動(dòng)運(yùn)維。
3、構(gòu)建實(shí)時(shí)矩陣式關(guān)系地圖
內(nèi)生AIOps平臺(tái)能夠構(gòu)建實(shí)時(shí)矩陣式的拓?fù)?。能夠按圖索驥,看到圖紙當(dāng)中水平方向,比如服務(wù)層的依賴關(guān)系圖,還有容器層、主機(jī)層、進(jìn)程級(jí)等。垂直向則是服務(wù)是跑在什么容器上,這個(gè)容器對(duì)應(yīng)的是哪一個(gè)進(jìn)程,這個(gè)進(jìn)程是落在哪一個(gè)云主機(jī)上面。
4、即時(shí)輸出影響面分析
輸出影響面分析則相當(dāng)于網(wǎng)絡(luò)安全的思維,在運(yùn)維當(dāng)中也是一樣。系統(tǒng)出現(xiàn)了故障或異常,其影響面有哪些,會(huì)影響哪些用戶、會(huì)影響哪些服務(wù)、影響哪些應(yīng)用,其根本原因是什么。通過(guò)自動(dòng)化的手段和技術(shù),把結(jié)果輸出給用戶,并不需要運(yùn)維人員人工分析。
5、直指根因,見(jiàn)證成果
最后,自動(dòng)化運(yùn)維非常重要的能力,就是直指根因,見(jiàn)證成果。傳統(tǒng)的技術(shù)需要基于知識(shí)庫(kù)、基于CMDB、基于因果推斷不同的方法,而AIOps則提供內(nèi)生型根因定位。其能夠打通數(shù)據(jù)依賴關(guān)系,除了對(duì)象間的依賴關(guān)系,還可以打通不同數(shù)據(jù)類型間的依賴關(guān)系,比如調(diào)用鏈、日志、指標(biāo)間的依賴關(guān)系。其提供的是一個(gè)實(shí)時(shí)的根因定位,具有高度的適應(yīng)性,在低開(kāi)銷的同時(shí),準(zhǔn)確率非常高。而且具備無(wú)監(jiān)督的技術(shù),不需要過(guò)多的人工輔助去實(shí)現(xiàn)這些能力的交付。
總結(jié)
企業(yè)若想數(shù)字化轉(zhuǎn)型成功,需要做到所有的應(yīng)用、數(shù)字化服務(wù)以及支撐其運(yùn)行的動(dòng)態(tài)多重云平臺(tái)都能完美地工作,而且要每時(shí)每刻做到這一點(diǎn)。
這些高度動(dòng)態(tài)化、分布式的云原生技術(shù),與傳統(tǒng)的場(chǎng)景截然不同。這導(dǎo)致由微服務(wù)、容器及軟件定義云基礎(chǔ)設(shè)施所帶來(lái)的復(fù)雜性在當(dāng)前一發(fā)不可收拾。這些復(fù)雜性超越了團(tuán)隊(duì)管理能力的極限,并且還在不斷擴(kuò)大。要想隨時(shí)了解在這些瞬息萬(wàn)變的環(huán)境中所發(fā)生的的一切,就必須提升可觀測(cè)與智能運(yùn)維能力。
我們需要借助高度的自動(dòng)化與智能化技術(shù),讓云原生運(yùn)維變得更輕、效率更快、成本的支出更少,讓企業(yè)團(tuán)隊(duì)的精力需要集中在企業(yè)業(yè)務(wù)本身,真正的邁向智能化運(yùn)維時(shí)代。
?
嘉賓介紹
張懷鵬,乘云產(chǎn)品VP。2017年加入杭州乘云數(shù)字技術(shù)有限公司,負(fù)責(zé)【DataBuff 一體化觀測(cè)與智能運(yùn)維】產(chǎn)品線日常管理,擔(dān)任IPD集成產(chǎn)品開(kāi)發(fā)團(tuán)隊(duì)經(jīng)理,參與市場(chǎng)管理、需求分析、團(tuán)隊(duì)協(xié)同、流程結(jié)構(gòu)化、質(zhì)量控制等工作。