成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一份優(yōu)秀的設(shè)計(jì)參考:備份系統(tǒng)運(yùn)行數(shù)據(jù)收集及分析方法

存儲(chǔ) 數(shù)據(jù)管理
數(shù)據(jù)備份是為應(yīng)對(duì)潛在的數(shù)據(jù)丟失風(fēng)險(xiǎn),而將業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)加以復(fù)制并轉(zhuǎn)儲(chǔ)到備份存儲(chǔ)的工作。為統(tǒng)一調(diào)度不同的數(shù)據(jù)備份作業(yè),集成管理數(shù)據(jù)備份服務(wù)器以及不同類型的備份存儲(chǔ)介質(zhì),企業(yè)需要規(guī)劃建設(shè)與業(yè)務(wù)系統(tǒng)架構(gòu)相適應(yīng)的數(shù)據(jù)備份系統(tǒng)。

前言

信息系統(tǒng)的運(yùn)行雖然遵循一定的運(yùn)行規(guī)律,但也呈現(xiàn)出動(dòng)態(tài)的、易干擾、難以預(yù)測(cè)的特征。對(duì)于 IT 系統(tǒng)運(yùn)維人員來說,我們最關(guān)注的是系統(tǒng)的穩(wěn)定運(yùn)行,有時(shí)會(huì)過于擔(dān)憂系統(tǒng)的運(yùn)行風(fēng)險(xiǎn),有時(shí)也對(duì)某些運(yùn)行中的風(fēng)險(xiǎn)麻痹大意,甚至在面對(duì)潛在的、未知的故障時(shí),還會(huì)十分恐慌??謶衷从谖粗?, IT 運(yùn)維人員需要克服這種恐懼,讓運(yùn)維從容不迫。本文將從個(gè)人運(yùn)維實(shí)踐經(jīng)驗(yàn)出發(fā),研究設(shè)計(jì)備份系統(tǒng)運(yùn)行數(shù)據(jù)采集及分析方法,從而能更加洞察系統(tǒng)的運(yùn)行規(guī)律,希望對(duì)同行有一定的借鑒和參考價(jià)值。

1. 需求?

數(shù)據(jù)備份是為應(yīng)對(duì)潛在的數(shù)據(jù)丟失風(fēng)險(xiǎn),而將業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)加以復(fù)制并轉(zhuǎn)儲(chǔ)到備份存儲(chǔ)的工作。為統(tǒng)一調(diào)度不同的數(shù)據(jù)備份作業(yè),集成管理數(shù)據(jù)備份服務(wù)器以及不同類型的備份存儲(chǔ)介質(zhì),企業(yè)需要規(guī)劃建設(shè)與業(yè)務(wù)系統(tǒng)架構(gòu)相適應(yīng)的數(shù)據(jù)備份系統(tǒng)。

作為數(shù)據(jù)安全的一道重要防線,穩(wěn)定運(yùn)行的數(shù)據(jù)備份系統(tǒng)是至關(guān)重要的。備份系統(tǒng)運(yùn)維側(cè)重于關(guān)注備份作業(yè)是否出現(xiàn)報(bào)錯(cuò),備份存儲(chǔ)是否存在異常,出現(xiàn)異?;蚬收蠒r(shí)如何去排查、分析、干預(yù)等方面?;趥浞菹到y(tǒng)運(yùn)行數(shù)據(jù)的收集及分析,來構(gòu)建備份系統(tǒng)較全面的數(shù)字模型,主要用于解決以下三個(gè)痛點(diǎn):

缺乏有效的故障預(yù)警:粗粒度、滯后性的運(yùn)維方式增加了備份系統(tǒng)的故障率,進(jìn)而影響了備份作業(yè)的成功率。

故障溯源困難:故障會(huì)導(dǎo)致運(yùn)行錯(cuò)誤,故障分析定位的過程則是從運(yùn)行錯(cuò)誤回溯到故障,找出錯(cuò)誤源頭,這也是傳統(tǒng)運(yùn)維方式的痛點(diǎn)之一。

系統(tǒng)管控能力不足:備份系統(tǒng) 不同于一般的業(yè)務(wù)系統(tǒng),往往會(huì)忽略了運(yùn)維的過程管理,包括配置管理、變更管理、容量管理等。如果系統(tǒng)管控能力不足,會(huì)大大增加運(yùn)維風(fēng)險(xiǎn),嚴(yán)重影響系統(tǒng)的穩(wěn)定運(yùn)行。

2. 設(shè)計(jì)策略

部分大數(shù)據(jù)、智能化運(yùn)維項(xiàng)目更注重于形,即先搭平臺(tái),數(shù)據(jù)收集起來,再慢慢看能做什么樣的數(shù)據(jù)分析和應(yīng)用。這樣的設(shè)計(jì)策略沒有認(rèn)識(shí)到數(shù)據(jù)質(zhì)量的重要性,也輕視了系統(tǒng)運(yùn)行規(guī)律和運(yùn)維經(jīng)驗(yàn)的指導(dǎo)作用,系統(tǒng)的有效性大大降低。如果數(shù)據(jù)質(zhì)量不高或缺失了某些關(guān)鍵指標(biāo)數(shù)據(jù),數(shù)據(jù)分析的結(jié)果必然會(huì)有偏差。

因此,總體設(shè)計(jì)策略應(yīng)先關(guān)注領(lǐng)域分析,即有必要深入分析備份系統(tǒng)的整體架構(gòu),了解系統(tǒng)各組件之間的關(guān)系、數(shù)據(jù)流路徑;然后是數(shù)據(jù)的場景化設(shè)計(jì),針對(duì)具體的運(yùn)維場景確定數(shù)據(jù)分析及應(yīng)用場景,再追溯確認(rèn)需要采集的指標(biāo)數(shù)據(jù);最后詳細(xì)設(shè)計(jì)數(shù)據(jù)收集和數(shù)據(jù)分析方法。整體設(shè)計(jì)流程如圖 1 所示:

圖片

圖 1. 設(shè)計(jì)策略流程圖

3. 領(lǐng)域分析

3.1 備份系統(tǒng)整體架構(gòu)

備份系統(tǒng)主要包括備份管理系統(tǒng)、備份客戶端、備份網(wǎng)絡(luò)以及備份存儲(chǔ)介質(zhì)這幾種組件,如圖 2 所示:

圖片

圖 2. 備份系統(tǒng)整體架構(gòu)圖

  • 備份管理系統(tǒng)

包括備份管理軟件和備份管理服務(wù)器,承擔(dān)備份作業(yè)調(diào)度管理、備份存儲(chǔ)介質(zhì)管理等責(zé)任,是典型的 C/S 架構(gòu),讀取備份客戶端數(shù)據(jù),并將數(shù)據(jù)寫入備份介質(zhì)中。

  • 備份客戶端

執(zhí)行備份任務(wù)的業(yè)務(wù)主機(jī),是用戶感知層,一般需安裝備份軟件客戶端代理程序,并與備份服務(wù)端通信。

  • 備份網(wǎng)絡(luò)

承擔(dān)備份數(shù)據(jù)流的傳輸任務(wù),一般分為基于 TCP/IP 的備份 LAN 和基于 FC 的備份 SAN 。

  • 備份存儲(chǔ)介質(zhì)

承擔(dān)備份數(shù)據(jù)存儲(chǔ)的備份設(shè)備或介質(zhì),常見的包括磁帶庫,虛擬帶庫, NAS 存儲(chǔ)等。

3.2 備份數(shù)據(jù)流

備份系統(tǒng)的數(shù)據(jù)流主要包括備份作業(yè)數(shù)據(jù)流和數(shù)據(jù)恢復(fù)數(shù)據(jù)流,如圖 3 和圖 4 所示。需要強(qiáng)調(diào)的是,數(shù)據(jù)流傳輸并不是一個(gè)直接調(diào)用返回的動(dòng)作,而是一個(gè)持續(xù)的數(shù)據(jù)傳輸過程,在數(shù)據(jù)流傳輸路徑的任意一個(gè)環(huán)節(jié)出現(xiàn)堵塞或者故障,備份或恢復(fù)作業(yè)即會(huì)受到影響;另外,由于源端或目的端重復(fù)刪除技術(shù)的應(yīng)用,備份與恢復(fù)的數(shù)據(jù)流并不對(duì)稱,需要分別分析。

圖片

圖 3. 備份作業(yè)數(shù)據(jù)流圖

圖片

圖 4. 恢復(fù)作業(yè)數(shù)據(jù)流圖

4. 場景設(shè)計(jì)

4.1 故障管理場景

故障管理是運(yùn)維場景中最重要的一環(huán),一般可分為事前、事中、事后三個(gè)階段。事前階段的重點(diǎn)是評(píng)估分析,做好故障預(yù)防;事中階段則包括故障告警、故障處理和恢復(fù);事后階段需要做好分析改進(jìn)。下文將對(duì)備份系統(tǒng)常見的故障場景做具體分析。

4.1.1 作業(yè)時(shí)長增加

數(shù)據(jù)備份和恢復(fù)作業(yè)的時(shí)長增加是一種隱性故障,一般影響較小。但對(duì)于關(guān)鍵業(yè)務(wù)系統(tǒng)來說,超出備份時(shí)間窗口,帶來的影響有時(shí)也是無法容忍的;而數(shù)據(jù)恢復(fù)作業(yè)時(shí)長有時(shí)也決定了故障恢復(fù)時(shí)間長短。

數(shù)據(jù)備份恢復(fù)時(shí)長一般隨數(shù)據(jù)量的增長而緩慢增長,但異常情況下,備份恢復(fù)速度也會(huì)降低。在事前階段,我們可以判斷數(shù)據(jù)量是否有突增,可以提前調(diào)整備份時(shí)間;事中階段可關(guān)注數(shù)據(jù)吞吐量,如達(dá)不到速度預(yù)期,甚至嚴(yán)重超出備份時(shí)間窗口,可能需要及時(shí)中止備份恢復(fù)作業(yè);事后階段主要是排查定位速度下降的原因,主要排查方向是備份網(wǎng)絡(luò)帶寬被占用、讀取數(shù)據(jù)源的速度下降以及寫入備份存儲(chǔ)的速度下降這三類。

4.1.2 硬件故障

硬件故障的影響依賴于硬件冗余情況,備份服務(wù)器、備份網(wǎng)絡(luò)、磁帶機(jī)、磁帶等等硬件都需要有冗余,這種問題對(duì)備份系統(tǒng)的影響一般是一次性的。除了硬件設(shè)備自身故障以外,還可能存在兼容性問題導(dǎo)致的硬件故障問題,這類問題可能會(huì)間歇性的影響到備份作業(yè)的成功率,定位難度也比較高。

在事前階段,我們需要關(guān)注硬件自身的狀態(tài),可提前預(yù)防硬件故障帶來的影響;事中階段,一般來說硬件故障會(huì)導(dǎo)致作業(yè)報(bào)錯(cuò),即使硬件自身狀態(tài)正常,但通過運(yùn)行日志能判斷到硬件故障的可能性較大,需要及時(shí)將故障硬件排除出去,先保障備份作業(yè)的成功率;事后階段,綜合運(yùn)行日志情況和故障處理情況,可進(jìn)一步去定位是硬件自身故障還是兼容性問題,為故障最終處理提供依據(jù)。

4.1.3 軟件異常

一般軟件異常指的是軟件提供的服務(wù)不達(dá)預(yù)期,可能是代碼缺陷或服務(wù)異常終止,可以分為前端和后端異常,前端異常會(huì)導(dǎo)致備份恢復(fù)作業(yè)報(bào)錯(cuò),后端異常主要是影響 server 后端作業(yè)。前端異常涉及到備份軟件 server 和 client , client 影響的是使用該代理的備份作業(yè), server 端的影響較大。

在事前階段,我們需要確認(rèn)備份軟件進(jìn)程和服務(wù)端口是否正常,防患于未然;在事中階段應(yīng)根據(jù)作業(yè)報(bào)錯(cuò)或受影響情況,結(jié)合運(yùn)行日志去判斷異常的軟件組件,從而權(quán)衡需要如何去干預(yù)軟件運(yùn)行中異常;事后階段則需要復(fù)盤運(yùn)行狀態(tài)和運(yùn)行日志,為后續(xù)類似的軟件異常能預(yù)防和定位,提供更多數(shù)據(jù)依據(jù)。

4.1.4 資源爭用

備份系統(tǒng)是一種 C/S 架構(gòu)系統(tǒng),會(huì)共享備份服務(wù)器和備份存儲(chǔ)資源。資源共享會(huì)帶來資源爭用,也是資源容量不足引起的。典型的資源爭用引起的故障場景主要有磁帶機(jī)可用數(shù)量不足、備份服務(wù)器計(jì)算資源或網(wǎng)絡(luò)資源占滿、備份存儲(chǔ)容量不足或服務(wù)能力不足,會(huì)帶來備份作業(yè)報(bào)錯(cuò)或性能下降導(dǎo)致的作業(yè)超出時(shí)間窗口等不利影響。

在事前階段,我們需要做好資源調(diào)度規(guī)劃,合理配置不同時(shí)間段的備份任務(wù);在事中階段,可以通過監(jiān)視資源調(diào)度情況和運(yùn)行日志中的資源等待情況,及時(shí)判斷出是否發(fā)生了資源爭用,可及時(shí)中止以確保優(yōu)先級(jí)更高的作業(yè)任務(wù)的完成;事后階段則是根據(jù)運(yùn)行中出現(xiàn)的資源爭用情況來修改資源調(diào)度規(guī)劃,必要時(shí)也可以申請(qǐng)更多的備份資源。

4.2 運(yùn)維管理場景

運(yùn)維管理是通過制度化、流程化、標(biāo)準(zhǔn)化的運(yùn)維手段來指導(dǎo) IT 系統(tǒng)的運(yùn)維,是一套持續(xù)改進(jìn)的機(jī)制。相比故障管理場景,運(yùn)維管理場景更關(guān)注的是在平時(shí)運(yùn)維工作中如何去應(yīng)用備份系統(tǒng)運(yùn)行數(shù)據(jù),以達(dá)到持續(xù)改進(jìn)優(yōu)化的目的。通過數(shù)據(jù)收集及數(shù)據(jù)分析,可以更好地實(shí)現(xiàn)對(duì)備份系統(tǒng)管控,主要集中在下面幾個(gè)場景。

4.2.1 數(shù)據(jù)管理

數(shù)據(jù)管理的目標(biāo)是保障數(shù)據(jù)安全可靠,對(duì)備份系統(tǒng)來說,個(gè)人認(rèn)為主要是三點(diǎn)內(nèi)容需要關(guān)注:一是定時(shí)備份作業(yè)是否成功,可通過收集備份作業(yè)結(jié)果來確認(rèn);二是重要的備份數(shù)據(jù)通常還會(huì)做數(shù)據(jù)復(fù)制,保持主備站點(diǎn)兩到三份相同的數(shù)據(jù)備份,需要定期確認(rèn)數(shù)據(jù)是否成功同步;三是備份的數(shù)據(jù)需要有數(shù)據(jù)恢復(fù)驗(yàn)證機(jī)制,可定期確認(rèn)備份介質(zhì)中數(shù)據(jù)的完整性,并針對(duì)不同數(shù)據(jù)類型的備份做數(shù)據(jù)恢復(fù),以驗(yàn)證數(shù)據(jù)正確性。

4.2.2 容量管理

備份系統(tǒng)容量管理工作中主要關(guān)注的是數(shù)據(jù)存儲(chǔ)和性能兩方面的容量場景。數(shù)據(jù)存儲(chǔ)容量場景關(guān)注多的是備份數(shù)據(jù)源的容量增長趨勢(shì)、備份存儲(chǔ)介質(zhì)可用容量等,及時(shí)做好容量預(yù)估,容量估算過程中還需要考慮到重復(fù)數(shù)據(jù)刪除和數(shù)據(jù)壓縮技術(shù)的應(yīng)用;性能容量場景是對(duì)備份系統(tǒng)整體的服務(wù)能力做評(píng)估,評(píng)估備份作業(yè)并發(fā)的能力、數(shù)據(jù)傳輸?shù)耐掏?、備份客戶端和服?wù)端的計(jì)算資源消耗情況等等。

4.2.3 配置管理

配置管理場景可以關(guān)注新增或優(yōu)化的備份策略信息以及備份介質(zhì)中存儲(chǔ)的備份數(shù)據(jù)信息。備份策略信息包括主控服務(wù)器、備份服務(wù)器、備份客戶端、備份策略集、存儲(chǔ)策略、定時(shí)策略以及存儲(chǔ)庫等的詳細(xì)配置信息,是備份管理軟件的核心邏輯信息,需要妥善保存;備份介質(zhì)主要包括在線介質(zhì)和離線介質(zhì),備份介質(zhì)離線保存后,更需要關(guān)注備份介質(zhì)中存儲(chǔ)的備份數(shù)據(jù)信息,以便及時(shí)調(diào)取訪問,該配置信息變化頻率較快,需要保持最新版本的配置信息。

4.2.4 監(jiān)控優(yōu)化

監(jiān)控優(yōu)化場景主要關(guān)注三個(gè)方向:一是豐富監(jiān)控指標(biāo),二是監(jiān)控閾值優(yōu)化,三是告警關(guān)聯(lián)。原有的備份系統(tǒng)監(jiān)控指標(biāo)主要集中在備份系統(tǒng)軟硬件的運(yùn)行狀態(tài)、備份作業(yè)的成功失敗情況,這些監(jiān)控指標(biāo)對(duì)于潛在故障的覆蓋程度不夠,系統(tǒng)運(yùn)行日志中的部分關(guān)鍵字也是監(jiān)控的重點(diǎn);監(jiān)控指標(biāo)中部分閾值設(shè)置時(shí)可能采用的是通用經(jīng)驗(yàn)方式,會(huì)出現(xiàn)告警誤報(bào)的情況,是需要更加系統(tǒng)運(yùn)行情況來動(dòng)態(tài)調(diào)整的;告警關(guān)聯(lián)則更利于故障溯源,利用運(yùn)維經(jīng)驗(yàn)、系統(tǒng)規(guī)則可將分散的監(jiān)控告警信息關(guān)聯(lián)起來,便于定位故障。

4.2.5 統(tǒng)計(jì)報(bào)表

統(tǒng)計(jì)報(bào)表是運(yùn)維工作中一項(xiàng)重要工作,可定期回顧系統(tǒng)運(yùn)行情況。統(tǒng)計(jì)報(bào)表場景中,可結(jié)合運(yùn)行數(shù)據(jù)訂制每日、每周、每月的運(yùn)行情況定時(shí)報(bào)表,包括特定時(shí)間段內(nèi)的不同備份數(shù)據(jù)對(duì)象的備份作業(yè)統(tǒng)計(jì)信息,包括完成作業(yè)數(shù)、失敗作業(yè)數(shù)、運(yùn)行中的作業(yè)數(shù)、備份存儲(chǔ)消耗情況等等。

5. 數(shù)據(jù)收集設(shè)計(jì)

場景設(shè)計(jì)確定了數(shù)據(jù)分析的應(yīng)用場景,也進(jìn)一步可以確定所需收集的數(shù)據(jù)。那么數(shù)據(jù)收集設(shè)計(jì)的目標(biāo)是至少涵蓋到已設(shè)計(jì)場景中所需的指標(biāo)數(shù)據(jù),并且這些指標(biāo)數(shù)據(jù)可在多種數(shù)據(jù)源中獲得。

設(shè)計(jì)總體目標(biāo)是數(shù)據(jù)收集能夠兼顧到高效和低開銷,同時(shí)對(duì) IT 系統(tǒng)來說是低影響、無風(fēng)險(xiǎn)的。具體設(shè)計(jì)方面可按照數(shù)據(jù)源的不同進(jìn)行分類,并針對(duì)不同數(shù)據(jù)源設(shè)計(jì)不同的數(shù)據(jù)收集方法、數(shù)據(jù)采集周期以及采集的數(shù)據(jù)指標(biāo)信息。

5.1 運(yùn)行日志

備份軟件的運(yùn)行日志一般針對(duì)記錄不同的組件的運(yùn)行日志及其錯(cuò)誤日志,是研究備份系統(tǒng)運(yùn)行的重要數(shù)據(jù)源。日志文件有一定的固定格式,每一行日志一般可分為日期、時(shí)間、日志級(jí)別、詳細(xì)信息等字段,對(duì)應(yīng)于一條記錄信息,發(fā)送到 Kafka ,并最終存儲(chǔ)到 ELK 。

備份軟件是 C/S 架構(gòu), server 與 client 的日志采集方法和周期設(shè)置上會(huì)做區(qū)分。Server 端日志數(shù)據(jù)較多,產(chǎn)生速度快,且不屬于一般業(yè)務(wù)系統(tǒng),可以在 server 端服務(wù)器上安裝 Log agent (可自己編寫日志代理程序,也可使用 filebeat 等輕量級(jí)日志采集工具)去實(shí)時(shí)采集;client 端服務(wù)器上一般運(yùn)行著業(yè)務(wù)系統(tǒng),為降低對(duì)其他系統(tǒng)的影響,可設(shè)置定時(shí)任務(wù),每分鐘執(zhí)行腳本將 client 日志發(fā)送到日志服務(wù)器上,再有日志代理程序發(fā)送數(shù)據(jù)。日志采集的整體架構(gòu)設(shè)計(jì)如圖 5 所示:

圖片

圖 5. 日志采集架構(gòu)圖

5.2 硬件設(shè)備信息

硬件設(shè)備主要指的是備份存儲(chǔ)、磁帶庫、虛擬帶庫、 SAN 交換機(jī)等專有硬件設(shè)備,一般可通過 snmp 輪詢、訪問硬件設(shè)備 API 以及 CMD 命令輸出等方法來收集硬件狀態(tài)信息,適宜于設(shè)置定時(shí)任務(wù)定時(shí)采集硬件設(shè)備信息。

硬件設(shè)備上可采集的指標(biāo)數(shù)據(jù)包括硬件整體及其各部件狀態(tài)信息、硬件的邏輯配置拓?fù)浜腿萘啃畔ⅰ浞荽鎯?chǔ)控制器 CPU 負(fù)載、備份存儲(chǔ) IO 帶寬和延時(shí)、 SAN 交換機(jī)對(duì)應(yīng)端口的吞吐數(shù)據(jù)、網(wǎng)絡(luò)端口 IO 錯(cuò)誤計(jì)數(shù)器信息等。

5.3 備份軟件接口數(shù)據(jù)

備份軟件也會(huì)有對(duì)應(yīng)的 API 接口或 CMD 接口來獲取備份軟件的具體信息,可自行編程定期抓取相關(guān)數(shù)據(jù)。備份軟件接口數(shù)據(jù)可分成配置數(shù)據(jù)和運(yùn)行數(shù)據(jù),其中配置數(shù)據(jù)的頻度較低,可以每天抓取一份信息即可;而運(yùn)行數(shù)據(jù)是動(dòng)態(tài)的,變化頻率較高,定時(shí)抓取頻率可設(shè)為分鐘級(jí)。配置數(shù)據(jù)主要包括主控服務(wù)器、備份服務(wù)器、備份客戶端、備份策略集、存儲(chǔ)策略、定時(shí)策略以及存儲(chǔ)庫等的詳細(xì)配置信息;運(yùn)行信息主要包括每日的定時(shí)備份作業(yè)以及其他后臺(tái)作業(yè)完成信息、備份作業(yè)關(guān)聯(lián)的備份介質(zhì)信息、備份介質(zhì)中存儲(chǔ)的備份數(shù)據(jù)信息、軟件運(yùn)行事件及告警信息。

5.4 其他監(jiān)控?cái)?shù)據(jù)源

其他監(jiān)控?cái)?shù)據(jù)源中需要收集的數(shù)據(jù)主要是備份客戶端和服務(wù)端的操作系統(tǒng)性能數(shù)據(jù) , 包括 CPU 負(fù)載、磁盤 IO 、網(wǎng)卡 IO 吞吐信息等監(jiān)控系統(tǒng)中通用的監(jiān)控?cái)?shù)據(jù)指標(biāo),另外還需要收集備份軟件相關(guān)的進(jìn)程和服務(wù)端口信息。監(jiān)控軟件一般都留有數(shù)據(jù)接口,也可以直接訪問監(jiān)控?cái)?shù)據(jù)庫直接獲取監(jiān)控?cái)?shù)據(jù),數(shù)據(jù)的采集周期則依照其他監(jiān)控?cái)?shù)據(jù)域的更新頻率來設(shè)定。

6 數(shù)據(jù)分析設(shè)計(jì)

數(shù)據(jù)分析是處理加工收集到的數(shù)據(jù),并對(duì)數(shù)據(jù)加以詳細(xì)研究和概況總結(jié),提取有用信息并形成結(jié)論。拋開一些具體的工具方法,我總結(jié)了一下日常運(yùn)維中通用的數(shù)據(jù)經(jīng)驗(yàn),主要是兩點(diǎn):一是對(duì)技術(shù)的深入理解,我們會(huì)對(duì)不同類型的組件做分類,也會(huì)找出組件之間的各種關(guān)聯(lián),這樣才能對(duì)一些技術(shù)更加了解;二是對(duì)數(shù)據(jù)變化的敏感性,比較典型的例子是我們對(duì)一個(gè)系統(tǒng)每日做巡檢, CPU 負(fù)載可能穩(wěn)定在某些值附近或者在特定時(shí)刻才會(huì)發(fā)生數(shù)值突變,如果某一天 CPU 負(fù)載數(shù)據(jù)不再遵循這樣的波動(dòng)規(guī)律,這種數(shù)據(jù)的變化就是我們需要捕獲并深入關(guān)注的。

在備份系統(tǒng)的具體數(shù)據(jù)分析工作中,可以從上文提到的數(shù)據(jù)場景出發(fā)來應(yīng)用不同的數(shù)據(jù)分析方法,但我個(gè)人覺得也可以以場景為輔助,而從數(shù)據(jù)類型入手。上文已設(shè)計(jì)了不同數(shù)據(jù)源的數(shù)據(jù)收集方法,個(gè)人覺得也可以分為靜態(tài)配置數(shù)據(jù)、動(dòng)態(tài)運(yùn)行數(shù)據(jù)以及日志數(shù)據(jù)這三種類型數(shù)據(jù)。下文將詳細(xì)介紹這三種類型數(shù)據(jù)的數(shù)據(jù)分析方法。

6.1 靜態(tài)配置數(shù)據(jù)

在備份系統(tǒng)的數(shù)據(jù)分析中,靜態(tài)配置數(shù)據(jù)是骨。靜態(tài)配置數(shù)據(jù)的數(shù)據(jù)分析最適宜采用的方法是詳細(xì)分類和關(guān)聯(lián)分析,理清配置不同種類的數(shù)據(jù)元素以及它們之間關(guān)聯(lián)關(guān)系。

備份系統(tǒng)的配置數(shù)據(jù)主要包括硬件設(shè)備及其組件的配置信息、備份軟件層的備份策略信息以及網(wǎng)絡(luò)拓?fù)湫畔⒌取jP(guān)聯(lián)可分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。優(yōu)先對(duì)配置數(shù)據(jù)進(jìn)行分析,可以幫助我們理清備份作業(yè)的靜態(tài)時(shí)序信息、備份作業(yè)和存儲(chǔ)資源的關(guān)系、硬件設(shè)備間的聯(lián)系、不同備份客戶端的基礎(chǔ)信息以及架構(gòu)拓?fù)湫畔⒌取?/p>

6.2 動(dòng)態(tài)運(yùn)行數(shù)據(jù)

在備份系統(tǒng)的數(shù)據(jù)分析中,動(dòng)態(tài)運(yùn)行數(shù)據(jù)則是血肉。在靜態(tài)配置數(shù)據(jù)的分析結(jié)果的基礎(chǔ)上,動(dòng)態(tài)運(yùn)行數(shù)據(jù)可以提供更加詳細(xì)的關(guān)聯(lián)關(guān)系,不再是元素種類之間的關(guān)聯(lián),而是具體元素之間的關(guān)聯(lián);根據(jù)時(shí)序信息,回溯歷史數(shù)據(jù)可以刻畫同一元素的數(shù)據(jù)趨勢(shì)圖;結(jié)合數(shù)據(jù)詳細(xì)分類結(jié)果,運(yùn)用數(shù)據(jù)對(duì)比的分析方法,橫向比較可以刻畫出同類型元素之間的數(shù)據(jù)趨勢(shì)對(duì)比圖,縱向比較可以將現(xiàn)時(shí)與歷史一段時(shí)間內(nèi)的數(shù)據(jù)趨勢(shì)做對(duì)比。

備份系統(tǒng)的動(dòng)態(tài)運(yùn)行數(shù)據(jù)主要包括硬件狀態(tài)、軟件進(jìn)程運(yùn)行狀態(tài)、作業(yè)運(yùn)行信息、網(wǎng)絡(luò) IO 信息、備份存儲(chǔ) IO 信息、備份存儲(chǔ)使用信息、備份服務(wù)器系統(tǒng)資源使用信息、事件及告警等。除了進(jìn)一步完善分類與關(guān)聯(lián)關(guān)系外,備份系統(tǒng)運(yùn)行數(shù)據(jù)的做單維度分析可以得到每日作業(yè)完成情況圖、整體存儲(chǔ)使用趨勢(shì)圖、備份網(wǎng)絡(luò) IO 趨勢(shì)圖、單個(gè)備份作業(yè)存儲(chǔ)資源使用趨勢(shì)圖、備份存儲(chǔ) IO 趨勢(shì)圖等,如圖 6 所示;多維度分析可以得到不同客戶端使用的存儲(chǔ)資源對(duì)比趨勢(shì)圖、不同備份存儲(chǔ)使用情況對(duì)比圖及 IO 對(duì)比圖、不同備份作業(yè) IO 與歷史數(shù)據(jù)對(duì)比圖等,如圖 7 所示。

圖片

圖 6 單維度分析 - 存儲(chǔ)使用趨勢(shì)圖

圖片

圖 7 多維度分析 - 多類型客戶端存儲(chǔ)使用趨勢(shì)圖

6.3 日志數(shù)據(jù)

在備份系統(tǒng)的數(shù)據(jù)分析中,日志數(shù)據(jù)可以說是重要寶藏。目前主流的日志分析工具解決了日志存儲(chǔ)的方法,但主要是基于 Web 日志分析,采用關(guān)鍵詞搜索、詞頻統(tǒng)計(jì)等方法來做分析。而在備份系統(tǒng)運(yùn)行的場景中,這方便了日志檢索,我們還需要做的是基于日志信息來抽象串聯(lián)出備份系統(tǒng)運(yùn)行中一個(gè)個(gè)子工作流程。

靜態(tài)與動(dòng)態(tài)數(shù)據(jù)的數(shù)據(jù)分析已經(jīng)相對(duì)生動(dòng)了,但還是缺少很多細(xì)節(jié)信息。我們就以一個(gè)備份作業(yè)的運(yùn)行日志為例,來串聯(lián)出這個(gè)例子的工作流程細(xì)節(jié),如圖 8 所示:首先定時(shí)調(diào)度計(jì)劃被觸發(fā),會(huì)先檢查客戶端狀態(tài),然后按照定時(shí)計(jì)劃腳本中的配置和備份策略信息開啟備份作業(yè)會(huì)話,每一個(gè)備份作業(yè)會(huì)話會(huì)去申請(qǐng)磁帶機(jī)或其他備份數(shù)據(jù)存儲(chǔ)路徑,這時(shí)會(huì)話會(huì)處于等待狀態(tài),直到申請(qǐng)的資源被滿足;介質(zhì)管理組件接到資源申請(qǐng)后,會(huì)根據(jù)當(dāng)前的資源使用情況和申請(qǐng)的優(yōu)先級(jí),分配磁帶機(jī)及磁帶給對(duì)應(yīng)的作業(yè)會(huì)話;一旦作業(yè)會(huì)話發(fā)現(xiàn)其申請(qǐng)的資源已被分配并被掛載后,這時(shí)客戶端會(huì)讀取 源數(shù)據(jù),并 將數(shù)據(jù)傳輸?shù)揭褣燧d的備份存儲(chǔ),直到作業(yè)會(huì)話結(jié)束;當(dāng)所有作業(yè)會(huì)話都成功完成后,該作業(yè)才會(huì)返回成功。

圖片

圖 8. 備份作業(yè)工作流程細(xì)節(jié)

整個(gè)工作流程中,會(huì)以作業(yè) ID 、作業(yè)會(huì)話 ID 、備份設(shè)備 ID 等信息與實(shí)際組件相對(duì)應(yīng),從而能還原出該備份作業(yè)的運(yùn)行情況。如果其中某個(gè)子流程出現(xiàn)問題,通過日志分析就能還原該故障過程,迅速定位故障對(duì)應(yīng)的作業(yè) ID 、會(huì)話 ID 、客戶端或備份設(shè)備 ID 等。

結(jié)語

數(shù)據(jù)收集及分析工作是一項(xiàng)長期性的工作,需要持續(xù)改進(jìn)、不斷優(yōu)化,這正如 IT 系統(tǒng)不斷演化,也如我們所從事的運(yùn)維工作一樣,需要日積月累,才能日益精進(jìn)。?

責(zé)任編輯:武曉燕 來源: twt企業(yè)IT社區(qū)
相關(guān)推薦

2018-08-15 13:49:06

數(shù)據(jù)分析學(xué)習(xí)Python

2023-05-19 06:53:58

GPT分析報(bào)告

2019-11-14 21:21:50

數(shù)據(jù)挖掘數(shù)據(jù)處理數(shù)據(jù)分析

2015-08-21 13:44:17

數(shù)據(jù)分析

2023-09-01 14:02:25

用戶分析攻略

2024-11-07 08:50:56

用戶分析分類維度標(biāo)簽

2018-07-29 15:33:04

2024-07-10 12:11:30

數(shù)據(jù)經(jīng)營分析業(yè)務(wù)

2017-01-05 18:39:35

數(shù)據(jù)分析大數(shù)據(jù)時(shí)代分析報(bào)告

2018-01-29 16:29:35

數(shù)據(jù)開發(fā)從業(yè)

2019-10-12 00:39:23

MySQL數(shù)據(jù)庫Oracle

2020-07-15 15:38:15

人臉識(shí)別照片活化手機(jī)

2019-09-23 11:29:21

mysql數(shù)據(jù)庫開發(fā)

2019-06-28 09:27:20

高可用架構(gòu)支付

2019-03-24 14:14:40

代碼閱讀源代碼

2020-10-11 21:52:10

數(shù)據(jù)AI指南

2021-09-04 23:23:35

Protobuf存儲(chǔ)數(shù)據(jù)

2022-10-20 12:11:32

數(shù)據(jù)數(shù)據(jù)分析分類維度

2015-03-19 15:17:11

2023-09-29 22:41:26

Kubernetes云原生
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 天天干夜夜操 | 精品日韩一区二区 | 欧美成年人视频在线观看 | 国产一区二区三区高清 | 欧美精品片 | 日韩欧美一区二区三区 | 国产精品视频入口 | 国产欧美日韩在线播放 | 在线免费观看毛片 | www国产亚洲精品久久网站 | 亚洲一区二区国产 | 一级欧美日韩 | 国产日韩一区二区 | 日本成人中文字幕在线观看 | a在线免费观看视频 | 国产精品久久一区二区三区 | www.四虎.com | 国产精品一区在线 | 日韩在线国产精品 | 夜夜撸av| 欧美日韩视频在线第一区 | 亚洲第一女人av | 中文字幕一区在线观看视频 | 午夜伦理影院 | 精产国产伦理一二三区 | 97精品久久 | 99国产精品视频免费观看一公开 | 国产欧美精品 | 亚洲精品乱码久久久久久蜜桃91 | 欧美日韩亚洲一区 | www.亚洲一区 | 国产日韩中文字幕 | 欧美亚洲一区二区三区 | 亚洲成人av一区二区 | 成人午夜av | 国产精品毛片无码 | 国产精品激情在线 | 99爱免费 | 国产一区二区在线免费观看 | 日韩成人中文字幕 | 亚洲人成人一区二区在线观看 |