CreCloud云網(wǎng)管對(duì)大型網(wǎng)絡(luò)信息系統(tǒng)的監(jiān)控
1 概述
隨著社會(huì)發(fā)展,帶寬的增加和設(shè)備成本的降低以及虛擬化技術(shù)的普及,目前國(guó)內(nèi)外的大型企業(yè)、政府機(jī)構(gòu)的IT系統(tǒng)架構(gòu)都發(fā)生了變化。
設(shè)備虛擬化:云計(jì)算可以把服務(wù)器和資源有效整合,將CPU、內(nèi)存、磁盤(pán)等資源虛擬化,某個(gè)IP地址后面跟隨的只是一個(gè)虛擬機(jī),而不像原來(lái)代表的是一臺(tái)真實(shí)的機(jī)器。通過(guò)虛擬化對(duì)資源進(jìn)行整合,提高了設(shè)備的使用效率,但同時(shí)在不增加設(shè)備的情況下,操作系統(tǒng)也會(huì)越來(lái)越多,管理任務(wù)量和復(fù)雜度也會(huì)增加。
信息系統(tǒng)設(shè)計(jì)和部署更加抽象:由于通過(guò)云計(jì)算將負(fù)載均攤、壓力分散,系統(tǒng)設(shè)計(jì)人員不用過(guò)分關(guān)心業(yè)務(wù)部署具體位置、單臺(tái)設(shè)備負(fù)載是否過(guò)高,能否承受業(yè)務(wù)壓力這些問(wèn)題,而是把注意力放在如何設(shè)計(jì)更能滿足用戶需求、可用性上。
信息系統(tǒng)的規(guī)模不斷增大:隨著信息技術(shù)的不斷發(fā)展和應(yīng)用,信息系統(tǒng)在政府、企業(yè)使用的深度和廣度也在不斷增大,這也就造成信息系統(tǒng)的規(guī)模不斷擴(kuò)大,系統(tǒng)的用戶規(guī)模可能達(dá)到十萬(wàn),百萬(wàn),系統(tǒng)部署的設(shè)備超過(guò)萬(wàn)臺(tái)。
企業(yè)及政府專網(wǎng)數(shù)量、規(guī)模不斷增大:隨著信息化的不斷深入,企業(yè)即政府建設(shè)了很多大型集中信息系統(tǒng),為了保證數(shù)據(jù)穩(wěn)定、可靠、安全的傳輸,國(guó)內(nèi)一些部委、大型企業(yè)都在建立和擴(kuò)大內(nèi)部專網(wǎng),范圍從省級(jí)擴(kuò)展到全國(guó)。
監(jiān)控集中、管理分層:為了保證IT系統(tǒng)的正常運(yùn)行,特別是在整個(gè)廣域網(wǎng)的正常運(yùn)行,監(jiān)控是必不可少的,由于地方的技術(shù)力量有限,監(jiān)控中心一般放在總部,總部集中監(jiān)測(cè)性能、解決重大故障,地方一線工程師主要是處理一些簡(jiǎn)單問(wèn)題。
IT系統(tǒng)規(guī)模越來(lái)越大,系統(tǒng)架構(gòu)越來(lái)越復(fù)雜、使用范圍越來(lái)大,對(duì)IT系統(tǒng)的可靠性就要求越高,硬件、軟件、網(wǎng)絡(luò)任何故障運(yùn)維人員在***時(shí)間就要掌握以便進(jìn)行快速處理,降低系統(tǒng)癱瘓的可能性,好的監(jiān)控就成為運(yùn)維的首要條件
2 傳統(tǒng)監(jiān)測(cè)架構(gòu)
國(guó)際上大規(guī)模網(wǎng)絡(luò)監(jiān)測(cè)的主要廠商有HP、IBM、CA、BMC。它們的產(chǎn)品都是非常成熟的,有幾十年歷史了。
最開(kāi)始網(wǎng)絡(luò)規(guī)模不大的時(shí)候,都是一套網(wǎng)管系統(tǒng)安裝在一臺(tái)大型機(jī)上,監(jiān)控所有服務(wù)器、網(wǎng)絡(luò)設(shè)備、應(yīng)用,目前所有小型網(wǎng)管軟件還是這套監(jiān)測(cè)架構(gòu)。
隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,一臺(tái)計(jì)算機(jī)的計(jì)算容量有限,大型網(wǎng)管系統(tǒng)一般都采用二級(jí)架構(gòu),在每個(gè)地方IT中心部署一套監(jiān)控軟件,在總部部署一套管理端,地方中心的監(jiān)控軟件將配置信息和一些重要的報(bào)警信息同步到總部管理端。
這種架構(gòu)有一些明顯缺點(diǎn):首先是管理復(fù)雜,監(jiān)控軟件部署很多套,每個(gè)地方監(jiān)控中心都需要有監(jiān)控軟件維護(hù)工程師對(duì)監(jiān)控軟件進(jìn)行維護(hù),由于培訓(xùn)、支持很難到位,人員變動(dòng)等多種原因造成地方維護(hù)工程師對(duì)軟件不會(huì)有很深入的了解,產(chǎn)品使用困難,因此產(chǎn)品使用不理想的情況很多。
其次是容易產(chǎn)生單點(diǎn)故障,每個(gè)地方中心部署一套監(jiān)控軟件,當(dāng)監(jiān)控軟件本身出現(xiàn)故障時(shí),該地方的系統(tǒng)就沒(méi)有監(jiān)控了,故障也無(wú)從發(fā)現(xiàn)。特別是監(jiān)控軟件屬于基礎(chǔ)維護(hù)軟件,在日常運(yùn)維工作中,如果沒(méi)有報(bào)警產(chǎn)生,網(wǎng)管人員也不會(huì)特別注意沒(méi)有故障報(bào)警的原因,到底是因?yàn)楸O(jiān)控軟件本身出現(xiàn)故障無(wú)法監(jiān)測(cè)呢,還是系統(tǒng)工作正常沒(méi)有報(bào)警,只有當(dāng)故障發(fā)生后才發(fā)現(xiàn)原來(lái)網(wǎng)絡(luò)監(jiān)控軟件出現(xiàn)故障,已經(jīng)無(wú)法完成監(jiān)測(cè)任務(wù)了。
再次是架構(gòu)復(fù)雜,當(dāng)下級(jí)監(jiān)測(cè)端的被監(jiān)測(cè)設(shè)備發(fā)生變化,被增加、刪除修改后,都需要將新的配置同步到上層管理端,同步過(guò)程比較復(fù)雜,也很難做到實(shí)時(shí)同步,造成上層管理端和下層監(jiān)測(cè)端數(shù)據(jù)不一致,容易導(dǎo)致錯(cuò)誤。
***是擴(kuò)展性差,資源分配不均,隨著IT系統(tǒng)規(guī)模的擴(kuò)大,當(dāng)監(jiān)測(cè)端的監(jiān)測(cè)容量滿足不了需求的時(shí)候,需要重新安裝一套監(jiān)測(cè)端,包括數(shù)據(jù)庫(kù)、報(bào)警等多種應(yīng)用,還需要同步到上層管理端,非常復(fù)雜。而且不同地方的IT資源數(shù)量不同,會(huì)造成某些地區(qū)監(jiān)控軟件壓力非常大,而另一個(gè)地方監(jiān)控軟件的資源閑置。
3 云監(jiān)控的技術(shù)和方案
為解決大型企業(yè)和政府的IT業(yè)務(wù)監(jiān)控問(wèn)題,將目前***的云計(jì)算技術(shù)應(yīng)用到網(wǎng)絡(luò)管理領(lǐng)域。MXsoft(北京美信時(shí)代科技有限公司)設(shè)計(jì)了一套CreCloud云監(jiān)控解決方案。
CCU中央控制器是控制中心,它負(fù)責(zé)調(diào)度監(jiān)控任務(wù),根據(jù)監(jiān)測(cè)設(shè)備的數(shù)量和監(jiān)測(cè)內(nèi)容將監(jiān)控任務(wù)分發(fā)給監(jiān)測(cè)服務(wù)器,并檢測(cè)監(jiān)測(cè)服務(wù)器的工作狀態(tài),一旦某臺(tái)監(jiān)測(cè)服務(wù)器出現(xiàn)故障立刻將監(jiān)測(cè)任務(wù)轉(zhuǎn)移到其他監(jiān)測(cè)服務(wù)器上。
監(jiān)測(cè)服務(wù)器主要任務(wù)是獲取設(shè)備監(jiān)測(cè)信息。隨著監(jiān)控規(guī)模的增加,它可以線性增加,自動(dòng)注冊(cè)到CCU中央控制器,中央控制器就會(huì)分配監(jiān)測(cè)任務(wù)給它。
云網(wǎng)管架構(gòu)的優(yōu)勢(shì)如下:首先是部署實(shí)施簡(jiǎn)單,只要在總部部署一套系統(tǒng)即可完成整個(gè)廣域網(wǎng)的監(jiān)測(cè),二級(jí)單位和三級(jí)單位無(wú)需部署監(jiān)控系統(tǒng),他們只需登錄總系統(tǒng),將被監(jiān)測(cè)設(shè)備和監(jiān)測(cè)指標(biāo)的信息、報(bào)警條件設(shè)置好就可以。所有日常維護(hù)都有總部網(wǎng)管人員負(fù)責(zé)。
其次是負(fù)載均衡,監(jiān)測(cè)云中的服務(wù)器根據(jù)數(shù)量和計(jì)算能力動(dòng)態(tài)承擔(dān)各自的監(jiān)測(cè)任務(wù),當(dāng)數(shù)量和計(jì)算能力發(fā)生變化時(shí),通過(guò)自動(dòng)調(diào)節(jié)機(jī)制去重新調(diào)整各自的監(jiān)測(cè)任務(wù)量,不會(huì)出現(xiàn)二級(jí)架構(gòu)中的某臺(tái)監(jiān)測(cè)服務(wù)器忙,某臺(tái)監(jiān)測(cè)服務(wù)器閑的情況。
再次是可靠的雙機(jī)熱備功能。監(jiān)測(cè)服務(wù)器之前互相備份,如果監(jiān)測(cè)服務(wù)器云中有服務(wù)器宕機(jī),這些服務(wù)器的監(jiān)測(cè)任務(wù)馬上就會(huì)被重新分配到其它正常運(yùn)行的服務(wù)器上,保證了監(jiān)控的連續(xù)性。CCU中央控制器也可以組成高效的“主”—“備”模式,“主”服務(wù)器和“備”服務(wù)器之間通過(guò)“心跳線”技術(shù)實(shí)時(shí)關(guān)聯(lián),一旦主控制服務(wù)器宕機(jī),備份服務(wù)器馬上啟動(dòng)執(zhí)行任務(wù)
4 案例試驗(yàn)
目前在某企業(yè)的大型信息系統(tǒng)項(xiàng)目中部署了一套美信的CreCloud云網(wǎng)管解決方案。該系統(tǒng)的一個(gè)顯著特點(diǎn)就是服務(wù)器數(shù)量大、分布廣,系統(tǒng)終端數(shù)量超過(guò)5萬(wàn)臺(tái),因此要求解決方案能夠?qū)崿F(xiàn)大規(guī)模分布式監(jiān)控。
經(jīng)過(guò)比選,選擇CreCloud云網(wǎng)管解決方案進(jìn)行部署,系統(tǒng)由2臺(tái)CCU服務(wù)器,7臺(tái)監(jiān)測(cè)服務(wù)器,監(jiān)測(cè)全國(guó)幾萬(wàn)臺(tái)的服務(wù)器。
系統(tǒng)部屬架構(gòu)圖
總部管理人員維護(hù)監(jiān)測(cè)系統(tǒng),配置總部關(guān)心的設(shè)備和應(yīng)用系統(tǒng)的監(jiān)測(cè),接收大范圍故障的告警。省級(jí)和地方運(yùn)維人員只被分配本地服務(wù)器、網(wǎng)絡(luò)設(shè)備、應(yīng)用的配置瀏覽和報(bào)警權(quán)限。
通過(guò)該云網(wǎng)管項(xiàng)目的實(shí)施該公司獲取到良好收益:首先是部署實(shí)施快,傳統(tǒng)大型網(wǎng)管項(xiàng)目需要到各地出差實(shí)施、培訓(xùn),工期3個(gè)月到半年,而該項(xiàng)目從部署的第二周就完成對(duì)各終端的鏈路監(jiān)控和報(bào)警,隨著監(jiān)測(cè)規(guī)模的逐漸增加線性擴(kuò)容。
其次是通觀全局,了解細(xì)節(jié)。由于全國(guó)的各終端服務(wù)器、網(wǎng)絡(luò)、軟件運(yùn)行信息都在一套系統(tǒng)中,既可以了解到該系統(tǒng)在全國(guó)的整體運(yùn)行狀況,也可以了解到某個(gè)終端的某臺(tái)服務(wù)器具體運(yùn)行狀況。
再次是擴(kuò)展性好,該系統(tǒng)終端的規(guī)模還在增加過(guò)程中,而且其他相關(guān)系統(tǒng)的監(jiān)控將來(lái)也會(huì)增加到該系統(tǒng)中,在擴(kuò)展的時(shí)候只需增加監(jiān)測(cè)服務(wù)器就可以,非常方便。
5 未來(lái)趨勢(shì)
隨著未來(lái)企業(yè)和政府規(guī)模越來(lái)越大,監(jiān)控的規(guī)模也越來(lái)越大,云網(wǎng)管也將越來(lái)越普及。 云網(wǎng)管未來(lái)將應(yīng)用在各個(gè)重要領(lǐng)域,大型網(wǎng)游、門(mén)戶網(wǎng)站、證券交易、信息系統(tǒng)、企業(yè)網(wǎng)都是該監(jiān)控的潛在用戶。
網(wǎng)絡(luò)監(jiān)控的穩(wěn)定性和可靠性要求越來(lái)越高。云網(wǎng)管必須是一個(gè)完整的解決方案,而不是一個(gè)簡(jiǎn)單軟件,能夠保證這個(gè)系統(tǒng)7*24小時(shí)不間斷運(yùn)行,沒(méi)有單點(diǎn)故障。