高效運維工程師的“三個瞬間”
效率乃企業(yè)生存與發(fā)展的生命線,很多企業(yè)是在企業(yè)信息化平臺上處理業(yè)務(wù)的。高速、穩(wěn)定與可靠是運維系統(tǒng)工程師的職業(yè)操守,也可通過提高員工工作效率而極大地推動企業(yè)競爭力。在仍然有許多IT運維技術(shù)人員過著苦行僧生活的時候,小鄭(某企業(yè)運維部工程師)卻因為網(wǎng)絡(luò)建設(shè)與生產(chǎn)經(jīng)營活動的推動馬上將要得到提升。當然,還有很多衡量員工是否應(yīng)該升遷的方法,我們這里主要想夸獎一番小鄭的效率和與其年齡不符的老道。
◆警報短信來了,我還在車上
地點:班車
時間:早上8:10
當小鄭在班車上睡得正香的時候,突然公司網(wǎng)絡(luò)中心的北塔BTIM告警系統(tǒng)自動發(fā)來了短信:“ERP數(shù)據(jù)庫的日志歸檔空間達到了95%的利用率”。這個時候一般的系統(tǒng)管理員會非常緊張,通知值班的管理員,趕緊嘗試歸檔到其他的服務(wù)器,而小鄭倒頭有在靠背上睡去了。難道等到了單位在處理嗎?其實,小鄭已經(jīng)今天的工作就是整理歸檔服務(wù)器的磁盤空間,準備將備份日志轉(zhuǎn)存到二級存儲設(shè)備,那么他為什么不擔心服務(wù)器空間已經(jīng)到達閥值了呢?
一般采用運維管理工具的管理員都知道,對于主機和網(wǎng)絡(luò)系統(tǒng)的監(jiān)控大都在特性上體現(xiàn)了網(wǎng)絡(luò)連通性、設(shè)備負載、TCP告警、端口狀態(tài)以及流量、線路狀態(tài)以及流量、設(shè)備日志信息、設(shè)備配置變動、SNMP連通性以及Trap信息等。另外,短信報警也不是什么新鮮事物,小鄭之所以可以又倒頭睡去,使因為他在采用BTIM系統(tǒng)在告警的同時,還可以執(zhí)行多種關(guān)聯(lián)動作,這樣就防止了他如果沒有在機房現(xiàn)場時候?qū)⒂锌赡苡绊懭粘I(yè)務(wù)的威脅自動被排除在外面。兩個月前,小鄭已經(jīng)通過BTIM的知識庫設(shè)計了將歸檔日志自動FTP到目標服務(wù)器的腳本,并且剛才短信中的后面一行也提示了這個轉(zhuǎn)存日志歸檔“已被激活”。
◆馬上就好,5分鐘就到
地點:打印間
下午:3:30分
到達單位之后,在將輔助DBA(數(shù)據(jù)庫管理員)調(diào)整了服務(wù)器之后,幾乎什么事也沒有發(fā)生,中午剛過,CIO突然下發(fā)通知,下午3:40到5樓會議室集中,IT事業(yè)部所有員工和綜合事業(yè)部經(jīng)理都到參加分公司網(wǎng)絡(luò)改造的預(yù)備會,同時要求IT事業(yè)部提供分公司的網(wǎng)絡(luò)拓撲圖,并復(fù)印14份。小鄭和鄰桌的同事要過來,拿著圖紙就要到2樓的打印間去復(fù)印,電梯上小鄭發(fā)現(xiàn)了蹊蹺,這份圖紙還是4個月以前的,后來分公司自行進行過一個網(wǎng)絡(luò)調(diào)整,并且替換了部分設(shè)備,這份圖肯定不能用呀!要是光邏輯拓撲圖還好說,現(xiàn)在還要用上物理拓撲圖,重畫?來不及了!小鄭還是不慌不忙地返回了工位。要是碰上這種情況,對于適用一般的網(wǎng)絡(luò)設(shè)備發(fā)現(xiàn)功能的管理系統(tǒng)肯定是不行了,還好BTIM系統(tǒng)同時提供物理拓撲和邏輯拓撲雙重結(jié)構(gòu)。
這里我們插一句話,物理和邏輯拓撲在網(wǎng)絡(luò)管理中的作用是不同的。前者強調(diào)物理,即真實網(wǎng)絡(luò)的動態(tài)反映;后者強調(diào)邏輯,即宏觀網(wǎng)絡(luò)靜態(tài)反映。BTIM之所以在發(fā)現(xiàn)結(jié)果上采用了物理拓撲圖,并不是因為邏輯拓撲不重要。而是因為從絕大多數(shù)的像小鄭這樣的管理員角度出發(fā),物理拓撲所能提供的價值要遠大于邏輯拓撲。物理拓撲圖是作為運維系統(tǒng)的最基本也是最直接的一種發(fā)現(xiàn)問題機制,具有舉足輕重的地位。
三點半,“大哥!印完了嗎?快上來吧,要開會了!”因為CIO這個人十分守時,所以膽小的同事老張給小鄭打了加急電話?!胺判?!5分鐘準到!”小鄭到很干脆的答道。會議開始,每個人拿到打印好的拓撲圖,你畫一條線,我加一個設(shè)備開始了激烈的只有IT技術(shù)人才有的“吹?!彪A段。不過,網(wǎng)絡(luò)架構(gòu)是否合理,有無網(wǎng)絡(luò)瓶頸,設(shè)備和流量有無異常等,還是等下面小鄭的與出驚人的分析吧。
◆以下是數(shù)據(jù),我來談?wù)劸唧w的升級思路
地點:會議室
時間:17:05
中國人喜歡開會,但開會不一定有什么結(jié)果。過了下午5點左右,所有人擔心的事情就是趕不上6點的班車該如何回家的問題。其實這次網(wǎng)絡(luò)改造是IT部門提出來的,這也是CIO需要今天解決的事情,看來沒有結(jié)果會議是散不了的了。很多IT技術(shù)人員往往注重升級過程中設(shè)備的選擇,忽視了業(yè)務(wù)系統(tǒng)在升級前的監(jiān)控。而在升級項目結(jié)束時,他們害怕網(wǎng)絡(luò)系統(tǒng)和應(yīng)用系統(tǒng)升級沒有得到業(yè)務(wù)部門的認可,投資回報不明顯,遭致高層的質(zhì)疑。
也可能會議準備的不充分,幾個關(guān)鍵人物對業(yè)務(wù)系統(tǒng)的現(xiàn)狀講的模棱兩可。小鄭附耳向身邊的IT事業(yè)部門主任提醒:“咱們還是打開運維系統(tǒng)有針對性的說吧?”于是乎,主任如卸重負,通過筆記本在大屏幕上對兼顧生產(chǎn)和研發(fā)兩重身份的分公司,分析了已經(jīng)監(jiān)測的關(guān)鍵業(yè)務(wù)流程,這包括:①項目管理信息系統(tǒng)和生產(chǎn)管理信息系統(tǒng)。② 網(wǎng)絡(luò)吞吐量大的業(yè)務(wù)流程,如實時交互式的業(yè)務(wù)流程,資金集中管理系統(tǒng)、協(xié)同流轉(zhuǎn)系統(tǒng)和備份中心等。③ 對系統(tǒng)造成巨大壓力且頻繁使用數(shù)據(jù)庫平臺。
***,CIO也根據(jù)手中已經(jīng)掌握的一些情況對同其它與總部系統(tǒng)集成的業(yè)務(wù)流程進行的詳細說明,并要求IT事業(yè)部不要忽略這些非主要業(yè)務(wù)系統(tǒng)的存在,提示大家在做方案的時候,考慮到它們,因為這很有可能造成網(wǎng)絡(luò)升級故障的風險。會議準時在6點前結(jié)束,走出會議室的時候,CIO過來拍拍了小鄭的后背,我們估計剛才小鄭的附耳的聲音大了一些,被他聽見了。
以上的故事告訴我們,一個優(yōu)秀的IT運維管理平臺與一位精明的IT工程師結(jié)合起來了功效。小鄭的一天還告訴我們,不論IT業(yè)務(wù)系統(tǒng)龐大而牽涉面有多廣,只要能夠精確掌控,你永遠可以把它放在手中。