IT運維自動化概覽
IT運維自動化是指將IT運維中日常的、大量的重復性工作自動化,把過去的手工執行轉為自動化操作。自動化是IT運維工作的升華,IT運維自動化不單純是一個維護過程,更是一個管理的提升過程,是IT運維的***層次,也是未來的發展趨勢。
傳統運維管理方式存在的問題
目前許多企業的IT運維已經實現從人工運維到計算機管理,但延展咨詢在同客戶的交流中發現其中很多企業的IT運維管理還只是處在“半自動化”的運維狀態。因為這種IT運維仍然是等到IT故障出現后再由運維人員采取相應的補救措施。這些傳統式被動、孤立、半自動式的IT運維管理模式經常讓IT部門疲憊不堪,主要表現在以下三個方面:
(1)運維人員被動、效率低
在IT運維過程中,只有當事件已經發生并已造成業務影響時才能發現和著手處理,這種被動“救火”不但使IT運維人員終日忙碌,也使IT運維本身質量很難提高,導致IT部門和業務部門對IT運維的服務滿意度都不高。目前絕大多數的企業IT運維人員日常大部分時間和精力是處理一些簡單重復的問題,而且由于故障預警機制不完善,往往是故障發生后或報警后才會進行處理,,使到IT運維人員的工作經常是處于被動“救火”的狀態,不但事倍功半而且常常會出現惡性連鎖反應。
(2)缺乏一套高效的IT運維機制
目前許多企業在IT運維管理過程中缺少自動化的運維管理模式,也沒有明確的角色定義和責任劃分,使到問題出現后很難快速、準確地找到根本原因,無法及時地找到相應的人員進行修復和處理,或者是在問題找到后缺乏流程化的故障處理機制,而在處理問題時不但欠缺規范化的解決方案,也缺乏全面的跟蹤記錄。
(3)缺乏高效的IT運維技術工具
隨著信息化建設的深入,企業IT系統日趨復雜,林林總總的網絡設備、服務器、中間件、業務系統等讓IT運維人員難以從容應對,即使加班加點地維護、部署、管理也經常會因設備出現故障而導致業務的中斷,嚴重影響企業的正常運轉。出現這些問題部分原因是企業缺乏事件監控和診斷工具等IT運維技術工具,因為在沒有高效的技術工具的支持下故障事件很難得到主動、快速處理。
IT運維自動化迫在眉睫
盡管IT運維管理的技術在不斷進步,但實際上很多IT運維人員并沒有真正解脫出來,原因在于目前的技術雖然能夠獲取IT設備、服務器、網絡流量,甚至數據庫的警告信息,但成千上萬條警告信息堆積在一起更本沒法判斷問題的根源在哪里。另外,目前許多企業的更新管理絕大多數工作都是手工操作的。即使一個簡單的系統變更或更新往往都需要運維人員逐一登錄每臺設備進行手工變更,當設備數量達至成百上千時,其工作量之大可想而知。而這樣的變更和檢查操作在IT運維中往往每天都在進行,占用了大量的運維資源。因此,實現運維管理工作的自動化對企業來說已迫在眉睫。
現在隨著IT運維管理工作的復雜度和難度的大大增加,僅靠過去幾個“運維英雄”或“技術大拿”來包打天下已經行不通了,企業開始需要運用專業化、標準化和流程化的手段來實現運維工作的自動化管理。因為通過自動化監控系統能及時發現故障隱患,主動的告訴用戶需要關注的資源,以達到防患于未然。例如,全天候自動檢測與及時報警能實現IT運維的“全天候無人值守”,大大降低IT運維人員的工作負擔。而且,通過自動化診斷能***限度地減少維修時間,提高服務質量。因此, 對于越來越復雜的IT運維來說,將純粹的人工操作變為一定程度的自動化管理是一個重要發展趨勢。
首先,IT運維流程自動化能夠提高流程的可控性,可以基于業務需求來制定個性化的流程,使企業領導有機會看見他們的業務流程,對企業流程有一個深刻的分析和理解,進而改造和優化流程。
其次,IT運維流程的自動化能提高透明度。因為隨著業務需求的變化可能會有多個版本出現,手工流程的不透明將會給流程定制和優化帶來相當大的困難,而自動化流程可以使用戶能夠一目了然的看到整個流程的各個節點運轉情況,自動化工具潛移默化地提升業務保障能力。
再者,運維系統實行了自動化監控以后,通過工具自動監控對人的工作是一種減負,也是一種降低成本的表現。
IT運維自動化管理的具體內容
IT運維已經在風風雨雨中走過了十幾個春秋,如今它正以一種全新的姿態擺在我們面前--自動化,這是IT技術發展的必然結果?,F在IT系統的復雜性已經客觀上要求IT運維必須能夠實現數字化、自動化維護。所謂IT運維管理的自動化是指通過將日常IT運維中大量的重復性工作(小到簡單的日常檢查、配置變更和軟件安裝,大到整個變更流程的組織調度)由過去的手工執行轉為自動化操作,從而減少乃至消除運維中的延遲,實現“零延時”的IT運維。
簡單的說,IT運維自動化是指基于流程化的框架,將事件與IT流程相關聯,一旦被監控系統發生性能超標或宕機,會觸發相關事件以及事先定義好的流程,可自動啟動故障響應和恢復機制。自動化工作平臺還可幫助IT運維人員完成日常的重復性工作(如備份、殺毒等),提高IT運維效率。同時,IT運維的自動化還要求能夠預測故障、在故障發生前能夠報警,讓IT運維人員把故障消除在發生前,將所產生損失減到***。
IT運維自動化的工具
對于企業來說,要特別關注兩類自動化工具:一是IT運維監控和診斷優化工具;二是運維流程自動化工具。這兩類工具主要應用于:
監控自動化,是指對重要的IT設備實施主動式監控,如路由器、交換機、防火墻等;
配置變更檢測自動化,是指IT設備配置參數一旦發生變化,將觸發變更流程轉給相關技術人員進行確認,通過自動檢測協助IT運維人員發現和維護配置;
維護事件提醒自動化,是指通過對IT設備和應用活動的時時監控,當發生異常事件時系統自動啟動報警和響應機制,***事件通知相關責任人;
系統健康檢測自動化,是指定期自動地對IT設備硬件和應用系統進行健康巡檢,配合IT運維團隊實施對系統的健康檢查和監控;
維護報告生成自動化,是指定期自動的對系統做日志的收集分析,記錄系統運行狀況,并通過階段性的監控、分析和總結,定時提供IT運維的可用性、性能、系統資源利用狀況分析報告。
編輯本段建立高效IT運維自動化管理的步驟
(1)建立自動化運維管理平臺
IT運維自動化管理建設的***步是要先建立IT運維的自動化監控和管理平臺。通過監控工具實現對用戶操作規范的約束和對IT資源進行實時監控,包括服務器、數據庫、中間件、存儲備份、網絡、安全、機房、業務應用和客戶端等內容,通過自動監控管理平臺實現故障或問題綜合處理和集中管理。例如,在自定義周期內進行自動觸發完成對IT運維的例行巡檢,形成檢查報告。包括自動運行維護,以完成對系統補丁的同步分發與升級、數據備份、病毒查殺等工作。
(2)建立故障事件自動觸發流程,提高故障處理效率
所有IT設備在遇到問題時要會自動報警,無論是系統自動報警還是使用人員報的故障,應以紅色標識顯示在運維屏幕上。然后IT運維人員只需要按照相關知識庫的數據,一步一步操作就可以。因此,企業需要事先建立自動工單式流程管理,當設備或軟件發生異常或超出預警指標時會觸發相關的事件,同時觸發相關工單處理流程給相關IT運維人員。IT運維人員必須在指定時間內完成流程所規定的環節與工作,以提高IT運維響應問題的效率。
(3)建立規范的事件跟蹤流程,強化運維執行力度
IT運維自動化管理建設時,首先需要建立故障和事件處理跟蹤流程,利用表格工具等記錄故障及其處理情況,以建立運維日志,并定期回顧從中辨識和發現問題的線索和根源。事實上許多實踐也證明,建立每種事件的規范化處理和跟蹤指南,可以減少IT運維操作的隨意性和強化運維的執行力度,在很大程度上可降低故障發生的概率。同時,用戶還應可以通過自助服務臺、電話服務臺等隨時追蹤該故障請求的處理狀態。
(4)設立IT運維關鍵流程,引入優先處理原則
設立IT運維關鍵流程,引入優先處理原則是指要求CIO定義出IT運維的每個關鍵流程,不僅僅是定義流程是什么,還包括要指出每個關鍵流程對企業有什么影響和意義。同時,在設置自動化流程時還需要引入優先處理原則,例行的事按常規處理,特別事件要按優先級次序處理,也就是把事件細分為例行事件和例外關鍵事件。
變革帶來的思考
當變革產生的時候,如果不能主動應對變革,必然會產生失衡,失衡的后果就是信息化建設的坍塌??萍嫉陌l展帶來了新的IT運維需求,相關服務提供商需 要做的事情是找到應對需求變化的理論方法和技術手段。而用戶的信息化管理者需要做的則是找到合理的解決方案并且快速的部署實施。
實際上,無論用戶還是IT運維服務提供商,他們所探求的核心目的是一致的,那就是將分散的IT資源進行統一的融合管理。不同的是IT運維服務提供商是解決問題的技術提供者,用戶是解決問題的方案使用者。
對于統一的融合管理,需要融合哪些方面?通過什么樣的手段進行統一管理?對于這些問題,H3C的iMC2.0數據中心管理解決方案提出了很好的參考意見。
想要做到統一融合管理,需要解決的問題可以分成四個方向:
一、融合的基礎設施管理;
二、智能的自動化管理;
三、完善的安全管控策略;
四、開放的IT管理架構。
融合的基礎設施管理包括:
1、 統一網絡管理平臺。通過統一的網絡管理平臺將海量的網絡和服務器節點進行實時的監控,通過有效的閥值設定,實現準確的故障以及與故障報警以及準確定位。
2、 虛擬網絡管理。將虛擬網絡與物理拓撲圖進行結合,動態顯示虛擬網絡、虛擬機的變化遷移,將原本比較抽象的虛擬機和虛擬網絡進行實體化管理,幫助用戶解決虛擬化的管理瓶頸。
3、 服務器應用管理。針對計算核心的實施監控,針對服務器本身硬件配置以及相關操作系統、虛擬化系統進行監控管理,確保業務計算核心穩定運行。
4、 業務流量分析。針對網絡流量以及相關數據包進行分析,一方面保證相關業務的帶寬穩定,同時衡量出不同業務對于信息化資源的需求,另一方面,對網絡流量的分析也可以杜絕安全隱患。
智能的自動化管理應該具有的特性包括:
1、虛擬資源自動遷移。服務器虛擬化為保障VM系統的可靠性、靈活性,提供了VM遷移、以及高可用性(HA)、熱備容錯(FT)、動態資源池調度 (DRS)等特性,這些特性都會影響VM的物理部署位置,而VM接入物理網絡設備是需要一定的網絡資源配置的,其接入位置的動態性就要求物理網絡配置能提 供隨需而動的管理能力,否則VM對網絡的連通性、安全性、可靠性需求就無法得到保障。為了實現網絡配置的動態遷移、隨需而動,準確定位VM和物理交換機的 連接關系是關鍵能力。正在形成標準的802.1Qbg協議不僅保證了所有網絡流量都必須在物理交換機上處理,而且通過EDCP/CDCP/VDP等協議解 決了VM和交換機連接關系的定位需求。另一方面物理交換機端口和VM的1:N連接關系,使針對每個VM的網絡配置實現精細化控制是非常復雜的,H3C實現 的802.1Qbg方案通過在物理交換機上支持vPort概念,為解決該問題提供了更好的支持。iMC基于802.1Qbg實現了虛擬化環境中網絡配置的 自動遷移能力。同時基于iMC對于網絡和服務器、VM的融合拓撲分析能力,支持vSwitch環境下的網絡配置自動遷移能力。首先根據用戶應用對網絡資源 的需求,定義網絡資源類型。然后將此網絡資源類型分配給不同的VM,則VM在遷移或啟動時,就會在網絡設備中自動分配相應的網絡資源。
2、數據中心設備“零配置”。這里所說的“零配置”是相關設備與IT運維系統之間的配置關系。對于企業用戶而言,內部的信息化設備的品牌繁多,相關 設備的更新換代也比較頻繁。如果運維系統需要針對每一臺設備進行配置備案的話,工作量浩大而繁瑣。而iMC的“零配置”指的是IT運維系統對于相關設備的 自動識別,相關監控數據的自動采集和抓取,這樣既節約了運維系統的上線時間,又降低了管理者的工作成本。
3、網絡服務自動編排。在云時代的數據中心環境中,我們所面臨的不再是一成不變的設備環境,基礎設施可能隨著業務需求的變換而不斷增長、調整。為了屏蔽不 同廠商、不同型號設備的差異,使IT管理員聚焦在服務本身,必須要作到對資源及業務的快速開通,實現高度智能的自動化管理。iMC借助融合的資源管理能 力,將各種資源提供的能力抽象出來,建立統一的機制,實現基于業務的編排能力。
4、IT服務水平自動度量。根據ITIL(信息技術基礎架構庫)規范要求,數據中心IT服務部門通過服務水平管理(SLA)來保證其服務有效,建立服務健 康水平監督體系,來保證服務達到規定的健康水平等級,即使服務失敗,也可以正確分析原因,幫助IT服務部門做出正確的應對決策。
完善的安全管控策略所需要的要素包括:
1、配置合規檢查
數據中心規模龐大,設備及系統眾多,管理人員經常面臨的問題就是大量重復設備配置的規范性、安全性問題。伴隨著各種審計體系在級別和頻度上的不斷增 加,傳統的通過人工方式檢查設備規范性的審計方法,不僅效率低下,還會存在遺漏,已經無法適應云時代數據中心的安全管控需求。都說安全問題“三分技術,七 分管理”,但是想要把那“七分管理”iMC配置合規檢查內置常用的策略,如NSA路由安全建議、PCI、Syslog功能、設備安全高級建議等,以滿足用 戶的日常檢查管理。用戶可以自定義合規策略,對網絡設備進行配置檢查。合規策略包括一個或多個檢查規則,一個檢查規則分為配置文件、接口、鏈路、聚合鏈 路、配置片段、腳本等不同類型,包含支持的廠商、設備系列、檢查內容來源、規則內容等信息。用戶可通過創建檢查任務來檢查設備是否符合合規策略,檢查任務 包含待檢查的合規策略、設備的信息等。檢查任務執行完畢后,可以通過報表查看設備違背合規的信息。對于違背合規的設備,用戶可以創建違規修復任務進行修 復,及時解決在數據中心環境中出現的配置問題,提高安全等級及各種法案法規的遵從度。
2、設備操作審計
設備資源是數據中心的基礎資源,對于設備管理的安全性也是信息安全的重要組成部分。與配置合規檢查不同的是,iMC設備操作審計從驗證管理員登陸設 備的身份、權限出發,根據企業設定的規則,合理分配訪問設備的權限,即明確管理用戶可訪問的設備,可執行的命令,可完成的操作并記錄設備管理員詳細的操作 行為信息,以利于以后歷史回溯和故障的判斷和分析。iMC設備操作審計通過TACACS+協議實現,提供基于接入情境的控制策略,統一的監控設備管理員的 登錄和執行命令行操作,支持主流廠商的設備,簡化操作員為設備管理員細化權限的過程,為管理帶來了便捷。
開放的IT管理架構的特點:
云計算最終的目標是達到系統的按需運營,運營系統能夠根據用戶請求執行服務的開通。任何一套管理系統,都不可能滿足所有用戶的需求,在云時代尤其如 此,這就要求用戶在建設數據中心時具備開放的管理戰略,IT管理系統具備開放的能力。iMC是一個開放架構的SOA平臺,所有iMC相關產品都是在此統一 平臺上開發的,并在此平臺上封裝網絡服務并開放服務接口,第三方產品可以使用基于iMC 平臺和開放的API接口實現對網絡資源的調度。
總之,實現IT運維的自動化管理是指通過將IT運維中日常的、大量的重復性工作自動化,把過去的手工執行轉為自動化操作。自動化是IT運維工作的升華,IT運維自動化不單純是一個維護過程,更是一個管理的提升過程,是IT運維的***層次,也是未來的發展趨勢。
看了這么多內容,相信大家對于IT運維自動化以及iMC已經有一些相關的了解了,感謝大家參與我們的活動,趕快回到論壇領取精美禮品吧,也許幸運大抽獎就會降臨到您的頭上哦。
論壇活動地址:http://bbs.51cto.com/thread-968362-1.html