云環境的服務保障:主動性監控及容量管理
2011年11月30日,由BMC軟件舉辦的云計算管理技術大會在上海舉行,會上各路專家將就云計算愿景、云計算應用、云計算管理、業務服務管理(BSM)等話題展開精彩探討。以下是BMC中國***軟件顧問張健先生的精彩演講:
今天跟大家分享BMC在做云環境服務保障的一些心得。首先我談一下自己的觀點,我們通常在談云的時候,都是從IT層面去考慮,云怎么去部署,怎么去申請。但是對大部分客戶來說,關心的是云的服務,大家都用過云的服務,比如google的Gmail等,這是作為終端用戶使用云的想法。從這點來說,對于云,我理解叫云計算顯得太IT化一些,我個人看法我覺得叫云服務更恰當。在這個服務里面,是不是我們簡單在IT層面把相應的組件部署完成以后就OK了,實際上這個對傳統的IT管理來說是可行的,但是對于終端用戶來說,對于云的服務提供商來說應該是遠遠不夠的。
就像PPT中的例子,我們可以看到,比如Gmail和Amazon,有一個用戶在博客上發表了一個話我覺得很有意思,他說云服務不能運行了,給他的感覺就是覺得天塌了。用戶的***反應就很沮喪,因此從IT的管理層面來說,我們在完成云的發布以后,最重要的是什么呢?我們IT應該關注什么呢?從整個流程來看,前面大家在看云整個生命周期管理的時候看到,在云的生命周期管理里面,在***步我們會做云服務的請求,什么時候可以進行服務的發布,我需要什么樣的配置,這是其中一部分,而另外一塊,我們在云服務發布以后,決定什么時候回收對云進行回收,這只是其中的一部分。但是實際在很多時候,云在運行的時候是有很長一段時間是要提供給用戶作為服務的,因此我們在整個云的管理里面,要著重看一下怎么保障云服務。
在云保障服務里面,我們會有幾塊需要去關注,比如云的服務保障,它和傳統的IT基礎架構的保障有什么不一樣?***,在云的架構里面,實際傳統的IT基礎架構都還存在,不管你前面提供什么樣的云服務,在后臺實際我們看到的還是一些服務器它上面運行的一些相應組件做了一些虛擬化的劃分,因此我們在整個云服務保障管理的最基本層面還是考慮,我們怎么對IT的基礎架構進行管理,并且在保證這些服務的時候,我們還要去考慮作為云有自己的一些特點。***,云整個的環境是相當復雜的。實際我們在做云的服務提供的時候,不光光是單一的一個品牌,可能在云環境里面,我只用某一種指定的服務器,可能在云上面會運行各種各樣的數據庫,我這個數據庫可能會跨到不同的平臺。我們在Google做搜索的時候,可能我這個搜索就會去橫跨幾百臺到上千臺的服務器,這個平臺是相當復雜的。第二,我們在做云服務的時候,實際要管理的不光光是我內部的用戶,有可能我使用云的時候,或者云的使用用戶是在外網的,或者我申請了云的資源是在外網的。第三,我在做云的時候,我提供服務的時候,很多用戶有各種各樣的終端,有手機終端,有PC服務器還有筆記本都可以連接進來。
因此,從前面講的這些特點,在整個云服務保障里面,我們需要著重考慮幾點。***,我怎么去保障我的服務水平,保障服務水平實際會分成兩個層面,一個是從用戶自己的感受角度去看,我怎么保障這些云的服務,就是用戶的使用體驗好不好。之后從IT運維角度來看,我提供云服務以后,首先要告訴用戶我提供的云服務是否是好用的,我給你的保障是怎樣的,我給你簽訂了幾種級別的云服務,我怎么去保障。第二個層面,我們提供云服務,后臺還是離不開各種IT組件的支持。在后臺支撐的各個組件里,這些組件能不能對云服務提供支撐,提供支撐這些組件的運行效率是怎樣的,并且考慮運行效率的時候,相應的性能是不是能夠符合我業務的發展,在什么時候會遇到瓶頸,在后臺的性能管理里面都要及時了解。第三層次,在整個云的架構里面是一個復雜架構,高擴展的環境,在做云服務的時候就要經常審計一下,比如在提供的云服務中,當我分配一個虛擬環境的時候,我需要考慮提供虛擬化池的時候分配是否分配在正確的地方,或者現在有沒有存在一些競爭,如果存在競爭的話,我這些服務器應該怎么擺放?是不是有調整的可能。所以在整個云服務保障里面,我們都需要考慮這幾點,并且這些在一開始規劃的時候就應該規劃進去。
綜合上面幾點來看,***我們在做云服務保障的時候,我們目標是什么?首先,我們要保障我們整個的云可以提供優質的服務。在這里面我們會考慮針對這些需求我們需要什么能力,需要有一種手段主動去發現我現在的服務水平是否能夠滿足我的需求,從用戶那一端,或者從我這一端都可以看到針對我提供的服務,用戶的感受是什么樣的。還需要有一些手段能夠保障在云的環境里面提供的能力是能夠滿足我業務需求的發展,并且在我提供的服務出現問題之前,就能夠通知用戶,應該具有預測的能力,而不是等服務真正出現問題之后才告訴用戶現在服務做不了。在持續優化層面,通過一些手段,首先幫助我們了解現在的狀態。第二,根據現在的容量和狀況去分析我現在的環境是不是能夠支撐我未來的發展。第三我還需要根據我的業務優先級判斷,如果我業務增長,我需要有什么手段去優化我現在云的環境。
我們可以看到在整個流程里面,從服務交付和服務回收之前,云服務保障占了很大一塊。BMC也相應提供了一些手段在整個云生命周期里面來進行保障。在整個生命周期管理里面,BMC在CLM1.0和2.0里面已經內置了服務保障,實際上提供幾種能力,***種我們做云環境發布的時候,比如用戶申請一個服務器,這個服務器可能要裝一些數據庫,中間件,這些環境我發布以后,在用戶收到這些虛擬環境以后,最想了解的是***我每個月或者我每天運行的狀態是什么樣的,有沒有資源的緊缺等,對于用戶來說是這樣的。對于IT管理人員我們也想知道,我們發布的數據運行情況怎么樣,這樣你在部署云環境的時候就要進行選擇,是不是要添加相應的模塊,這些模塊會隨著你云環境的劃分自動部署到里面去。第二,在部署的時候,支持的平臺是多樣性的,它其實不是局限于特定的一家廠商,在發布的時候我們可以支持已有各種虛擬化的存儲平臺,甚至是第三方的云的平臺。
接下來我們可以看一下,在每一個模塊里面,比如在服務水平管理里面,我們會提供什么樣的能力,在服務水平管理里面,我們可以看到,首先我們會有一個面向IT運維人員的平臺,我們提供的服務在什么區域不可用,總體的狀況是什么樣的,哪個用戶在使用你服務時候出現了什么問題,比如是不響應時間慢,還是中斷的情況比較多,從這上面我可以時時了解你當前提供云服務的狀況。第二層次在服務管理里面,我做一筆交易,或者我去訪問云服務的時候,比如我收郵件,我多久郵件可以收到,或者我傳數據的時候,我數據是不是真的傳上去了,這一塊我們還會考慮用戶的真實體現。我們傳統的IT管理,大部分還是關注我的組織架構,比如內部環境里面的服務器,中間件的這些故障。現在我們在日常運維當中,包括很多IT的運行當中,我提供的各個組件都是很好,但是用戶的體驗不好,因此我們就需要從各個層面判斷,到底我提供的服務不好在哪里?現在出現問題是哪些方面出現問題了,根據用戶使用的環境,通過用戶感知的手段和我后臺的手段,幫助IT運維人員提供相應的判斷。同樣的,在整個運維里面,從用戶感知的一些重要性,在傳統層面,我們還是從用戶的角度,從IT運維的角度去感受我提供這些服務是不是好的。但是在云的層面,BMC提供的方案,這不光是云的服務保障了,針對于整個運維環境,BMC提供的方案。首先我可以感知用戶使用的狀況有沒有出現問題,第二,如果出現問題以后,你在后臺深層次的模塊有哪些問題,比如中間件里面出現問題了,或者數據庫里面出現問題了,我能夠一層層挖掘出現的問題,從而快速的修復你的問題。在主動監控層面,BMC提供什么樣的能力呢?在整個云環境里面我們架構是相當復雜的,在BMC整個云服務保障方案里面,我們可以收集來自各方面的數據,比如我們看BMC本身自己有很多的監控模塊可以監控云環境里面的組件,第二,我們可以去收集第三方的數據,這個數據收集不僅僅是告警的事件,同時也可以把原來的性能數據綜合進來進行分析,幫助你做深層次的挖掘。同時,在擴展上面BMC還可以結合之前收集到的云服務用戶體驗的數據,以及第三方用戶提供云服務的數據。在主動監控里面,用戶在出現問題的時候,通常會從業務視角去關心,我們IT運維人員這時候就看,哪個問題出現中斷了,這個問題出現中斷以后對其他服務也沒有影響,影響范圍有多大,這個范圍如果深層次挖掘下去,應該是哪些IT組件帶來的問題,這樣能夠幫助你快速定位問題。在云整個的服務保障的監控里面,我們還會看到,云說到底層都是一些虛擬化的資源,在服務保障和監控里面我就需要有能力,快速跟蹤你資源池的變化,特別是虛擬機,現在隨著資源的劃分,這個虛擬機今天運行A,明天運行B,我要有能力根據資源池里面各個虛擬機本身的變化,去追蹤它的監控。第二,在整個服務保障的監控里面,BMC能夠自動的去跟蹤你所有的虛擬機的變化,并且支持現在可以看到的所有虛擬化的平臺。在服務保障里面,如果大家在做復合云,或者在公用云使用的時候會發現,在這里面還會用到外部的云,這對一些國外用戶比較多,國內用戶現在也慢慢多起來。在國內來說,就像移動和其他的一些電信,政府慢慢也在做公用的云,BMC現在在全球推出的方案當中,已經內置了針對于Amazon提供的監控,不光能夠從云上采取數據,同時也能夠了解當前云的部署情況,它的資源使用情況。
從服務保障的層次來看,從IT運維角度或者云管理角度來看,我們需要不斷保障我資源的使用。***我必須要了解資源是不是好的,這些資源是否足夠用。第二,這些資源如果不夠用了我如何去分配,或者看哪些地方有相應的資源可以使用。在整個容量管理里面,針對于云,通過BMC的容量管理方案,***我可以從你的各種監控里面發現整個虛擬環境的使用情況,資源分配的情況,虛擬環境里面會包括主機,服務器各種資源。第二,我可以在這里面找出現在你哪些空間是可以用的,或者哪臺服務器是比較緊張的。這時候我就會考慮,我通過容量的規劃,我去看一下,如果我把新的虛擬化的資源部署到新的服務器以后,當前資源競爭的情況會不會有改善,在這里面我們都會進行一些考量。從整體來說,從云生命周期管理里面,在云服務保障里面,我們關注的是BMC用戶體驗管理,主動性能監控管理,容量管理,還有報表與分析。
下面我們再看一下BMC在其他監控里面,各個產品模塊的一些特點。在整個監控里面,***,主動式的性能管理。它能收取各種各樣的數據,包括SAP的監控,還有其他虛擬環境的數據都可以進行收集,收集的時候不光光采集單組組件的性能,還采集應用的性能。收集上來以后我要做一些數據處理,這些數據處理上我有很多特點。***,它會采用動態閾值手段進行分析。第二,可以采用各種智能化的手段,發現各個監控對象之間的關系,通過這些關系列舉出你相應問題發生以后,每個事件后臺對應的根源模塊的情況。當我們實際在監控的時候,我們不光在云環境監控,或者在傳統的IT架構里面監控,如果出現問題以后,你能不能幫我去做一些自動的修復,比如我的文件系統滿了,你能不能自動幫我清除一下,更進一步的包括如果出現問題以后,能不能幫我判斷一下,現在這個問題是因為配置變更導致的,還是因為服務停止導致的。在這里面bbpm都可以幫助你解決這些。
在BMC的容量管理里面,我們看幾點,一個是過去的狀況是怎么樣的。第二,我現在的狀況是不是能夠支撐。第三,我未來的狀態如果改變了,我現在怎么去應對它。這在里面,從整個模塊里面會包括三點,***我現在容量問題的分析,這些數據你可以是BMC自己采集,也可以是你原來的一些數據,比如我原來監控產品的一些數據,或者你原來壓力測試的數據都可以放在里面來分析。第二,如果出現問題以后,我要看一下有什么方式去解決它,比如我的物理服務器需要做一些變動,如果我做了變動以后,我目前的容量狀況能不能改變,在這里面都可以進行相應的分析和判斷。***一點,我們看一下,在BMC的應用管理的模塊里面,我們會提供幾個能力,***,我們可以從實際用戶的交易里面去獲取很多信息,比如現在實際的用戶有哪一些交易在做,分析以后我會提供一個相應的能力去發現,原來你的趨勢是什么樣的,現在出現什么問題了,如果同正常的運行不一樣,在這不一樣里面到底是哪些不一樣,是你的出錯量大于正常的情況,比如原來在某個地方可能出錯兩三筆,現會達到幾十筆,這樣我們就需要去關注。收到這些信息以后,在整個容量分析里面就可以做比對,一個看原來的情況是怎么樣的,原來運行的模式是什么樣的,如果現在出現問題以后,具體的數據是怎么樣的,趨勢是怎么樣的,并且是誰出現了這些問題,為什么出現?在這里面還可以提供各種手段,我可以針對各個區域進行分析。最重要一點在應用管理里面,不光光要發現問題,實際發現問題以后還有很多表象,我們還要有能力定位到底在哪些組件里面出現錯誤,比如我在訪問的時候是數據庫訪問緩慢還是外面站點訪問緩慢,BMC的解決方案都能夠幫你分析這些問題。