經典案例:管理云服務性能的最佳實踐
當企業把核心IT系統遷移到私有云或者公有云網絡之后,工作并沒有結束。現在,還有一套不同的技術問題需要處理:即如何管理云,以保證企業的投資得到回報,提供所期待的效率和投資回報。
由于今年4月發生的亞馬遜EC2(彈性計算云)服務中斷事故,云管理和云監視已經變得更加重要。在那次事故中,IT領域看到了當云環境遇到故障時會出現什么情況,許多公司的業務隨著這次斷網故障而中斷。最近還發生了一些嚴重的云中斷事故。
IDC分析師Mary Johnston Turner稱,可以得到企業購買的性能是公有云的大陷阱之一。她在最近對250家個用戶公司進行的調查報告中指出,服務等級協議性能擔保排在重要性的第二位,僅次于應用程序本身的具體需求。
Turner稱,企業非常擔心性能。企業對私有云如此感興趣的原因之一是因為IT領導者負責為自己的用戶得到良好的性能。他們不準備把這些巨大的責任交給第三方云廠商。
當涉及到云計算的時候,管理軟件不再是一個事后考慮的事情;它必須是實施的一部分,每一次做決定的時候都必須要考慮如何最好地把云能力集成到企業的IT架構中去。
軟件即服務(SaaS)和基礎設施即服務(IaaS)這兩種類型的云計算承諾給企業IT任務帶來巨大的機會。如果IT專業人員要走在趨勢的前面,他們確實需要學習如何在涉及到SaaS和IaaS的問題時像專家一樣講話。
當涉及到云計算合同的時候,知識是關鍵,閱讀是基礎。
她補充說,那不只是一個云問題,而是復合應用的復雜性產生的一個問題。接下來,這些復合應用將引進到云環境中。
Turner稱,這是一個巨大的挑戰。用戶需要投資為復合應用和虛擬化環境制作的應用性能管理產品。現在這是一個完整類別的產品。
這個思路是能夠獨立地監視應用程序在網絡中的性能和在云中的性能,然后能夠衡量那個應用程序在什么地方達到了用戶的性能要求,是在防火墻內部還是外部。
IGN.com是全球最大的視頻游戲網站之一。對于該公司負責工程的副總裁David Ting來說,監視他的公司的云性能是非常重要的,因為這個業務的存亡取決于把該網站的254萬用戶連接到該網站由廣告支持的在線游戲中的能力。
Ting稱,“對于我們來說,性能就是金錢,因為觀看網頁是關鍵。我們是由廣告支持的,每一次觀看網頁的計數都能夠幫助本公司帶來收入。這是我們密切關注的事情。”
要使它完全發揮作用,媒體巨頭新聞集團旗下的ING娛樂部門使用位于舊金山的New Relic公司的性能監視工具連續不斷地觀察它的網站在云中的性能。Ting稱,我們主要依靠這個工具。對于我們來說,這就是IGN網站的響應時間和每秒處理次數。
隨著云部署的擴展跟蹤性能
IGN.com在大約18個月的時間里一直使用New Relic工具。它首先把非生產性開發和其它應用遷移到云中以觀察它們是如何工作的。現在,IGN.com正在把一些新的項目放在云服務器中,包括一個社交媒體棧,這樣,該公司就能加強應用程序并且根據需要升級這些應用程序。此外,計劃部署在這個云中的一個應用是這個網絡的災難恢復基礎設施。
Ting在談到該公司的IT系統時表示,這個系統最終將全部遷移到云中。我們未來要做這個事情的時候必須保證性能的穩定性。我們正在關注這個事情。
Ting稱,New Relic工具監視能夠提供IGN使用其它工具不能提供的性能指標。這些老式工具進行物理機器監視是很好的,但是,在沒有工程團隊做大量工作的情況下根本就不能進行應用程序棧監視。
通過觀察New Relic的管理工具,IT員工能夠啟動更多的基于云的服務器,關閉性能不佳的應用程序實例,然后根據需求增加新的實例以保持用戶的響應時間。采用以前的工具,Ting的團隊只能了解正常運行時間,看不到響應時間。
Ting解釋說,New Relic為響應時間提供了巨大的可見性。這允許IT員工甚至能夠在服務器運行的時候采取行動。例如,我們發現一臺Memcached(高性能的分布式內存對象緩存系統)服務器執行的實例性能比這個池中的其它服務器差很多。在進一步調查之前,我們發現一個內存模塊出現了故障。在Nagios(一種開源的免費網絡監視工具)環境中,那臺服務器會一直運行到死機。
IGN.com目前正在使用亞馬遜的EC2服務進入云領域。
采用New Relic工具, IGN.com能夠觀察這個三層架構的所有的方面,從它的前臺到它的數據庫再到它的API(應用程序編程接口)層。這個管理工具幫助保證用戶響應時間處于優化狀態并且不達到高峰。
Ting說,“我們能夠查看什么正在云中運行,使用插件收集數據并且把這些分析結果發回到New Relic工具。這些數據將非常詳細地告訴你這些服務器組的性能如何。”
“數據量和數據的準確性是非常重要的。這是我們查看指標的起點和能夠使用它做出智能化商務決策的起點。”Ting說。
除了遷移其IT基礎設施之外,IGN.com一直在探索利用云托管它的100多個網站中的許多網站以便提高性能和正常運行時間。主要網站包括IGN.com、Askmen.com、Gamespy.com、Fileplanet.com、Teamxbox.com和Gamestats.com。
“到目前為止,測試一直是積極的。我們已經讓一些基礎設施部件遷移到了云中。這個事情目前正處在試驗階段。我們在檢查性能。”Ting說。#p#
使用各種工具
位于舊金山的專業體育和大學體育的粉絲簡訊在線出版商Bleacher Report一年前在把自己的核心基礎設施遷移到云中之后很快就發現了性能監視的重要性。
該公司副總裁Sam Parnell稱,他的公司擔心潛在的性能問題,包括可能的延遲問題,因為該公司要按比例增加能量以滿足2000萬用戶的需求和每個月查看5億次網頁的需求。為了防止出現瓶頸,他購買了大量的工具為這個廣告支持的網站監視和管理這個新的云環境。
Parnell表示,“沒有任何一個工具能夠為我們做一切事情。我們在不同的層次使用不同的工具,為我們提供全面的監視套件。到目前為止,沒有出現延遲問題。不過,我們使用這些工具優化系統的各個部分。”
該公司的工具箱包括一個服務器級的工具Scout。這個工具允許IT員工查看在主數據庫和備用數據庫中的工作量是什么樣子,以及查看服務器上的處理器利用率和內存消耗。使用在云服務器中運行的代理程序可以完成這種監視并且報告提醒和狀態數據。
這家公司還使用Nagios Enterprises的監視工具和Monit的開源軟件工具。Parnell稱,“這些工具肯定有許多是重疊的。但是,這些工具都有自己擅長的功能。這是我們一起使用這些工具的原因。”
Bleacher Report還使用Pingdom的ping檢測工具以保證各個網站正常運行和在運行很好地運行。
“在監視的每一個案例中,100%的正常運行時間和快速的網頁響應速度是非常重要的。如果人們不能訪問這個網站和看到廣告,那么,我們就要虧損。”Parnell說。
這家公司還使用New Relic的工具監視應用程序性能。這樣,IT人員就能了解哪些網頁運行速度快、哪些網頁速度慢、內存消耗和處理器使用等性能問題。
實時觀察
Parnell稱,他的員工不間斷地觀察監視數據實時到達顯示屏上情況。
他指出,關鍵是利用廣泛的產品進行監視。這樣,在出現故障的時候,你就會盡快得到更多的信息以便修復故障。總的來說,我寧可要過多的數據也不喜歡數據不夠。New Relic工具能夠很好地把重要信息顯示在控制臺。這樣,你就不必費力地閱讀數據。當你要迅速查看運行狀態時,這是有幫助的。
為了實時觀察性能,Parnell的團隊使用一些大尺寸顯示器不斷地循環播放不同的報告,以便讓這個團隊的成員一整天都能看到這些報告。Parnell解釋說,我們不是每一天都整天深入挖掘這些報告。但是,我們確實監視看起來異常的東西。當我們需要深入挖掘數據的時候,所有這些工具都為我們提供深入的數據。
監視器屏幕主要由一組負責的工程師觀看,特別是在部署新的功能或者在高負荷工作的時候。
另一個需要記住的要點是,云環境和云監視都處在早期階段。IT部門需要靈活一些,找到和使用云監視工具,并且要繼續尋找更好的新工具。
Parnell稱,我們使用Scout工具只有5、6個月的時間。這個工具工作得非常好。但是,在5個月之后,其它的工具可能做得更好。你需要了解市場的脈搏。這樣,你才能跟上新的工具。新的公司一直在不斷地出現。
他說,另一個要記住的事情是,你要不斷地監視你的云廠商提供的服務器以保證你總是擁有性能最佳的服務器。
“這是使用云服務的最大好處之一。使用云服務,你可以通過控制面板放棄速度慢的服務器并且選擇另一臺服務器。”
監視工具還一直在內部使用以改善網站新功能的開發。這些新功能都是為Bleacher Report的讀者提供的。
“如果一個工程師正在部署一個新功能,我要求他們一定要觀察性能并且保證這個新功能不會對其它地方的性能造成不利的影響。我們繼續調整和精選這個系統中的一切東西以保證它盡可能是速度最快的。如果突然出現一個重要的體育新聞,我們的網絡流量會很大。一切都需要升級。我們需要能夠處理這個情況。
知道你將得到什么和監視什么
Forrester Research分析師James Staten稱,要得到你的公司確實需要的功能,你必須向你的云廠商提出你的具體要求。
Staten稱,最重要的事情之一是透明度,他們將向你提供的性能到底是什么?這包括詢問他們允許你直接進行什么水平的監視以及他們向你發送什么記錄,這樣,你就能夠看到正在發生什么事情。如果云廠商沒有向你提供這些東西,你要求他們提供。
Staten稱,你與你的云廠商之間的關系的主要部分是管理你的預期。他指出,你要做的任何性能監視都是你的責任,而不是你的廠商的責任。
如果你自己不能做這種監視,你可以雇用許多公司為你做這個事情。這些公司包括HyperStratus、Keynote Systems、惠普、IBM、Accenture以及其它公司。
許多人認為他們的服務級協議包含性能監視,實際上是不包括的。服務級協議包括可用性,僅此而已。
他補充說,同時,你的公司在云網絡中運行的所有的應用程序和服務并非都是重要任務的。因此,你沒有必要監視在云中一切應用程序的性能。你必須搞清楚重要的應用程序是什么。
端對端的云管理還差很遠
IDC分析師Turner稱,最后一個要考慮的事情是云性能監視市場仍然很不成熟。
Turner表示,有許多廠商將從路線圖的角度向你談論那個事情,但是,那是不全面的。今年仍然是主要強調自動化配置。那將允許真正的端對端的云監視。她說,隨著今年的過去,我想,我們將看到更高級的東西。
隨著更多的公司向云中的生產環境過渡,這種監視需求將變得更大。Turner稱,我認為這將是許多機構今年投資的首選領域。她預測稱,由于需要的高級程度,可能還需要一兩年時間才能達到那個程度。
Staten稱,當然,所有的監視需求都有相互矛盾的地方。當你付費進行監視以確保你將得到合同規定的性能的時候,你首先可能損害你的公司采用云服務節省的成本。如果你花許多錢解決延遲問題,那么,你在云服務中也應該花許多錢嗎?