攜程網成功實施SiteView運維平臺
【51CTO.com 綜合報道】通過前期縝密的考察挑選,攜程旅行網與游龍科技正式達成合作意向,簽約并成功實施SiteView ECC綜合系統管理(Enterprise Control Center),用于管理攜程旅行網龐大復雜的IT系統。
項目背景:
攜程旅行網創立于1999年,總部設在上海,目前已在北京、廣州、深圳、成都、杭州、廈門、青島、南京、武漢、沈陽等10個城市設立分公司,并在全國30多個大中城市設有分支機構,現有員工近9000人。作為中國領先的綜合性大型旅行服務公司,攜程旅行網成功整合了高科技產業與傳統旅行業,被譽為互聯網和傳統旅行行業無縫結合的典范,并業已成為中國服務行業的成功企業樣板,并且受到國家領導人溫家寶、李克強等關注與參觀。
憑借穩健的業務發展和優異的贏利能力,CTRIP于2003年12月在美國納斯達克成功上市。Ctrip向全國2000萬會員提供在線集酒店預訂、機票預訂、度假預訂、商旅管理、特惠商戶及旅游資訊在內的全方位旅行服務,他們日益增長的龐大業務量對IT運維管理提出了很高的要求。在這種情況下,Ctrip最終選擇了 SiteView作為網絡運營監控管理的服務供應商。
實施方案
建設SiteView ECC監控系統的目的,是為了能夠利用一個統一平臺實現對Ctrip的服務器主機、網絡設備、操作系統、數據庫、應用系統、網站系統等IT基礎架構及關鍵業務系統的全面自動化監控和運營維護管理,從而實現對故障的實時發現和故障定位,提高工作效率,提供更好的運營保障,并能通過各類管理報表實時地了解整個系統的運行情況包括各項系統狀態和性能參數數據,實現資源的合理分配和利用。
監控規模
Ctrip網絡系統核心的眾多的服務器和運行在服務器上的各種應用上的幾千個關鍵指標納入Siteview管理,關鍵的網絡設備也有很多臺,監測的應用不但包括標準的web基礎組件,還包括相關的業務系統。
由于監控的設備數量非常龐大,為了提高監控的效率,采用了分布式部署的方式監控;分布式部署模式還能夠幫助Ctrip輕松應對年均30-40%的擴容壓力;系統采用B/S+C/S訪問方式和非代理式數據采集模式,管理人員可以通過瀏覽器或者專用的Client端連接到監控中心服務器對整個系統進行監控和管理。
另外SiteView ECC通過數據接口實現了與Ctrip的后臺系統的對接,可以在發現系統運行異常的時候,自動提交數據并根據異常現象的具體情況生成相應的工單從而轉入下一步的修復維護階段,最終實現IT運維管理自動化、系統化。
數據采集與呈現
SiteView ECC提供了幾百種不同類型的監測器對Ctrip IT系統的性能指標數據進行自動采集。針對每一個監控指標,SiteView ECC都根據大量用戶使用中累積的經驗提供了缺省的監控頻率和監控閥值,并可隨時對這些指標進行監控頻率和監控閥值的調整,提供了更為靈活的監控策略對整個IT系統進行監控。
SiteView ECC提供了豐富的數據呈現功能,能夠讓Ctrip運維人員實時快速定位故障點,在內部故障影響到用戶前就能夠及時處理。SiteView提供了統計視圖、樹形視圖、拓撲視圖三種數據呈現方式:
整體視圖可以查看和管理整個監控結構和監測器的細節;樹形視圖可以過濾出所有錯誤或者危險的監測器進行集中管理;拓撲視圖提供最直觀的圖形化界面進行整體狀態監控。通過整體視圖可以對服務器或者網絡設備進行添加、編輯、刪除,對于每一個監測器可以查看其監控的之前幾個小時內的簡單報告等操作。
在日常監控中,樹形視圖可以對整個監控系統中,發生故障的監測器進行過濾觀察,做到只關心發生問題或者有故障的應用,服務器或者網絡設備。同時Siteview提供了批量選擇、批量修改、批量添加等細節功能,幫助Ctrip輕松應對幾百臺設備的選擇、修改、添加等需求,體現了Siteview以人為本的理念。
報告系統
SiteView ECC的報表系統為Ctrip提供了多種形式的報表:統計報告、趨勢報告、TOPN報告、對比報告、時間段對比報告。統計報告,關于一段時間內的監控指標的統計信息;趨勢報告,體現任意指定時間段里的性能指標的變化趨勢,以便對系統負載做一個評估;TopN報告,列出同一類型監測指標中的前N項排序表。通過TOP N報表可以很容易的將數據排序輸出,根據排序方式的不同可以查看到各類系統資源的分配和利用情況。
根據Ctrip的實際需要,利用統計報告制作了適合運維管理的各類報表,對所有的服務器和網絡設備的監測指標按需求統計信息。對整個IT設備的監控指標進行TopN排序,如服務器的CPU、內存,網絡設備的流量等,對于分析Ctrip的IT運維情況起到了很好的效果。
在趨勢報告中,可以看出設備的某一監測器在一段時間內的運行趨勢,方便了對于服務器或者網絡設備的歷史數據的查看和故障信息的排查。
報警系統
根據實際情況,采用顏色報警和Email報警兩種報警方式。顏色報警是通過SiteView ECC Client端,在統計視圖或樹形視圖中對系統的監控,如果有危險或者錯誤的信息,即顯示黃色或者紅色的報警圖標。Email報警是系統有危險或者錯誤之后,以郵件的形式將故障信息發送給相應的管理人員,并通過Ctrip ITSM系統的接口,實現了監控系統與ITSM系統集成,從而實現了在報警的同時自動生成工單的功能。
SiteView ECC在Ctrip部署后的效果
目前SiteView ECC系統已經做為Ctrip IT運營系統的一部分正常運行且達到了良好的效果,通過基于SiteView ECC的IT運維管理系統的部署,可以供近百人的運營團隊利用SiteView平臺進行協同工作,一起對Ctrip龐大的IT基礎架構進行監控,進一步提高了Ctrip IT系統的管理、監控維護水平。
Ctrip的全部服務器和核心的網絡設備納入了SiteView ECC系統的監控范圍。SiteView ECC對服務器、網絡設備的性能、故障以及Ctrip的業務系統進行了監控。并做到了發現危險或者故障時候實現7*24實時報警,并完成與Ctrip 后臺系統的對接。同時設置了對所有的監測器自動或者手動的生成各種各樣的報表,做到了對監控系統的有據可查,并對IT運維的運行健康情況進行分析,為系統的進一步優化及升級擴容提供了數據支持。
SiteView ECC提供了方便友好的操作界面,使得Ctrip的所有運維人員都能夠很輕松地熟悉和掌握監控系統的操作和使用,這樣一來,使得原來一些復雜的、需要很高的技術和技巧的工作,都融合到了一個統一的平臺上,讓一般的操作人員也能夠完成復雜的運維工作,同時,SiteView提供了自動化的工作方式來替代原來需要消耗較多人力的手動系統巡查工作,節約了大量的人力。
SiteView ECC的部署使得Ctrip的運維人員可以在日常的運維工作中及時發現故障,避免系統的正常運行受到影響。同時系統發生異常時,SiteView ECC提供的系統監控數據,可以幫助運維人員快速定位和排查系統故障,從而大幅降低運營風險。
SiteView ECC提供的多種報表,為Ctrip IT系統的優化和升級決策提供了非常有效的數據支持,根據這些報表提供的數據,Ctrip可以對眾多IT資源進行合理再分配和優化,充分挖掘現有IT資源的潛力,有效保護在IT資源上的投入;同時也能夠更有針對性地對IT系統進行升級,全面提升IT系統的整體運營效率。
可以說SiteView ECC的部署不僅大大提高了Ctrip的運維工作效率和質量,而且還從側面提升了Ctrip的用戶滿意度和行業口碑,從而增強了企業競爭力。