專訪云智慧COO潘濤:移動互聯時代 云監控如何助力IT運維管理
原創云計算、移動互聯網的快速發展正在引發一場新的變革。隨著IT系統、業務環境的復雜性增加,傳統的IT運維方式已經不能適應企業快速發展的業務需求。企業不再只著眼于硬件開發,而是對應用技術、運營維護的需求越來越高,這給企業的應用性能管理帶來新的挑戰和機遇。
不久前,云智慧(北京)科技有限公司COO潘濤與51CTO記者談到,目前國內很多公司IT架構與業務是割裂的,往往是根據常規運行經驗來制定業務計劃。但這種方式效率極低、誤差很大,可能導致網絡和服務器閑置或過載。下面讓我們一起看看潘老師和他的團隊,在為企業提供這些問題的應對方案的過程中,有著怎樣獨到的見解。
方向:移動互聯時代的應用性能管理應該轉向立體化
隨著移動互聯網的發展,傳統的PC用戶逐漸轉向APP。潘濤告訴記者,雖然現在的APP平臺已經開始提供一體化的APP開發環境,但傳統企業在這個過程中仍然前進的比較艱難。
支撐移動互聯網產品和服務的是軟件和數據,其背后是所構成的代碼。代碼的實現很復雜,那么交付和持續優化就變得非常重要。在此之外,傳統行業的客服跟蹤在移動互聯網會涉及問題反饋、問題定位,***確認具體錯誤和負責人解決問題。在這種冗長復雜的問題定位和處理流程下,即使問題得以解決,用戶也很難得到好的體驗。
要解決這個問題,只有確保自身IT支撐系統穩定高效的運行,這就需要強有力的IT運維管理體系,來時刻監控和管理IT環境各組件的性能質量。目前很多時候,我們都將網站監控、服務性能監控、服務器監控、網頁性能管理等割裂開來,但實際這些組件相互間對性能影響的是存在關聯的。如果對它們獨立進行監控管理,不僅使運維人員工作繁多,也很難快速、準確地對問題發生的環節定位。
為解決這個問題,云智慧的做法是,提供端到端的性能和可用性監控的立體化APM方案,來將這些獨立的監控項目整合在一起并建立關系,做到實時監控并快速定位問題。這也開創了國內市場的先河。
潘濤告訴我們,IT應用的最終實現就是從用戶端發起到服務器最終執行的過程,也就是我們常說的end to end。云智慧APM將IT各組件性能的監控分為六段,覆蓋從用戶、內容傳輸、防火墻、服務器、服務商內網數據庫和存儲的每個環節,能夠實現代碼級問題定位和實時數據監測分析,對外部容區性能的RS并發率、吞吐率等關鍵性指標,提供準確的監控數據。不論是移動APP還是Web應用,都可通過自身功能構建起立體化的企業風險預警、解決、優化方案。
根源:后端接口問題才是改善用戶體驗的關鍵
越來越多的應用服務封裝成一系列的API開放出去供第三方使用,很多在線服務應用都可以通過API數據接口調用的方式快速獲取。因此,應用接口數據服務性能的差異會直接關系到業務運營質量。前端的性能問題可能影響到某個平臺或是部分用戶,而如果服務端的接口調用出現問題,則會影響到所有用戶的服務質量。這是最容易被忽略掉的問題,卻也是非常關鍵的問題。
因此,整個應用交付數據接口的一致性、完整性和正確性,才是問題的根源,只有識別、區分、解決和控制了這些問題,才能從根本上消除和改善最終用戶體驗質量。在解決手機這一端應用問題的時候,云智慧更多的是采用API的方式,基于目前通用的移動端和服務器端的數據通訊的標準接進API性能的監控,快速定位和解決問題根源。
- 首先通過收集和診斷數據信息,來測量應用接口性能是否可用。
- 再針對響應時間和可用時長統計分析來進行可用率的統計,辨別數據請求和返回是否正確,實現從API和數據支撐層來保障用戶的數據通信運行邏輯始終符合預期結果。
- 具有強大的數據驗證引擎,可以支持JSON、XML甚至Text、Response Status驗證,實現跨多平臺的應用。
判斷:基于數據流間的邏輯找準問題節點
現在,運營人員在監管過程中常常陷入這樣的痛苦:雖然不斷收到告警,但是究竟該處理什么問題,運營人員卻很難準確和迅速定位。
如果通過對數據流的邏輯關系加以分析判斷,來給系統架構中的交換機、路由器、防火墻等貼上不同層級的標簽,采用分級的告警機制,就可以大大減少運營人員的痛苦了。如果從一級到十級劃分,***級是最前面的防火墻。***級發生故障,后面的指標肯定都不通了,如果都報警,運營人員肯定吃不消。當重要級別高的部分發出告警了之后,底下的告警我們就不用去看了,只要去做它的維護就行了。分層的告警機制可以解決現在大家收到的警告太多,卻對怎么解決問題,解決哪里的問題無從下手。
潘濤告訴我們,云智慧在做到分級的故障分發之外,還可以通過對高凝指標數據之間流邏輯關系的分析,來提供更加智通的監控和告警方案。用戶可以根據自己的情況和需求去編制告警策略,根據它的邏輯去編制,這樣一旦出現故障和緊急情況這種方式很容易幫他去找到問題的節點,而不是像現在一堆告警卻不知道到底處理哪個。而且,根據故障的緊迫和重要程度,也可以選擇通知不同的對象,是先通知我們的運維人員,還是先通知網站的CTO。都可以在定制策略中通過設置告警閾值,來進行靈活的自定義告警設置,來幫助用戶更加及時的捕捉突發變化,進行性能調優。
#p#
探索:利用大數據技術實現對問題的預見
大數據技術的迅速發展,對性能測試實時性和持續性問題的分析和發現帶來很大的幫助。目前,云智慧也在基于大數據技術,不斷完善對監測故障預見性課題的研究。潘濤告訴我們,兩個端所有的新聞數據,包含故障的數據,和運行正常的數據。如何挖掘這些數據的價值,來進行預測的體驗,是非常重要的。
這里面有很多預測算法,比如說根據某個時點的流量,將用戶設備的儲存性能,物理性能和數據庫的性能中的數據提取出來,來預見優化方案,假設再有一個分點的時候機器可能應該加什么,是在前面繼續做LB的均衡負載呢,還是說應該提升你的儲存的硬件的配置或者物理級的配置,這實際是在一個大的模型里面。只有通過數據的大量積累,而且歷史曾經出現過的這種問題多的時候,這個模型才會更加完整,因為這些數據本身一定是有相關性的,但又未必必然。有時你的流量很大,服務負載很低;但是有時候你的流量很小,負載卻很大,這里面的問題到底在哪兒呢?硬件還是架構本身,還是代碼寫得不好?到底是怎樣的邏輯關系在起作用,云智慧現在還在探索預測算法,也是希望大家共同貢獻智慧的部分。
有待完善:國內云監控市場發展現狀
監控不是什么新鮮事物了,IT監控在有了Windows這種軟件以后就開始存在。而在潘濤的眼中,這個發展多年的市場里還有兩個問題,值得大家探討。
***個就是立體化的監控。現在大多數產品往往關注的還是在服務器端,缺乏的立體化子監控的提供方案。云智慧開創的六段的立體化監控對這塊的發展提供了很好的價值。
第二個就是監控意識的提高。縱觀全國大概共有300多萬個網站,隨著云智慧服務的不斷加深,目前已經對國內80多家網站提供了基于SaaS的APM方案。而在國外基本上80%的網站都有監控服務區,我們雖然說已經有了十幾年的歷史監控,但是還是不夠成熟。這個市場是非常大的。對于APM的發展,它的預見性是最重要的,這個預見性很可怕又很神奇,有些東西用戶可以一起參與。因為收集到的樣本越多,通過實時數據構建起來的預見模型和算法就更完善。所以我們國內監控市場的發展,首先要基于大家監控意識的提高。
趨勢:PaaS發展帶來新的市場潛力
APM概念真正意義的提出是在2008年,當時,國內企業在這一領域的涉足還很少,少數幾個傳統的IT巨頭盡管擁有類似的服務,但并不能滿足中小企業的需要,而且由于當時還處在套裝軟件階段,SaaS的理念才剛剛興起,基于SaaS的APM市場更是一片空白。
據潘濤介紹,云智慧提供的服務已經構建在SaaS之上,是在IaaS平臺上客戶端的一個SaaS服務。從今年的發展趨勢來看,PaaS發展速度更為迅猛。因為PaaS的好處在于,它的體系是成套的,能夠給創業者提供一體化的服務,尤其是在手機APP的應用和游戲的應用上面是非常多的。
做為云智慧來說,提供的服務中本身既有公有的IaaS的部分,也提供功能性自建的服務,實際是一個混合的概念,這也是目前國內的主流態勢。未來,云智慧雖然不會將服務遷移到PaaS上去,但是會有很多標準的開放的接口給大家提供,大家通過這些開放的標準的API可以集成很多的服務。PaaS平臺的開發也會調用到這個接口。所以PaaS層的發展對于云監控服務是會起到推動作用的。
歸根結底,大家首先關注的還是服務本身的能力以及對客戶的可用性,另外很重要的就是用戶的體驗。在用戶的體驗里有幾個緯度的指標,比如響應的時間,首頁加載的時間,操作流程的時間,這都是很重要的客戶體驗的指標。“其實大家會越來越往往兩端走,一端就是用戶這個體驗這端,還有一端就是你整個運行的這一端,這兩端是很重要的。”