技術專題·智能化運維
原創一、曲顯平
曲顯平,百度智能運維監控負責人,在運維監控、大數據處理與分析方向有著豐富的經驗。
點評內容:
2015年是中國互聯網智能化運維發展的元年,BAT等相繼提出這一思路,在這一領域進行了一些卓有成效的嘗試。隨著互聯網產品的蓬勃發展,和PAAS、APM、智能異常檢測、大數據分析、機器學習等技術的興起和逐漸成熟,運維技術也開啟了一個新的篇章,不難看出,這些技術都是希望解放人的大腦和雙手,而智能化便是大勢所趨,眾望所歸的結果。
智能化運維,顧名思義,與平臺化運維和自動化運維有著明顯的不同。平臺化運維注重的是入口的統一,運維服務或能力的復用,減少重復勞動,規范化操作;自動化運維注重的是大規模、批量化操作,一個程序一次性部署在成千上萬的服務器上,或者針對某些特定場景,能夠進行簡單的邏輯執行,把繁雜的運維工作組織為一個有機的過程,一次性執行。而智能化運維,是更大跨度的向前一步,這個標志應該是運維工作從依靠人工決策,逐步轉為依靠機器決策。舉幾個例子,故障的發現,以前多靠人工經驗來設定監控閾值,而機器可以通過歷史監控數據規律的學習,自動生成更加準確的閾值或通過異常模式識別去主動判斷異常的發生。這不僅能夠大量簡化人的工作,而且比人更精準;故障的定位,以前多靠人翻閱大量的監控數據、服務器日志,甚至聯絡各相關團隊工程師,分析線上所有變更事件等才能定位一個問題,而機器可以根據系統中的網絡、機房、程序上下游調用關系等,綜合所有監控數據和采集日志,來綜合分析和定位,這比人的效率更高且更全面;擴縮容、止損和預案操作等也是類似,還有很多其它的例子。智能化運維是希望終有一天,機器決策能夠大幅超越人工決策,那也就是運維人性解放的時刻。
2016年將是智能化運維全面鋪開,得到大力發展的一年。APM、智能異常檢測等技術將更加普及,逐漸取代運維工程師手工配置監控和實施策略。而智能化的故障定位技術也將覆蓋更廣泛,數據中心、網絡、程序、業務等各個層面的故障定位能力將得到全面提升,極大解放oncall工程師的大腦和雙手。而在故障恢復決策方面,智能化的監控系統將能夠和PAAS或預案管理等系統結合起來,由監控系統給出判斷決策,通知PAAS或預案執行系統來進行相應的降級或者止損操作。在不久的將來,相信運維工程師的雙手會得到極大解放,逐漸告別繁復的基礎運維工作,讓他們在發展DevOps的道路上走得更加深入,每個人都成為領域專家。
#p#
二、王津銀
王津銀,自稱老王(非隔壁那位)。2007年進入騰訊公司接觸運維,經歷服務器從百到萬的運維歷程,先后在YY和UC參與不同業務形態的運維,期間帶過前端運維、數據存儲運維、YY語音、游戲運維、運維研發等多種運維團隊,對運維有著全面的理解。極力倡導互聯網價值運維理念,即面向用戶的價值是由自動化平臺交付傳遞,同時由數據化來提煉和衡量。
點評內容:
智能運維有著更強的技術驅動因素,因此,從運維的技術發展進程來看,我們可以看到幾個階段:
1.腳本時代
用ssh+exp代替了手工登錄服務器維護的模式。
2.工具時代
以chef/puppet配置工具為代表,把運維的能力變成一個個的工具能力。
3.平臺時代
隨著IT敏捷性要求越來越高,需要把運維工具能力平臺化,進一步固化運維的常見場景。
4.智能時代
運維的精細化要求越來越高,從運維走向了IT運營,智能可以讓運維更簡單。
智能時代的確需要更多、更綜合的運維能力沉淀,需要更全面的自動化能力和數據分析能力,具體的實現需要考慮如下因素:
1.多邊系統集成
基于IaaS/PaaS的運維模式,引申出運維平臺的幾種模型,但該模型還遠遠不夠,他們存在邊界的割接,因此需要一個運維平臺來統一集成多方
的平臺能力。
2.多運維平臺的閉環對接
資源管理、業務信息管理平臺、自動化平臺、監控平臺、IT數據運營平臺等多個平臺要閉環對接,才能提供一站式的運維服務能力。
3.場景化的智能模式抽象
基于變更/故障/異常分析/預測等各個運維場景,都可以找到智能化的模型/具體實現。
4.IT大數據分析提供智能決策
需要更強的大數據實時分析能力,提供實時的變更和調度智能決策能力。
5.技術架構的智能化
無論是微服務還是Cloud Native的實現,其實都是從更高的技術架構要求上提供了自治能力,智能化的技術架構讓智能運維真正有了可能。
#p#
三、韓曉光
韓曉光,專業運維、兼職開發、干過商務,從事系統運維工作近10年。現就職于新華網(http://www.xinhuanet.com/),帶領運維開發團隊,承擔社交互動媒體幾十套業務系統、技術平臺運維。曾就職于中航信旗下航空結算公司,承擔國內外幾十家民航業務系統運維。具有“信息系統項目管理師”、“IBM CATE”、“ITIL Foundation”、“RHCE”專業資格認證。
點評內容:
2016年以及未來一段時間,“智能”將會更加普遍的應用到現實中,使我們的體驗更加豐富多元與深刻入微。比如人工智能、虛擬現實、物聯網、大數據、圖文識別等各種技術、產品將會深刻融入我們日常生活的方方面面。
與此同時,運維工作也將更加體現在智能化。運維智能化背后則是各種運維理念、技術、產品的升級優化,以及創新。運維智能化將更多體現在對各種技術創新的融合方面。
以往簡單的運維監控,僅僅依靠幾個互相獨立監控網管軟件來做。而運維智能化將更多體現在對各種運維信息的采集、分析、匯總、收斂、智能預警與智能自愈方面。
以往簡單的運維操作,通常寫幾個腳本、用幾個運維工具就是運維的主要工作了。而運維智能化則更多體現在DevOps敏捷運營上,快速有效規范地開發與部署,不斷地持續交付迭代。
以往簡單的運維規范,通常是沒有太多規范的。開發、業務有需要,運維則被動執行一些運維工作。人員職責不清,設備資產管理混亂,運維工作隨意沒有規矩。而運維智能化則更多體現在標準規范上,大體量高規格,以及良好的應急機制。
綜上可見,由于運維智能化,運維工作不會是越來越清閑了,相反承擔的企業發展戰略的責任越來越大了。運維部門將由傳統的IT成本中心更多地轉向IT服務中心、價值輸出中心、利潤輸出中心轉變。
#p#
四、編輯
系統頻道編輯 孫淑娟
虛擬化、容器、移動化、Hadoop、Docker......層出不窮,令人眼花繚亂,云計算、大數據、移動通信等互聯網新技術不斷演進,運維的技術含量越來越大,相應對運維人員的綜合素質及能力要求也越來越高,運維也不再是部署系統、寫管理腳本那么簡單了。
而且,隨著業務應用越來越復雜,設備數量越來越多,管理難度越來越高,運維人員必須高屋建瓴,全面謀劃,有能力提供一個全局性、高效健壯、標準規范、自動化乃至智能化的解決方案并加以實現。
智能化運維是用機器來代替運維人員,在最少人工干預下,結合運用腳本與第三方工具,保證業務7*24小時高效穩定運行,這也是運維工作的***目標。智能化運維要做到事前預警、事中恢復和事后存檔,實際上有大量的工作要完成。智能化運維不僅可以將運維人員從繁瑣的工作中解放出來,而且還大大提升了運維工作的效率,是2016年運維發展的主要方向。
相關技術點推薦:
◆ PAAS平臺
◆ SaaS平臺
◆ 運維產品化
◆ 全棧運維平臺
◆ 自動化運維
◆ DevOps
◆ 持續交付
◆ 分布式名字服務
◆ Docker
◆ Python