谷歌李聰:“6個9”的運維成就是如何達成的?
原創2016年4月14-15日,由51CTO傳媒主辦的WOT2016互聯網運維與開發者大會在北京珠三角JW萬豪酒店召開。秉承專注技術、服務技術 人員的理念,自2012年以來,WOT品牌大會已經成功舉辦了八屆,積累了大量的技術專家資源,獲得了廣大IT從業者和技術愛好者的一致認可,成為了業界重要的技術分享交流平臺以及人脈拓展平臺。
在會上,51TO記者采訪了Google工程團隊帶頭人李聰,他在Google從業七年多,帶領開發和維護過多個項目,包括前端、后端、線下作業等。
“6個9”是如何實現的?
在“運維理念與實踐”為主題的演講中,李聰表示,其運維的理念與實踐的目標只有一個,就是99.9999%。業內的運維專家都了解,在軟件系統的高可靠性(也稱為可用性,英文描述為HA,High Available)里有個衡量其可靠性的標準——X個9,X個9表示在軟件系統1年時間的使用過程中,系統可以正常使用時間與總時間(1年)之比。這個X是代表通常數字3~5。而要達到6個9的標注也就是說(1-99.9999%)*365*24*60*60=31秒,表示該軟件系統在連續運行1年時間里最多可能的業務中斷時間是31秒,這是一個非常高標準的指標。
當記者問及,這個標準是如何達到的,李聰表示6個9對很多公司來說是很難的事情,對很多公司來說也不是特別必要的事情,而有一些比較重要的項目和服務,要做到六個9,首先要靠工程方法來解決做軟件開發與發布、運營問題;通過DevOps思想來協調不同的團隊,在組織架構和管理理念的方面達成共同的目標,達成高可用性。在管理之外,還有技術上的方法,比如基礎架構,或者低一點到機器的水平,也或者高一點,比方說要到測試到發布這整個一個流程,所有的各種各樣的環節都要配合到一起,恰到好處,才能達到六個9。
我的運維理念是什么?
李聰告訴記者,他的運維理念還是DevOps的概念,就是說如何促進兩個團隊通過合作來達成共同的一個目標。這些可以通過組織架構、構成方法以及技術手段來實現。比如他前段時間做Google+的項目,其運維就做的非常好,可以做到快速發布的同時保證其高可用性。他舉例道,比如一個開發者想上一個新的項目,今天提交,明天就可以上,可以做到這個程度,同時穩定性不會下降。
自動化運維會不會搶運維工程師的飯碗?
IT運維已經成為IT服務內涵中重要的組成部分。面對越來越復雜的業務,面對越來越多樣化的用戶需求,李聰認為自動化運維雖然不會完全取代傳統運維,但是其未來比重會越來越大。那么,隨著自動化運維的不斷進化,是否人們會擔心自動化運維會搶走運維工程師的飯碗呢?
李聰表示,運維工程師的飯碗是不會被搶走的,但是需要演變和進步。
“當自動化運維做到更好的時候,你的運維工程師會有更高級的工作要做,其實對于運維工程師來說是一件更好的事情,因為他把很多自己歷史上比較做得比較凄慘的事情交給自動化了,我覺得這對大家來說是比較好的事情。”
采訪***
他還提到,一個成熟的自動化運維系統應該具備自動監測、自動糾錯和類似報警的功能,提供一系列支持的工具,比如說回滾、發布等。
記者詢問李聰針對一些有志于從事運維自動化相關工作的年輕人,他有什么樣的建議。他表示應該找到一個和運維打交道較多的崗位,多學習,多觀察,然后多思考,就會有所收獲。