餓了么程炎嶺:分享全站多活運(yùn)維時(shí)代的正確打開方式
原創(chuàng)【51CTO.com原創(chuàng)稿件】2017年12月01日-02日,由51CTO主辦的WOTD全球軟件開發(fā)技術(shù)峰會(huì)將在深圳中州萬豪酒店隆重舉行。本次峰會(huì)以軟件開發(fā)為主題,數(shù)十位專家級(jí)嘉賓將帶來多場(chǎng)精彩的技術(shù)內(nèi)容分享。屆時(shí),餓了么OPS負(fù)責(zé)人程炎嶺先生將在創(chuàng)新運(yùn)維探索專場(chǎng)與來賓分享"跨越籬笆——餓了么多活運(yùn)維上下求索"主題演講,為大家詳細(xì)闡述分享餓了么公司在運(yùn)維方面的探索以及實(shí)踐經(jīng)驗(yàn)。51CTO誠邀您蒞臨大會(huì),與我們共享技術(shù)帶來的喜悅。
以下是采訪實(shí)錄:
51CTO記者:能夠請(qǐng)您先概括一下本次演講的主要內(nèi)容?
程炎嶺:本次演講主要分享從傳統(tǒng)運(yùn)維跨越那道看不見的“籬笆”,最終實(shí)現(xiàn)多活運(yùn)維,整個(gè)過程中帶來哪些運(yùn)維形態(tài)上的改變。
演講主要包含五方面內(nèi)容,分別為一業(yè)務(wù)特性,為什么在餓了么可以支持特有的多活;二運(yùn)維規(guī)劃,多活前設(shè)計(jì)上需要考慮哪些運(yùn)維上面的規(guī)劃;三對(duì)運(yùn)維體系上會(huì)帶來哪些復(fù)雜性;四運(yùn)營(yíng)體系(主要是質(zhì)量監(jiān)控和效率)會(huì)帶來哪些改變;五自動(dòng)化、智能化任重道遠(yuǎn)。
51CTO記者:能否先介紹一下餓了么運(yùn)維工作的主要特點(diǎn)?餓了么的業(yè)務(wù)發(fā)展非常迅速,對(duì)運(yùn)維工作帶來的主要壓力是什么?
程炎嶺:有一組數(shù)字可以讓大家快速了解餓了么的運(yùn)維工作量:餓了么目前有4個(gè)物理IDC,2朵云,約15000臺(tái)物理服務(wù)器,1600個(gè)應(yīng)用appid,1000名技術(shù)開發(fā)人員,支撐日均***訂單,過去一年內(nèi)平均日交付服務(wù)器60臺(tái),日均發(fā)布146次,回滾11次,歷史上最長(zhǎng)全網(wǎng)穩(wěn)定計(jì)數(shù)器為135天。
餓了么的運(yùn)維實(shí)際上是運(yùn)維+運(yùn)營(yíng),其中運(yùn)維的工作大同小異,主要集中在底層基礎(chǔ)設(shè)施環(huán)境規(guī)劃、建設(shè)、交付以及上層業(yè)務(wù)的支持工作,目前正在為產(chǎn)研自助方向努力。而運(yùn)營(yíng)的思路會(huì)很特別,需要運(yùn)維團(tuán)隊(duì)更多對(duì)數(shù)據(jù)敏感如服務(wù)質(zhì)量、CPU利用率、成本分?jǐn)偂⒎€(wěn)定性SLA等。
我認(rèn)為運(yùn)維工作感受到的***壓力來自于如何跟上業(yè)務(wù)/技術(shù)發(fā)展的節(jié)奏,用最短的時(shí)間提高產(chǎn)研的效率。舉個(gè)例子:如何一鍵構(gòu)造/銷毀某一個(gè)服務(wù)的測(cè)試環(huán)境,如何一鍵拉取某一個(gè)服務(wù)依賴的所有資源,發(fā)生故障后各依賴服務(wù)如何快速的自證清白等等。我們需要花更多的精力去思考,改進(jìn)我們的工具產(chǎn)品,而不能僅僅滿足于當(dāng)下的運(yùn)維狀態(tài)。
51CTO記者:據(jù)了解,餓了么主站多活切換目前運(yùn)行半年了,現(xiàn)狀如何?為什么要做主站多活切換呢?它的好處是什么?主要解決了哪些問題?
程炎嶺:今年5月,餓了么主站***次多活切換成功。緊接著在6月底,餓了么啟動(dòng)物流多活項(xiàng)目,9月21日,物流多活改造成功完成,餓了么進(jìn)入了全站多活時(shí)代。
為什么要做多活?因?yàn)槎嗷钍羌夹g(shù)上的一大革命性創(chuàng)新,除了解決達(dá)到單機(jī)房容量上限外,更多還承擔(dān)了容災(zāi)【兜底】的工作,尤其是關(guān)鍵路徑、核心基礎(chǔ)設(shè)施、核心組件發(fā)生各種災(zāi)難性、短期不可恢復(fù)故障以及外力不可抗拒因素的一種【續(xù)命】手段。概括的說,支撐業(yè)務(wù)擴(kuò)展,容災(zāi)保障是做多活的兩大好處,它解決了單機(jī)房不可擴(kuò)容,業(yè)務(wù)復(fù)雜/技術(shù)復(fù)雜之后怎么快速止損、恢復(fù)業(yè)務(wù)兩大難題,效果遠(yuǎn)比災(zāi)備要好。
在全站多活演練成功之前,運(yùn)維團(tuán)隊(duì)包括全公司已經(jīng)閉關(guān)了很久。正所謂“兵馬未動(dòng),糧草先行”,基礎(chǔ)運(yùn)維團(tuán)隊(duì)用了不到一個(gè)月的時(shí)間完成了上架、調(diào)試、部署以及交付。與此同時(shí),DBA團(tuán)隊(duì)、中間件團(tuán)隊(duì)規(guī)劃了數(shù)據(jù)庫的改造、接入、運(yùn)維方案,完成了數(shù)百次支持、答疑工作。
在整個(gè)過程中,運(yùn)維團(tuán)隊(duì)非常辛苦。很多情況下,工具是滯后的,也沒有很好的參考案例可供研究。但即便如此,業(yè)務(wù)運(yùn)維團(tuán)隊(duì)依然協(xié)助產(chǎn)研完成了整個(gè)多活測(cè)試環(huán)境(模擬雙zone)的規(guī)劃,部署,調(diào)試,以及參與討論、實(shí)施多次技術(shù)改造、部署方案。
51CTO記者:對(duì)于運(yùn)維工作,您還有哪些經(jīng)驗(yàn)愿意分享?
程炎嶺:運(yùn)維工作有一個(gè)話題很火:是要做“救火”式的運(yùn)維,還是“運(yùn)營(yíng)”式的運(yùn)維?前者可能是大部分公司的做法,后者是大部分公司的愿景。我認(rèn)為,要達(dá)到“運(yùn)營(yíng)”式運(yùn)維需要從五個(gè)方面加以考慮。
一是標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化是自動(dòng)化的基礎(chǔ),運(yùn)維的工作(大部分)都很瑣碎,也許這會(huì)我要去裝個(gè)機(jī)器,那會(huì)要去配置個(gè)nginx,一會(huì)又需要去排查一下為什么日志會(huì)丟失,等等,長(zhǎng)期下去,效率得不到提高,工作認(rèn)可度也不高。而對(duì)應(yīng)工具產(chǎn)品也會(huì)因?yàn)榉菢?biāo)準(zhǔn)的需求需要去做各種適應(yīng),而且做出來的工具還不被認(rèn)可(為什么這個(gè)功能沒有!!),服務(wù)核心流程標(biāo)準(zhǔn)化是自動(dòng)化工具的基礎(chǔ)。
二是規(guī)劃。提前做好規(guī)劃,比如你要用哪一種機(jī)型,統(tǒng)一操作系統(tǒng),統(tǒng)一部署方式,高可用是雙A還是AB,各種接入規(guī)范,使用姿勢(shì),技術(shù)方案,需要提前做好調(diào)研、規(guī)劃。基礎(chǔ)設(shè)施的改造牽一發(fā)而動(dòng)全身。并且改造大部分忽略小部分說不定哪天就會(huì)有坑。
三是效率。運(yùn)維要去了解業(yè)務(wù),了解對(duì)方的痛點(diǎn),盡可能做到一站式去解決一個(gè)需求,同時(shí)把一些業(yè)務(wù)不需要關(guān)心的內(nèi)容包裝掉。以一個(gè)商業(yè)化的角度,設(shè)定服務(wù)的SLA,去把自己的服務(wù)做成一個(gè)“對(duì)方愿意購買”的服務(wù)。
四是數(shù)據(jù)。一個(gè)應(yīng)用創(chuàng)建(上線)或運(yùn)行過程中產(chǎn)生的任何數(shù)據(jù)都很寶貴,運(yùn)維以及運(yùn)維工作中變更這個(gè)數(shù)據(jù)應(yīng)該很謹(jǐn)慎,如果一定要去變更,應(yīng)該問是否是流程沒有覆蓋,變更是否可以優(yōu)化。應(yīng)用資產(chǎn)數(shù)據(jù)能幫助我們統(tǒng)計(jì)依賴關(guān)系,一個(gè)連接有沒有流量來判斷業(yè)務(wù)是否在使用,等等,智能化運(yùn)維更是依賴這個(gè)基礎(chǔ)數(shù)據(jù),自動(dòng)化,智能化做不好,往往是數(shù)據(jù)不準(zhǔn)確。
五是平衡。平衡這個(gè)詞很虛,而且似乎跟技術(shù)沒多大關(guān)系。確實(shí)它也不是個(gè)技術(shù)問題。舉個(gè)例子,業(yè)務(wù)發(fā)展/技術(shù)發(fā)展中,尤其是一個(gè)不賺錢的業(yè)務(wù)/一個(gè)不確定能否推廣的技術(shù),如何去平衡調(diào)度資源。你可以吧問題拋給老板,但這也是運(yùn)維團(tuán)隊(duì)需要思考的問題。所以,技術(shù)問題相對(duì)反而好解決,而往往是一些非技術(shù)問題,我們很難決策。
51CTO記者:最近業(yè)界很多聲音在談自動(dòng)化運(yùn)維,智能運(yùn)維,可是目前并沒有統(tǒng)一的運(yùn)維標(biāo)準(zhǔn),您如何看待自動(dòng)化運(yùn)維,智能運(yùn)維的前途?您認(rèn)為真正的智能化運(yùn)維內(nèi)涵是什么?其真正落地還需要哪些條件?
程炎嶺:自動(dòng)化運(yùn)維,智能化運(yùn)維必然是潮流,只是運(yùn)維在不同階段面臨不同的問題。不同的公司重視的角度也不一樣,有的公司可能注重成本,有的公司可能注重效率,有的公司可能注重業(yè)務(wù),更多的公司是在不同階段分別重視不同的問題。而這個(gè)階段也沒有明確的“臨界點(diǎn)”,就很難形成一種業(yè)內(nèi)統(tǒng)一的運(yùn)維標(biāo)準(zhǔn)。但一定要有一個(gè)適合自己公司項(xiàng)目環(huán)境、技術(shù)文化、自上而下價(jià)值觀的標(biāo)準(zhǔn),不能千人千面。
我認(rèn)為真正的智能化運(yùn)維內(nèi)涵是數(shù)據(jù),統(tǒng)一的運(yùn)維價(jià)值觀,不要迷信方法論,它只是一個(gè)行為的準(zhǔn)則,是理論。真正的落地還是需要從解決實(shí)際問題的角度出發(fā),從而更好的服務(wù)用戶,服務(wù)于業(yè)務(wù)。
使用雙十一特別優(yōu)惠碼[2017WOTD1111],和我一起去WOTD全球軟件開發(fā)技術(shù)峰會(huì)。8折優(yōu)惠基礎(chǔ)上,再減512!詳情點(diǎn)擊wot.51cto.com
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】