搜狐運維總監黎志剛:暢游運維自動化探索之旅
原創【51CTO記者 謝海平 北京報道】云計算的出現抹殺掉了一切基礎性工作,這使運維行業感受到了前所未有的沖擊、威脅和變化。“智能運維、數字運維、No-Ops…”,一時間,各種創新運維模式不斷涌現。這些是否只是概念?
黎志剛,本次WOTA2017全球架構與運維峰會分享嘉賓。搜狐暢游系統運維中心總監,游戲行業近十年技術管理經驗。2008年加入暢游天下,現任系統運維中心總監及項目管理部經理、打造百萬用戶在線游戲技術運維平臺。 近年來,致力于建設一流的游戲技術團隊,負責全面管理運維工作,包括IDC/網絡/硬件規劃管理、系統運維、數據庫運維、應用運維、運維平臺與工具開發等;建立和完善規范化的運維體系,保障運維質量;不斷研發與探索運維自動化及各類創新途徑,縮短運維響應時間,減低運維成本。
51CTO:在打造自動化運維平臺上,您遇到哪些挑戰?后來是如何解決的?
黎志剛:挑戰主要有四個:
第一,人員。2011年接觸團隊的時候,核心人員流失嚴重,技術人員大都是專業度不高的基礎技術人員,需要花費大量的精力去招聘人員。在打造自動化運維平臺的過程中,經歷過兩、三次這樣的情況,后面主要是對技術和平臺要求有所提升,而現有人員的能力出現了瓶頸,所以我們需要去迭代、更換一部分能力高的技術人提供新的思路,從而打破瓶頸。
第二,運維模式。以前的運維模式會把自己當成服務者,或者支持者,但是,我們發現服務者、支持者做到后面就沒有更多的價值和產出。而隨著新興技術的興起,運維人員逐漸從幕后走向幕前,運維模式從以前被動等待需求,轉變為主動出擊去了解所有的業務需求,乃至于把控現有業務,然后部署自動化運維平臺架構。
第三,思維模式。從以前技術角度的思維模式,轉變為更開放的產品模式。以前,我們做的東西更傾向于工具,平臺化的東西很少,而現在的運維人員更多的是從產品角度思考,做的工具和相關的平臺也是用產品模式來做,恰恰思維模式的轉變,運維的價值才真正體現出來。
第四,溝通。以前我們很少和外界交流、溝通,大會也好或者同行之間交流也罷,通常不會特別多。但是,從2014年我們逐漸和相關的行業,包括騰訊、百度、阿里在內的互聯網企業進行大量交流,從而是找出暢游與他們存在的差距,另外,也讓團隊看到暢游提升的空間。人在公司呆久了會疲憊,同時又因為缺少與外界的交流,他會認為自己的系統是非常頂尖的,但實際上并非如此。
51CTO:目前DevOps是一個非常火的名詞,你對此是如何理解的?暢游又是如何實踐DevOps?
DevOps(英文Development和Operations的組合)是一組過程、方法與系統的統稱,用于促進開發(應用程序/軟件工程)、技術運營和質量保障(QA)部門之間的溝通、協作與整合。
DevOps是為了填補開發端和運維端之間的信息鴻溝,改善團隊之間的協作關系。
黎志剛:暢游打造的DevOps是運維和游戲研發的實時交付,這部分我們當時如何考慮的呢?早期,研發部門提供文件或者游戲的服務端版本給運維的時間通常是凌晨或者半夜,而且提供版本的狀態是非常少的,這種情況導致運維只能被動等待,因此,運維常常工作到半夜。為了改變運維的現狀,我們希望構建一個從研發階段到版本的制作、打包、發布以及版本最終的部署,面向用戶整個環節全部打通的平臺。在設計平臺的時候,我們優先解決的是版本發布的自動化,因為版本發布集成了代碼上傳、打包,測試等等,這個環節如果做不到自動化,后續的工作是無法進行的。
51CTO:對于企業各異構系統之間的一些通信、數據交互這些方面,暢游主要面臨哪些問題和挑戰呢?
1.系統交互接口不統一
2.全球同服
3.數據一致性
黎志剛:主要問題是所有系統之間交互的接口不統一。因此,我們要做一個數據總線,把所有數據的輸入和輸出全部做成標準化。網絡層面全國要能做到互聯互通是很難的,所以我們做了一個VPN隧道進行內網互通。
網絡架構上面臨的主要問題是全球同服。很多移動游戲都會做全球同服的概念,對于我們來說,不管是自動化系統,還是游戲服務器都得做全球同服。中國的玩家和外國的玩家要同時在一臺服務器上,這對網絡、系統要求非常大。
所以我們目前在做的方式是逐級加速,即有可能全球同服的服務器在香港,但是,如果我判定用戶來自美國,我不會讓他直接訪問香港,而是讓他先訪問他最近的區域,然后通過不同的區域逐級再跳到香港的服務器。然后我們在每一級上做一個加速,把用戶延遲問題解決掉,這樣就可以實現全球同服了。
數據交互上的問題是數據一致性,全球同服要求所有玩家的內容都必須相同,這會導致數據交互量非常大,如果所有數據都進行批量化傳輸,系統很難支撐。
為了解決這個問題,我們對所有交互的信息做了切割,哪些信息是必須同步的就進行同步,哪些信息可以異步就異步,例如玩家延遲很長時間也沒關系的思維數據。實時同步的數據盡可能壓縮到內網傳輸可控以及外網VPN傳輸可控的一個包大小就足以應對。
51CTO:那您認為云計算會給企業當前異構系統的維管理帶來哪些弊端?
黎志剛:壞處是成本核算和系統復雜度越來越高。第一,成本核算難度增加。如果物理機、公有云、私有云都使用,成本核算難度非常大;第二,系統復雜度增加。以前的所有平臺和系統只需對接一套系統,如果引入了公有云,意味公有云的管理也得接入平臺,這樣會導致自動化平臺和整個架構的復雜度增加。
51CTO:您認為云計算會不會成為解決企業本地異構性集成未來的一個可行路徑?
黎志剛:我認為云計算會是解決本地異構的可行路徑。比如暢游有的游戲系統用的是Windows,如果聘用大量Windows工程師,對企業來說成本很高,從長遠來看也沒有必要。因為公有云提供的服務十分豐富,暢游使用的阿里云的SQL Server,騰訊云則使用的如Windows操作系統,或者特殊的機器和一些技術的服務。云的便利性很強,在提高冗余性、效率等,維護的成本都可以得到控制,這樣不但可以節省大量成本,還可以大幅度減少等待的時間。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】