WOT架構(gòu)師系列訪談(8)—— 奇虎360孔德亮
原創(chuàng)【編者按】 51CTO 2014 WOT全球軟件技術(shù)峰會將在2014年7月25-26日在北京富力萬麗酒店召開。從本周開始,我們將陸續(xù)公布會議內(nèi)容,并針對即將參會的架構(gòu)師訪談,以便大家進(jìn)一步了解會議內(nèi)容。會議詳細(xì)議程見: http://wot.51cto.com/2014/。
本次訪談的對象是孔德亮。他是奇虎 360 WEB平臺部高級技術(shù)經(jīng)理,HULK私有云架構(gòu)師,主要負(fù)責(zé)360私有云建設(shè)。在本次的WOT軟件技術(shù)峰會中,孔德亮將在自動化運維專場分享《奇虎360的自動化運維升級之路》,著重介紹軟件管理、配置管理、集群管理在360的演變過程。敬請期待!
【講師簡歷】
孔德亮,2009年加入360,在一個不到20人的部門,作為唯一的運維工程師維護(hù)60多臺服務(wù)器,隨著360的發(fā)展,開始了內(nèi)部創(chuàng)業(yè)之旅,通過逐步積累形成私有云平臺,吸引更多部門使用,目前平臺已經(jīng)服務(wù)于90%的業(yè)務(wù)線。
孔德亮(@Randy素年錦時)
以下是訪談實錄:
記者:您認(rèn)為自動化運維是什么,奇虎360在實施自動化運維的過程中遇到了哪些困難?最終是如何克服的?
孔德亮:我認(rèn)為實現(xiàn)運維自動化是每個運維人員的基本素養(yǎng),即使是管理十臺服務(wù)器也應(yīng)該實施自動化。把復(fù)雜的、重復(fù)的工作變簡單,節(jié)省出時間投入到更有意義的技術(shù)研究中去。
我經(jīng)歷了360從十幾個項目到幾百個項目;幾十臺服務(wù)器到上萬臺服務(wù)器的發(fā)展過程,360創(chuàng)業(yè)初期都是開發(fā)工程師兼職運維工作,各自為戰(zhàn),不規(guī)范、不統(tǒng)一,使自運維自動化遇到很大麻煩。我們從以下幾點進(jìn)行改進(jìn):
- 基于Puppet,將軟件包、配置文件作為管理對象,形成集群配置管理系統(tǒng)。
- 采用開源的salt-stack作為命令系統(tǒng)的底層,上層封裝業(yè)務(wù)邏輯層和命令調(diào)度層,形成命令執(zhí)行系統(tǒng)。
- 以項目為中心,將域名、負(fù)載均衡、主機(jī)、配置文件、軟件環(huán)境、數(shù)據(jù)庫實例、通用基礎(chǔ)服務(wù)等相關(guān)聯(lián),使得關(guān)聯(lián)關(guān)系清晰可見,形成基礎(chǔ)信息庫。
記者:實施自動化運維后,在日志分析和性能監(jiān)測等方面是不是也有了相對應(yīng)的改進(jìn)?主要用了哪些技術(shù)來實現(xiàn)?
孔德亮:在日志分析和性能監(jiān)測方面確實做了很多改進(jìn)。
1、日志分析方面,我們規(guī)約了用戶日志的存儲路徑,日志收集采用Puppet+Scribe模式,通過Puppet確保Scribe的配置的強(qiáng)一致性以及確保服務(wù)的可用性,Scribe作為客戶端的日志發(fā)送代理,將日志寫入到Storm中,Storm分析后寫入Hbase,這樣不管是計算層還是存儲層的擴(kuò)張,都能夠?qū)崿F(xiàn)平滑擴(kuò)容。
2、性能檢測方面,我們不是單純以服務(wù)器、核心軟件緯度進(jìn)行檢測,而是結(jié)合基礎(chǔ)信息庫的關(guān)聯(lián)關(guān)系,將項目中各模塊檢測數(shù)據(jù)進(jìn)行匯總,進(jìn)行綜合評定,很像360安全衛(wèi)士的體檢功能。
記者:對于奇虎360當(dāng)前的自動化運維架構(gòu)而言,您認(rèn)為還有哪些方面可以優(yōu)化的?
孔德亮:在剛?cè)胄械臅r候看到一個前輩提到運維閉環(huán)體系,通過不斷摸索,結(jié)合360環(huán)境希望在如下方面不斷優(yōu)化:
- 容量評估,輔助決策
- 硬件選型,機(jī)房建設(shè)
- 制定項目的運維架構(gòu)方案
- 配置管理、包管理、集群管理
- 日常運維事務(wù)、故障處理
- 監(jiān)控與分析
記者:作為HULK私有云平臺架構(gòu)師而言,談?wù)勊鼘τ?60以及你個人的意義。
孔德亮:初期因為運維自動化才有了HULK的雛形,時至今日運維自動化已僅僅是HULK的一部分。在我從事運維工作7年之癢的臨界點,我做了件讓自己感覺很酷的事情,每當(dāng)想到自己的平臺,能讓運維、開發(fā)、產(chǎn)品、運營的同事通過友好的交互,點點鼠標(biāo)完成以前復(fù)雜的事情,我就會變得異常興奮,有了好的想法,我就馬上用Axure畫成原型圖和團(tuán)隊的兄弟論證試錯,不斷改進(jìn)。
HULK私有云目前主要意義總結(jié)為如下幾點:
- 解決運維自動化的問題
- 提供通用基礎(chǔ)服務(wù),避免項目開發(fā)過程中重復(fù)造輪子
- 將各團(tuán)隊技術(shù)沉淀通過平臺傳播,維護(hù)技術(shù)共享的氛圍
相信通過我和團(tuán)隊兄弟的持續(xù)努力,專注鉆研,時間會給予我們豐厚的回報。(全文完)
阿里、百度、京東、淘寶、谷歌、Facebook、Tesla都到2014 WOT全球軟件技術(shù)峰會了,你還等什么?這些頂級的公司將首次對外公開技術(shù),涵蓋八大主題,共有40+課程,部署實施、運維開發(fā)、大數(shù)據(jù)、Spark、敏捷開發(fā)一個都不少。除了第一手的經(jīng)驗之外,還有未來兩三年的技術(shù)趨勢,你會讓自己錯過這樣的技術(shù)大會嗎?