WOT架構師系列訪談(3)——金山西山居架構師劉宇
原創【編者按】 51CTO 2014 WOT全球軟件技術峰會將在2014年7月25-26日在北京富力萬麗酒店召開。從本周開始,我們將陸續公布會議內容,并針對即將參會的架構師訪談,以便大家進一步了解會議內容。會議詳細議程見: http://wot.51cto.com/2014/。
本次訪談的對象是劉宇。他目前就職于金山西山居游戲。近十年的運維經驗。從網管到架構師,每一次的歷練都是全新的挑戰。在本次的WOT軟件技術峰會中,劉宇老師將在“自動化運維”這個專場給大家做分享,關注自動化運維的同學們有耳福咯!敬請期待!
【講師簡歷】
劉宇,金山*西山居架構師,曾任職于新浪、百度,擔任高級系統工程。《Puppet實戰作者》,InfoQ社區編輯,自動化運維專家。近10年運維工作經驗,精通分布式自動化管理平臺、分布式監控平臺、云平臺;對視頻點播、直播架構、文件加速、調度系統和數據分析都有非常深入的研究,實踐經驗極為豐富。同時致力于技術分享,多次并不斷分享自己的經驗,http://linuxtone.org聯合創始人,曾被評為infoq金牌講師和51cto博客之星。
劉宇 (@守住每一天)
以下是對劉宇老師的訪談實錄:
記者:以您這么多年的運維經驗來看,如何才能做到在復雜的服務鏈上,定位運行所在的環節,并在發生故障時預估影響范圍?
劉宇:我個人認為,對自己運維的系統都要做到熟記于心。當然不是所有系統你都能全部記住,但是系統的核心必須熟記,現在很多系統管理員,都過份依賴筆記和電腦,而忘記了人的大腦就是***的計算機。只需要我們更加用心,服務鏈復雜也好,系統再龐大也好,都能做到得心應手,在發生故障時不必驚慌。以下幾點是我認為很有必要做到的:
- 各個系統做好高可用,每一個環節都需要考慮預案;
- 監控一切可以監控的信息,不要放過任何一個小的監控;
- 遇到故障時,需要有一顆龐大的內心,盡快解決問題;解決問題后要善于總結;
- 熟記系統核心關鍵點后,快速思考影響及故障級別,做到良好反饋與排查;
- 如有條件,開發一個關聯關系系統。
如果做到這些,在遇到故障時,可以快速定位,更高效地處理解決問題。
記者:在自動化運維工具的選擇上,您是怎么考慮的?目前您接觸過的自動化運維工具有哪些?
劉宇:首先,我并不是一個工具控,在開源產品的了解層面上,我還比較欠缺,我的好友@ARGV在這方面了解比我廣泛。我個人比較推薦將一款工具運用到***,根據產品及公司的應用場景進行系統的對比,選擇適合自己的工具,然后深入研究并使用,與業務完整的結合。所以說別人使用的工具,并不是一定適合你自己。
我所熟悉的自動化運維工具不多,但都是大家熟悉的:
- 持續集成:Jenkins
- 命令執行:Ansible,Salt,Func,Pssh等
- 配置管理:Puppet ,Chef等
- 監控:Nagios ,Zabbix等
記者:在自動化運維部署的過程中,有哪些需要注意的事項?可以從規劃、建設、管理、監控這些環節中說明。
劉宇:其實做自動化運維最難的是規范,從無到有是一個漫長的過程,這需要多個部門長時間的溝通與磨合。然而需要執行下去的時候就需要有一個良好的流程及規范來約束,往往不成功的地方都在這里,諸多原因吧。因此我建議可以按以下步驟進行嘗試:
- 從內部開始,慢慢試用,再嘗試推廣;
- 先定好規范,再談建設;
- 技術能解決的問題不要采用非技術手段。
從工具做起,慢慢發展為平臺。過程為:工具->系統->平臺。
記者:自動化運維是一個大命題,很多人認為規模比較小的企業無需做自動化運維部署,您是怎么看待這個問題的?
劉宇:以前也有朋友問過這個問題,我的建議是做。先不從公司層面考慮這個問題,運維人員是可以從中學到很多知識,了解熟悉工具,從流程及系統層面知道自動化運維。這也是一個突破。有一些人覺得沒有必要,規模達不到這個要求,但你可以參考自動化運維的思想自己來實現一套自有的系統,不是很cool么?你可以將所有機器的管理全部web化,這樣工作起來不是更輕松?
記者:就您個人而言,您目前最關注的技術是什么?您自己是如何學習并掌握新技術的?
劉宇:我目前比較關注的是自動化運維和云計算,以及一些實用的小技巧與技術。每個人每個階段都需要去學習不同層面的東西,這些都是因人而異的。
對于新技術的學習成本的確很高,特別是現在互聯網信息泛濫,信息過于膨脹了,各種工具,各種系統。我所做的事情主要有三件:
***件就是過濾,第二件就是實踐,第三件就是總結。
- 對當前有用的,加入todolist;
- 對當前沒用的,以后可能會用上的,收藏;
- 收藏一個月也沒有看過的,刪除;
- 實踐過覺得還不錯的,加入總結list;
- 自己寫個總結文檔。
這些是我自己平時的一些方法和經驗,雖然看起來不起眼,但是長期積累后,會有很大的收獲。(全文完)
阿里、百度、京東、淘寶、谷歌、Facebook、Tesla都到2014 WOT全球軟件技術峰會了,你還等什么?這些***的公司將***對外公開技術,涵蓋八大主題,共有40+課程,部署實施、運維開發、大數據、Spark、敏捷開發一個都不少。除了***手的經驗之外,還有未來兩三年的技術趨勢,你會讓自己錯過這樣的技術大會嗎?