為了萬分之五,我們堅持7x24小時
如果用一句話,描述運維團隊的工作狀態
那大概就是
“在機房里面機房外面,有一群男精靈,
他們熬夜很清醒,他們加班到天明。”
每一個穩定運行的系統,
都是因為有這樣一群運維團隊在背后
夜以繼日、全年無休地
處理成千上萬條系統預警
但是呢?就算是這么努力
一年365天中
總難免碰到那么一兩次系統延遲
遭受來自四野八荒的瘋狂轟炸
“為什么系統登不上去了?”
“為什么訪問速度這么慢?”
“為什么頁面加載不出來?”
.......
但是,還是要弱弱地跟用戶爸爸們
說一句:系統宕機就和人會感冒一樣
難以百分百完全避免
真的
先來看幾條新聞
再來看一組數據
你會發現
想要系統永不宕機,簡直是一個世紀難題
畢竟兩個馬爸爸都沒有解決掉
但是,好的運維就像高明的醫生一樣
可以做到立刻恢復
好在我們舟譜(99.95%)也沒有拖后腿
和BAT處在了一樣的水平
讓客戶用上更好用更穩定的系統
是我們一直以來的追求,
為此,我們也付出不懈的努力
并取得了一定的成效
除了我們的99.95%在線服務率
在過去半年里,
我們的千人周問題數下降了4-5倍;
(每1k人使用一周可能碰到的缺陷數)
在線問題響應時間最快可達5分鐘;
問題處理時間也有了大幅度提升,
95%的問題可在24小時內解決......
而這一切都離不開
我們的整個研發團隊和運維保障體系
在背后的全力支撐
什么是運維保障體系
運維保障體系是為了提高軟件的開發效率及穩定性,降低軟件的運行成本。換句話說就是只幫忙,不添亂。
舟譜數據技術總監王宏祥指出:“實際上,基于這個目的,舟譜運維團隊要做兩件事。在研發層面,運維要為研發提供最優質的工具,提升產品迭代效率,讓用戶需求得以及時滿足;在系統保障層面,為保障用戶使用流暢,運維一方面要協助客戶處理操作難題;另一方面,運維需要進行不間斷的系統監控及優化,保證整套系統持續穩定。”
01
提升研發效率
讓用戶迅速獲得最好用的產品
為保證產品/功能以最快的速度、最優的品質交付用戶,運維要為研發提供最高效的工具。除了采用Gitlab+Jenkin+Nexus自建倉庫自動化構建自動化集成平臺等工具外,運維還提供了CI/CD自動化工具,通過自動化的校檢,促進軟件項目的持續集成與交付的速度,使得開發團隊可以保持軟件更新并將其迅速的投入實踐中,大大提升了產品的迭代效率。
也正基于此,舟譜整套技術解決方案能夠得以快速落成,并且產品保持每2周迭代一次的頻率,每年滿足客戶需求近千條。在不斷的更新和優化之下,產品功能更加完善,系統也更穩定更好用。
02
提升監控密度及問題響應速度
保證用戶使用流暢
為了保證用戶使用順暢,舟譜運維團隊還提供全天在線的技術支持。比如,在幫助客戶處理誤刪數據上,我們做到了數據秒級回滾,數據在時間上可以精確到秒還原,無縫銜接;在處理刪除銷售單問題處理上,我們不僅可以精確還原單據,還可以追蹤到具體操作時間,幫助客戶找到管理上的漏洞。對于用戶比較關注的數據安全問題,我們采用最先進的網絡安全協議,機密傳輸及備份,并且為每一位客戶單獨分配一個數據庫來隔離,全面保護用戶的數據安全。
“運維并不是系統能跑起來,用戶用起來就萬事大吉,第一時間發現問題,能第一時間預警,能第一時間自動化解決才是運維最終目標。”
為此,舟譜引入了云監控+自建監控多層級告警的方式 ,能更細力度監控各項資源的可用性以及性能,可以實時感知到業務的任何變化,并且做出實時決策,早用戶一步發現故障或性能瓶頸。不僅如此,我們還采用了備用服務器,當某一集群或地區出現故障,能夠迅速響應,第一時間切換到另一地區,正常提供服務;與此同時,實行集群化部署策略,自動消除單點服務保障。除了自動化解決問題外,為了及時應對0.05%可能出現的故障,我們的7x24小時oncall排班策略還在持續發揮著作用,最快5分鐘迅速響應,快速恢復,95%的問題保證在24小時內解決。
一直以來,舟譜行進在一條高速迭代的快車道。從2016年第一款產品舟譜云管家上線,到目前舟譜形成了整套技術解決方案,在這期間,我們不斷收集新的訴求,運用新的技術,并以每月2-3次高速迭代的頻率來逐步豐富和完善產品。在一段時間里,相較于低頻迭代來說,高速迭代會增加系統的不穩定性,因為相對而言不動的東西最穩定;但從長遠來看,軟件更新換代,匹配不斷變化的業態才是正確的姿態,所以舟譜一如既往堅持走在快車道上。
而我們運維保障體系也在不斷地迭代,追求以更為輕便、高效的方式保證用戶使用更流暢,即便在出現故障時,也能保障用戶的使用不受影響或者受影響的程度可以降到最低。為客戶能夠持續獲得更好的產品及服務,我們還在持續努力著。
【本文是51CTO專欄機構“舟譜數據”的原創文章,微信公眾號“舟譜數據( id: zhoupudata)”】