搜狗張博:智能運維不是代替而是升級
原創【51CTO.com原創稿件】“初夏,你終于有機會去享受那寶貴的年假。海風溫和,日光溫暖,你戴著墨鏡,閑情地看浪潮起落。此刻你正回憶,初入運維時那‘故障無情,假期無休’的日子……手機適時地響了——‘報警’。你不慌不忙,對著手機語音說了一句:‘回滾。’便放下手機繼續看海,任海風吹亂你的發,而你的內心正如遠方的海一樣平靜。”
這是2017年4月15日“WOTA全球架構與運維峰會”上,搜狗運維總監張博描繪的未來運維的理想狀態。他當天的演講深入介紹了當下搜狗為實現理想運維(“智能運維”)而正在研究的方向。會后,我們有機會與張博先生進行了深入交流與采訪。
張博·搜狗運維總監
運維的三大痛點
運維之所以如此地渴望一個安心地假期,在張博看來這恰恰就是當下運維痛點存在地突出體現。目前運維普遍存在三大痛點:操心成本、煩人成本、智商不夠用,這三個痛點也正是張博演講時反復提到的。
所謂操心成本即與相聲《扔靴子》所表達的主題相似——你并不知道“第二雙靴子什么時候扔下來”,運維也是同樣的道理,你并不知道故障什么時候來臨,所以你一直提心吊膽,惶惶不安。并且很多時候報警了,但是并不能反映真實情況,這都是運維操心成本范疇。
煩人成本則是保證線上可靠性所導致的,一旦出現問題,無論大小,運維人員是首先被問詢的,所以運維人員最容易被打擾,這導致運維人員并沒有大塊的時間去做運維開發(搜狗規定:運維人員不做開發將不允升職)以及開發效率過低。
第三個痛點:智商不夠用,很簡單,從字面便可理解。遇到故障了,但是并不一定能夠立即定位故障,特別是遇到復雜故障,如何找出故障是非常痛點的問題。
針對當下運維的痛點問題,搜狗都做了哪些工作呢?張博與我們分享了正在進行的三個項目,這三個項目共同組建了搜狗的智能運維體系。
智能熔斷實現原理
首先,是智能熔斷系統。這是目前搜狗針對運維操心成本正在研發的項目,其主要思路是:根據運維問題的時序性,做智能監控,一旦發生問題,運維人員便可遠程進行操作,可采取熔斷回滾。這并非是什么新技術。在股票、醫學領域,基于時間軸的數據監控早已被廣泛應用。股市利用數據監控預測股票漲跌,醫學可以利用數據監控預測疾病的發生時間,這些特點與運維有高度的相似性。而這恰恰也是目前運維領域的挑戰所在,尖端人才大都集中在金融與醫學領域,IT領域寥寥無幾。
智能問答系統——維秘
第二,則是智能問答系統——維秘。這個問答系統已經在搜狗內部開始內測,這也是為了解決運維的第二個痛點——煩人成本。運維人員每天需要解答各種各樣的問題,這個工作需要花費大量的瑣碎時間,而這個工作完全可以交由智能機器人來解決。
智能機器人
這個機器人有三個功能,一個是智能查單的功能,在搜狗內部運維系統有很多工單,當咨詢人員工單號,就能查到工單進行到哪一步了,類似于在搜狗搜索里面,你輸入快遞單號就能顯示快遞狀態。第二個智能找人,咨詢人員提問后,可能并沒有命中知識庫(知識庫由運維人員提前編輯整理好),機器人沒法回答,但機器人可以判斷這個問題是屬于哪個領域,然后推薦此領域的專家,如問到硬盤的問題,則會推薦一位硬件領域專家解答問題。而咨詢人員與專家的對話又將得以保存,并作為機器進一步學習的資料。第三個就是最為常見的智能問答,咨詢人員提出問題,機器人直接根據知識庫來進行解答。
第三,故障精確定位系統。這是搜狗目前已經完成的項目。當收到一個從用戶端訪問搜狗業務報警的時候,這說明搜狗的網站可靠性出了問題。以往解決問題往往都是基于經驗,人肉定位。張博表示,如今搜狗的做法則是把問題抽離成一個規則的模板,抽離成一個規則的集合,然后基于特定業務架構圖去分析,最終定位故障具體原因。
大致的算法是每一個探針的請求都帶一個ID,這個ID在各個模塊都是打通的。搜狗運維人員分析這個請求的ID在每個模塊里面它的表現,根據這些規則模板看它是否命中設定規則模板,然后定位系統系統再根據這些規則模板的命中情況做一個決策,將故障定位。甚至可以定位它是屬于哪個模塊的哪個節點,這樣就可以快速的去處理這個故障。
這三個系統是張博與搜狗運維同仁為實現未來運維理想狀態——面朝大海,萬事OK,正做的努力,然而我們又要回歸到一個經常被討論的問題,實現理想之后呢?運維會被自己創造出的人工智能代替嗎?
被問到這個問題,張博面露微笑,顯然他早有觀點,張博異常堅定地表示:“運維人員的工作肯定不會被代替!但是運維所從事的工作內容會發生質的改變。人工智能到來之前,運維人員從事的工作依舊是上線人肉操作。但是智能運維到來之后,運維人員則是負責智能運維引擎的研發,讓引擎更聰明更穩定,所以人工智能的到來不僅不會讓運維工程師失業,而是讓運維工作升級。因為畢竟強大的不是人工智能,而是開發這些人工智能的人。”
這個觀點與遞歸神經網絡之父、德國計算機科學家尤爾根·施米德胡貝觀點頗為相似:“人類總是很善于創造原本并不存在的那些工作……預測哪些工作崗位將會消失并不是難事,但預測未來將會出現什么新崗位就不容易了。在1980年代,誰會想到30年后會有人做職業視頻游戲玩家或者YouTube明星就能賺到數百萬美元呢?”
隨著人工智能的概念熱炒,任何領域都希望通過人工智能得到人力解放,“機器代替人”的爭論更是從無休止。人工智能的發展就目前而言,其初衷是解決機械重復性以及大規模運算類工作,而運維恰恰是這樣一個高密度工作強度的領域,這也是目前人工智能為何能夠率先應用發力運維領域的因素所在。誠如張博所言,人工智能的到來并非代替運維人員,而是對運維工作進行升級,而這恰恰也對運維人員提出了更高的要求——自我升級,與時俱進。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】