微軟亞洲研究院智能運維:云服務的智能原動力
原創疫情已經改變了人們生產、生活的方式。協同合作、遠程辦公、在線教育等場景成為了常態,而這些場景也對基礎設施提出了更高的要求。
Gartner 研究副總裁 Sid Nag 認為,云已經成為主流策略:“下一代的產品方案,幾乎都是搭建于云平臺上的。”但隨著越來越多的用戶上云,系統的管理正面臨著前所未有的挑戰。海量用戶、大規模集群、復雜的系統架構使傳統的運維方式力不從心。如何實時檢測異常、快速響應故障、預測故障、合理規劃容量等問題已成為重要課題。此時,智能運維AIOps閃亮登場。
AIOps在多方面都直擊傳統運維的痛點。AI算法承擔起分析海量運維數據的重任,能夠自動、準確地發現和定位問題,從決策層面提高運營效率,為企業運營和運維工作在成本、質量和效率方面的優化提供了重要支持。根據Gartner的戰略規劃假設,到2023年,將有40%的DevOps團隊將通過用于IT運營(AIOps)平臺的AI增強應用程序和基礎架構監視工具。
在炙手可熱的人工智能領域,數據驅動、AI 賦能的微軟云始終以理性而樂觀的姿態立足于全球云服務市場。數據為微軟云的管理提供了新的維度——數據智能。微軟亞洲研究院常務副院長,微軟杰出首席科學家張冬梅表示,微軟主要從三個方面來定義AIOps: AI for System、AI for Customer、AI for DevOps。AIOps在這些應用場景中面臨著諸多挑戰。
AIOps的應用:精準預測、高效解決、更好服務
AI for System要求開發者能從運行的系統角度看問題,比如系統異常檢測不僅僅是找到問題,最好還可以提前預警。以硬盤故障預測為例,開發者可以通過分析已經發生改變的數據或狀態,來預測磁盤是否有故障,系統在學習了大量硬盤的歷史數據后,對照目前磁盤的狀態,預測將來是否可以及時采取措施。此外,除了發生故障的硬盤,還需要考慮其鄰近磁盤的情況。
微軟亞洲研究院首席研究員林慶維介紹說,微軟亞洲研究院研發了鄰域-時間注意力模型(NTAM)。該模型包含了鄰域感知組件、時間組件、決策組件,在時間和空間上都能夠捕捉更多的信息。林慶維表示,通過與過去 10 年、20 年最前沿的期刊或者會議上的論文方法對比,該模型從精確度和召回率方面都有很好的效果,預測能力很強。
AI for DevOps主要針對的是開發和運維人員的生產效率。在出現問題時,解決問題并不僅僅是快速恢復正常,而是如何通過大量的檢測、診斷,來更快、更高效地解決問題本身。相關部署通常從非常小的規模開始,逐步擴大規模,在確認每一步都安全后才能部署到云平臺。整個部署過程中需要檢測所有的健康信號,包括資質、傳感器信號、狀態等。當任何一方面出現問題時,開發人員首先會檢查是不是某個部署問題導致,同時根據部署做關聯性排查。
針對AI for DevOps方面的安全部署診斷問題,微軟亞洲研究院提出了主動遷移學習異常檢測(ATAD)方案。該方案通過遷移學習把從別的數據上學到的知識轉化為目標領域,同時通過主動學習讓工程師排出優先級,得到更好的學習效果。目前該方案已經用到了微軟云平臺中。“這個方案通常很難獲得高質量的標簽數據,所以需要工程師有非常強的見解才能作出判別。” 林慶維表示。
AI for Customer則要打造更好的用戶體驗,為客戶提供更好的服務。
林慶維以智能虛擬機預配置為例,介紹了微軟亞洲研究院在AI for Customer方面所做的部分研究工作。云平臺申請虛擬機需要時間,解決這個問題的方案之一就是預先裝好軟件和系統的配置,當用戶有需求時可以直接用。但虛擬機池的容量有限,每種類似的機型不可能配置很多,所以需要預測用戶會配置什么類型的虛擬機,以實現最優配置。微軟亞洲研究院對此提出全新方法框架,將不確定性感知框架用于預測與優化。結果表明,該方法實現了相較于其他算法更優的表現。
伴隨著微軟亞洲研究院數據、知識、智能組與微軟云產品團隊的深度合作,一系列創新技術已經在云系統的故障預測、異常檢測、智能診斷、容量規劃、事故管理等諸多實際應用場景中落地,相關研究成果也在 ICSE、OSDI、USENIX ATC、WWW、AAAI、KDD 等高影響力會議中發表, 極大地提升了服務質量、用戶體驗和工業生產力。
AIOps的未來:自主化、主動化、通用化
談到未來AIOps的研究方向,林慶維表示,首先是更加自動化、自主化。目前AIOps的方向更多的是給用戶提供一定的建議和推薦,但是微軟亞洲研究院希望在未來,AIOps能夠更加自主化,可以自動做決策,幫助用戶做出最優的決策,而不需要人工的干預;二是更加主動化,不能等到問題出現了才想起來解決問題,而是把問題遏止在萌芽的狀態;三是會更加通用化,跨平臺的AIOps應用不僅服務于云平臺,而是服務于所有平臺。