CloudOps: 一種優(yōu)化云上運維的框架
任何參與軟件產(chǎn)品創(chuàng)建的人都應該熟悉DevOps,這是一套將軟件開發(fā)和IT運營結(jié)合在一起的實踐,其目標是縮短開發(fā)生命周期并提供持續(xù)交付和高質(zhì)量的產(chǎn)品。
隨著企業(yè)越來越多地將應用程序開發(fā)和工作負載轉(zhuǎn)移到云上,以及這些云上支出變得越來越復雜,一個與此相關(guān)的概念CloudOps(即“云運維”)出現(xiàn)了。
在這里,我們將研究什么是CloudOps,它將如何使你的企業(yè)受益,以及在你的企業(yè)中實現(xiàn)CloudOps時應該牢記什么關(guān)鍵事項。
什么是CloudOps?
CloudOps是一種用于管理在云環(huán)境中運行的IT服務和工作負載的交付、優(yōu)化和性能的操作實踐。
無論企業(yè)是采用多云、混合云還是私有云策略,CloudOps都旨在為基于云的流程建立流程和最佳實踐,就像DevOps為應用程序的開發(fā)和交付所做的一樣。
CloudOps:一種用于云運維的多層框架
“Holistic CloudOps是一個多層次的框架,可以用于幫助企業(yè)管理云生態(tài)系統(tǒng)的各個方面,”咨詢公司Capgemini
Americas的副總裁兼卓越云中心主管Jason Hatch表示。
一個是治理層,包括了財務運營(也稱為FinOps)等活動,用于控制成本和管理云預算。“治理層還應該包含關(guān)于如何在云中部署什么內(nèi)容的架構(gòu)標準,并擁有一種方法能夠以編程的方式執(zhí)行這些標準。”Hatch說。
其他框架層還包括了云應用層,它涵蓋了企業(yè)將如何部署和管理/監(jiān)控云中應用程序和特定于應用程序的服務;云操作層,用于部署、管理、監(jiān)控和操作云服務;以及云基礎(chǔ)層,其中包括了身份、網(wǎng)絡管理、日志記錄、中央備份管理、作為代碼的基礎(chǔ)設(shè)施和中央監(jiān)控功能等核心服務。
“跨越所有這些層的是‘安全層’,它包括了漏洞和威脅管理、工作量保護以及與公司更大的網(wǎng)絡安全管理功能的集成。”Hatch說。
CloudOps在企業(yè)中的應用
CloudOps模型與應用程序的交付有著特殊的相關(guān)性,這是許多企業(yè)通過旨在增加銷售額和增強客戶體驗的數(shù)字計劃所關(guān)注的。
“CloudOps能夠?qū)?gòu)建、部署、運行、監(jiān)控和管理云中的應用交付功能的五大職責結(jié)合在一起,”云服務提供商Replicon負責工程和運營的執(zhí)行副總裁Suresh
Kuppahally表示。
網(wǎng)絡、計算、安全和存儲是在最初的構(gòu)建和設(shè)計階段必須牢記的四個關(guān)鍵組成部分,Kuppahally說。“這樣,公司就可以自動部署他們的應用程序,或者可以進行持續(xù)的集成和持續(xù)的交付了。”他說。
一個企業(yè)的CloudOps團隊應該從工程或產(chǎn)品團隊中明確分離并獨立運作,這樣做可以使CloudOps在企業(yè)中實現(xiàn)“透明度和服務質(zhì)量[QoS]的責任制”,Kuppahally說。
CloudOps的好處
從一個企業(yè)對云服務的整體部署開始,CloudOps的業(yè)務好處是相當可觀的,來自Capgemini的Hatch表示。
CloudOps有助于推動企業(yè)進一步的采用和使用云計算。如果企業(yè)能夠有效地部署、管理和保護他們的云環(huán)境,就應該增加他們對云的使用,并提供試驗和創(chuàng)新服務和技術(shù)的能力,他說。“這反過來又可以使他們更靈活,提供更快的上市時間,并有助于推動創(chuàng)新。”
利用CloudOps的企業(yè)還可以更好地管理他們所使用的越來越多的云服務,Hatch補充道。
“我們不斷聽到客戶說,他們正在超出自己的云預算,但他們要么是不知道原因,要么是無法實施控制來進行管理,”Hatch表示。“一個有效的CloudOps有將助于緩解這一問題。在治理層,我們可以實施更好的預算和財務跟蹤及優(yōu)化。這也促進了在操作層面,更好的實現(xiàn)自動化部署和管理。”
咨詢公司Protiviti的董事總經(jīng)理Will
Thomas表示,Protiviti的客戶所提到的另一個最大好處是能夠在云中自動釋放授權(quán)資源,這會有助于企業(yè)管理日益復雜的云環(huán)境。
Thomas說,增強的安全性是CloudOps的另一個關(guān)鍵好處,因為該模型可以“確保與安全控制、標準或框架保持一致,并制定策略,在報告云內(nèi)的健康和活動的同時限制不合規(guī)的行為。”
Thomas還認為,那些實施CloudOps的公司能夠更好地優(yōu)化其云環(huán)境,因為“CloudOps工程師將專注于利用云中的授權(quán)資源,以最新和最好的服務實現(xiàn)應用程序的現(xiàn)代化。”他說。
此外,部署CloudOps的企業(yè)還可以根據(jù)性能和成本來考慮建立合理的資源分配時間表;持續(xù)報告和審查云運行狀況指標;并支持資源的主動配置,同時保持云內(nèi)的法規(guī)遵從性,他說。
Replicon的Kuppahally指出,CloudOps能夠在不影響QoS的情況下經(jīng)濟高效地擴展云服務。“將QoS目標和CloudOps投資結(jié)合起來是非常具有戰(zhàn)略意義的,”他說,“因為一個專門的CloudOps團隊可以被激勵去管理運營成本,因此在降低運營成本方面也會有既得利益。”
實踐中的CloudOps
Stretto是一家受益于采用CloudOps的公司。這家為企業(yè)和消費者的破產(chǎn)部門提供服務的破產(chǎn)服務和技術(shù)公司在早期就發(fā)現(xiàn)了對CloudOps實踐的需求,并將關(guān)鍵原則納入了其在云中運行的應用程序和系統(tǒng)中,其首席技術(shù)官George
Tsounis表示。
“例如,我們制定了嚴格、快速的規(guī)則,即我們只用基礎(chǔ)設(shè)施即代碼[IaC]的實踐來進行部署,”Tsounis說。“我們決定通過所有應用程序/系統(tǒng)將始終跨兩個可用性區(qū)域運行來實現(xiàn)冗余,因此我們利用了云提供商內(nèi)置的高可用性能力。”
Stretto戰(zhàn)略的關(guān)鍵部分是利用CloudOps的實踐,來確保其技術(shù)運營擁有更積極主動的方法,Tsounis說。“我們更愿意授權(quán)我們的架構(gòu)師和工程師為我們的內(nèi)部和外部客戶創(chuàng)建高性能、自愈性和彈性的云本地解決方案,而不是繼續(xù)以一種被動的方式運營。”他說。
云服務的引入,甚至是過渡到無服務器功能的過程,都帶來了獨特的挑戰(zhàn),Tsounis說。“CloudOps是幫助我們應對這些挑戰(zhàn)的策略。” 他說。
CloudOps最終為Stretto帶來的好處包括了降低成本、可伸縮性、自動化、簡化災難恢復,以及作為應用程序一部分的基礎(chǔ)設(shè)施的無縫集成。
“我們的團隊受益于應用程序的全面改進,這些CloudOps的理念已經(jīng)被完全采納了,”Tsounis說。“CloudOps的實踐也提高了軟件質(zhì)量。這是通過利用IaC方法使云基礎(chǔ)架構(gòu)的部署和配置可重復來實現(xiàn)的。我們減少了配置錯誤,因為在我們的各種環(huán)境中推出應用程序時,利用IaC實現(xiàn)了一致的基礎(chǔ)設(shè)施配置。”
通過取消云基礎(chǔ)設(shè)施的手動配置,Stretto的質(zhì)量問題減少了約20%,Tsounis表示。
“利用CloupOps實踐為工程師提供了所需的信心,讓他們知道在預生產(chǎn)環(huán)境中的應用程序/系統(tǒng)行為在發(fā)布到生產(chǎn)環(huán)境時將是相同的,”他說。“此外,由于我們的應用程序的質(zhì)量提高,服務臺和內(nèi)部票證的減少,我們也看到了總體IT運營的改善。”
跟上不斷發(fā)展的方法論
當涉及到云服務及其使用方式時,沒有什么是一成不變的,所以使用CloudOps的企業(yè)需要定期調(diào)整他們的方法,以跟上變化。
對于許多企業(yè)來說,這仍然是一個新的領(lǐng)域,它們需要克服一個學習曲線。“隨著越來越多的企業(yè)采用真正的多云部署,他們的CloudOps實現(xiàn)也需要成熟和規(guī)模化,”Capgemini的Hatch說。“許多客戶在以豎井的方式管理著他們的云原生地圖,使用了不同的工具和流程,并且從整體上查看其整個云原生地圖的能力微乎其微。”
為了提高效率和效果,“公司需要開發(fā)他們自己的CloudOps框架,以便能夠輕松地集成新的云提供商和服務,同時仍然提供正確級別的管理、監(jiān)控和操作嚴密性。”Hatch說。
公司在云中處理事件管理的方式也可以改進,Kuppahally說。
“這是大多數(shù)CloudOps團隊難以解決的問題,”他說。“他們被內(nèi)部和外部事件淹沒了,失去了有效管理這些事件的方法。而建立一個專門的項目管理流程來簡化事件管理的篩選和優(yōu)先排序是降低風險的方法之一。”
與此同時,各企業(yè)也需要降低事件的誤報率。“當CloudOps團隊無法跟上高誤報率時,他們就會陷入困境,”Kuppahally說。“擁有有效的策略和計劃來減少或消除誤報,是非常關(guān)鍵的成功因素。”
CloudOps可以從AI和機器學習等技術(shù)中受益,研究和教育服務提供商Wiley的執(zhí)行副總裁兼首席技術(shù)官Aref Matin表示。
“通過機器學習,CloudOps工具可以幫助定義企業(yè)范圍的策略,進行檢測和報告異常,并能夠以自動化的方式采取糾正措施,以維護云環(huán)境的最佳實踐策略。”Matin說。
CloudOps文化
像DevOps一樣,CloudOps的成功很大程度上也依賴于開發(fā)一種有利于充分利用框架和工具的文化。隨著越來越多的企業(yè)將更多的工作和流程轉(zhuǎn)移到云上,他們也將需要專注于構(gòu)建CloudOps專業(yè)知識。
“在處理云計算時,大多數(shù)客戶處于一種被動反應狀態(tài),他們無法對事件、更改或新服務的請求做出響應,”Protiviti的Thomas表示。“CloudOps通過自動化建立的部署結(jié)構(gòu),允許監(jiān)控、審查和優(yōu)化現(xiàn)有資源,并檢查公司策略以便與云環(huán)境保持一致。”
Stretto的Tsounis也同意企業(yè)需要 “對CloudOps真正起作用的適當組織結(jié)構(gòu),專業(yè)知識和對協(xié)作的適當調(diào)整有更廣泛的了解”。
“CloudOps不是一個單獨的團隊或部門。IT、安全、架構(gòu)和應用團隊都需要在通用的CloudOps實踐上協(xié)作并保持一致,”CTO說。“如果這些團隊在孤島中工作,CloudOps就不能很好地工作。”
基于他將CloudOps投入實踐的經(jīng)驗,Tsounis認為,為了獲得成功,企業(yè)也需要更好地定義CloudOps所需的基本技能,而不是重新發(fā)明輪子。
“技術(shù)團隊需要了解基于云的架構(gòu)、網(wǎng)絡、安全和自動化,”他說。“如果缺乏基本技能,團隊就可能會在已有云服務的地方冒險實施解決方案。”