譯者 | 李睿
審校 | 孫淑娟 梁策
每到歲末年初,企業或組織都會為未來一年的發展制定計劃,例如擴展業務規?;蚪档驮瞥杀尽?/p>
降低云成本已經連續五年被列為企業業務運營的首要舉措。根據調研機構發布的2021年云狀況調查報告,60%以上的企業計劃優化其云成本。
那么到底出了什么問題,為什么有那么多工程團隊在云成本優化方面陷入困境?
以下將介紹一些最常見的導致云計算資源、時間和資金浪費的問題,并找出行之有效的解決方案。
為什么云成本優化如此具有挑戰性?
公共云為按使用付費模式,這為工程團隊帶來了更多的自由,但這種自由也有代價。它可能會像Pinterest等公司的云計算賬單所證明的那樣數額驚人。
研究表示,大多數企業都在努力應對不斷增長的云成本。通常來看,公共云支出平均超出了預算24%。
云支出超出預算的原因有很多。這些問題通常歸結為低成本可見性、復雜的云定價以及估計未來需求的問題。所有這些問題都可能會讓企業的預算和支出“蒙上陰云”。
采用云計算服務不能完全幫助企業降低成本,而高昂的云成本賬單可能會令人生畏。
企業在2022年需要解決的6大云成本優化問題
1.仍受預留和省錢方案(Saving Plans)的誘惑
在考慮節省云計算服務成本時,企業首先想到的是為使用的云計算服務支付更少的費用。企業之所以選擇預留或省錢方案,是因為與按需定價模式相比,它們能夠獲得很大的折扣。而為貌似可預測的云支出預留聽起來也挺有道理。
但如果仔細觀察就會發現,企業并沒有解決問題,只是在成本上獲得了些折扣而已。
(1)那么問題出在哪里?
不知人們是否記得,Pinterest曾提前投入1.7億美元在亞馬遜AWS云計算服務上,但隨后又不得不再拿2000萬美元購買額外資源。
該公司的故事有助于說明一個事實,想知道從現在起一到三年內需要多少容量非常困難。
企業如果長期選擇單個供應商服務,其業務也可能會失去靈活性,并不得不為一直變化的需求付出高昂代價。
(2)那省錢方案怎么辦呢?
最好的解決方案是完全不選用這種方式。不去提前購買資源,而是考慮怎樣解決云計算支出,例如:
- 調整規模
- 自動縮放
- 打包
- 資源調度
2.陷入過度配置的陷阱
當企業團隊選擇的資源多于運行工作負載實際所需的資源時,就會發生過度配置。這背后通常是防患于未然的心理引發,因為沒人希望應用程序運行受到干擾。
在某些業務設置中,企業的團隊習慣獲取比工作負載所需更多的資源,“以防萬一”。盡管這種方式在提高性能方面對工程師來說具有意義,但會造成云計算浪費和成本提高。
(1)過度配置有什么問題?
簡單來說,就會導致云計算浪費以及不必要甚至可能失控的開支。
從長遠來看,團隊養成過度配置的習慣不是好事。如果只是為了安全考慮而習慣選擇大于工作負載所需的實例,那么隨著企業和應用程序規模擴張,這種方式將疲于應對,企業將面臨一項耗資巨大的賬單。
把這筆錢花在更重要的事情上不是更好嗎?比如,投入到應對氣候危機上去,過度配置恰恰在為氣候危機加劇推波助瀾。
(2)如何處理過度配置?
通常的做法是投資定制監控和成本管理解決方案。他們對配置規模的調整建議可以幫助企業減少對過度配置資源的依賴,但仍需人工執行。
另一個解決方案是采用自動化解決方案。自動規模調整可以選擇最合適的實例類型和大小,在滿足應用程序要求的同時降低成本。
每當集群需要額外的節點時,人工智能驅動的實例選擇算法就會選擇能夠實現最高性能的資源。更好的一方面是,團隊無需自已動手,因為這一切都是自動進行的。
由于過度配置與許多企業的文化盤根錯節,因此必須建立成本優化例程以平衡性能、可靠性和成本。在實現更廣泛的企業變革的道路上,自動化可能是向前邁出的重要一步。
3.被孤立的云計算資源困擾
為項目啟動一個實例,然后忘記關閉它很容易發生。因此,許多團隊都在努力處理沒有所有權但仍會繼續產生成本的孤立實例。
還記得Adobe公司每天被收取8萬美元Azure云平臺計劃外費用的失誤嗎?這是企業肯定要避免的問題。
在大型企業中,因為許多計劃同時進行,沒有集中的資源可見性,這一問題尤其嚴重。
在IT部門之外和IT部門不知情的情況下管理的計劃(影子IT)可能占到企業所有IT支出的40%。此外,研究表明,影子云的使用量可能是已知云服務使用量的10倍。
(1)孤立的云計算資源有什么問題?
孤立的云計算資源代表著資金流失,具有復雜的可持續性影響。
簡而言之,數據中心采用大量硬件,并消耗了大量電力,使得整個信息與通信技術行業的碳足跡增加顯著。他們需要的能源每四年翻一番,而AWS或Azure等云計算供應商每個新開放的區域都會導致這個問題。
這就是為什么減少云計算浪費是減少不必要支出和相關碳足跡的關鍵。
(2)如何應對這一挑戰?
確保只運行真正需要的資源可能極具挑戰性,尤其是在大型企業中。但是,企業如何識別和淘汰未使用的實例?這就是自動化再次發揮作用的地方。
自動化的云優化解決方案可以不斷掃描其使用情況,找出效率低的情況,并盡可能減少使用資源。這些方案還可以關閉未使用的實例和進程,以降低企業的云成本。
4.低效管理需求的下降和激增
構建電子商務基礎設施的工程師非常了解變化之速度。例如,一位具有影響力的人物在一夜之間就可能帶來數百萬的銷售額,一個網站也可以因流量激增而癱瘓。
隨著時間的推移,大多數其他應用程序的使用情況也會發生變化,但在費用和性能之間取得平衡仍然是一個持續的難題。
(1)這有什么問題?
如果企業將標簽頁保持打開狀態,流量激增可能會產生大量且無法預料的云計算賬單,或者如果對其資源進行嚴格限制,則會導致應用程序崩潰。
當需求低時,企業將面臨支付成本過高的風險。當需求很高時,企業為客戶提供的服務質量可能很差。
企業可以采用云成本管理解決方案監控其使用情況,如果超過設定的水平或有任何異常情況,將會實時提醒。此類工具可以為企業提供有用的建議,幫助企業根據當前需求調整云資源。
但是,人工擴展云容量既困難又耗時。
除了跟蹤系統中發生的一切,企業通常還需要注意:
- 流暢地處理流量高峰和下降——并在其使用的所有服務中為每個虛擬機向上和向下擴展資源;
- 確保應用于一個工作負載的更改不會對其他工作負載造成任何問題;
- 自行配置和管理資源組,以確保它們包含適合其工作負載的資源。
(2)如何解決這個問題?
這是云計算自動化可以發揮作用的另一個領域,幫助企業節省大量時間和費用。自動擴展可以自動處理上面列出的所有任務,并控制云成本。如果企業使用容器編排器Kubernetes,可以從三個內置機制中受益。
- Horizontal Pod Auto-Scaler(HPA)添加或刪除pod副本,以匹配應用程序不斷變化的使用情況。它監視企業的應用程序以了解其副本的數量是否應該更改,并計算刪除或添加它們是否會使當前值更接近目標。
- Vertical Pod Auto-Scaler(VPA)增加和減少CPU和內存資源請求,以更好地使企業分配的集群資源與實際使用情況保持一致。
- Cluster Auto-Scaler在支持的平臺上更改集群中的節點數。如果它識別出一個節點的pod可以重新調度到集群中其他節點,那么它就會把這些pod逐出并移除備用節點。
在許多解決方案中,企業只需要定義水平自動縮放和垂直自動縮放策略,自主優化工具將為其處理其余部分。
5.沒有利用搶占式(Spot)實例的機會
云計算服務提供商以更低的價格出售其未使用的容量,尤其是將成本與他們的常規按需報價進行比較的時候。
在AWS云平臺中,搶占式實例最高可享受90%的折扣。
(1)搶占式實例有什么難處?
由于企業競標備用計算資源,因此永遠不知道這些容量能保持多久可用。有些搶占式實例具有預置的持續時間;例如,AWS提供了一種類型,可為企業提供長達6小時的不間斷時間保證。
但除此之外,供應商可以回收企業正在使用的搶占式實例,在30秒到2分鐘內給你通知。
但人類無法在這么短時間內做出反應。創建一個新的虛擬機也需要比這時間更長,所以將面臨潛在的停機風險。
這就是為什么如果你決定使用搶占式實例,你必須要接受中斷一定會發生的事實。對于關鍵或無法容忍這一情況的工作負載,它們顯然不是正確的選擇。
(2)如何應對這一挑戰?
盡管存在風險,但搶占式實例對那些無狀態且可以橫向擴展的服務(即具有多個副本)非常適合。幸運的是,現代架構中的大多數服務都是無狀態的,因為Kubernetes就是為這種類型的設置而設計的。
使用搶占式實例的過程如下所示:
①需要確定工作負載以及它處理中斷的能力。
②檢查供應商提供的實例,并選擇最適合需求的實例。一個經驗是選擇不太受歡迎的實例,并檢查它們的中斷頻率。
③此時戰略性地設置最高出價,以避免價格上漲時可能出現的中斷。
④企業可能還需要考慮分組管理搶占式實例,并請求多種類型以增加獲得它們的機會。
企業可以人工完成這些步驟,但要使這一切正常進行,需要為大量配置、設置和維護任務做好準備。
自動化此時再次派上用場,除了上述過程之外,當企業需要的搶占式實例暫時不可用時,自動化解決方案可以立即提供幫助。
6.采用自動云優化延遲
本文提到了自動化云優化,這是有原因的。
如果企業已經采用云原生技術,正在運行Kubernetes,甚至可能使用現代DevOps方法——自動化這部分基礎設施絕對是一個好主意。
德勤公司將云計算自動化列為2021年及以后的首要趨勢之一,尤其是在大型企業環境中,它為IT團隊帶來了切實的成果。
首先,它減少了企業在配置虛擬機、創建集群、選擇正確資源等方面所需的人工工作。這一變化節省了時間,讓企業的工程師可以專注于更重要的任務、進行創新并充分利用其云計算基礎設施。
更重要的是,自動化工具允許更頻繁的更新,這是持續部署理念的關鍵。它還降低了人為錯誤的可能性,降低了運營基礎設施的成本,提高了系統的安全性和彈性,并增強了備份流程。
最后,自動化使企業能夠了解其正在使用的資源,否則這些資源將難以控制。
簡而言之,云計算自動化已經成為科技行業的新常態。
(1)延遲云計算自動化有什么問題?
既然云計算自動化有那么多毋庸置疑的好處,且其勢不可擋,那么為什么企業不這么做呢?
自動化可能帶來許多挑戰,比如對新解決方案的抵觸,對實施成本過高的擔憂,再到需要更新現有流程的問題。
與大多數數字化轉型項目一樣,成功的關鍵在于人,企業需要在人員的層面上鼓勵變革。而當涉及工作時,麥肯錫公司的研究證明,員工普遍擔心被技術取代。
然而,自動化帶來的優勢遠大于風險。例如,這一點在2021年DevOps狀況調查報告中表現得很明顯,有97%的受訪企業認為自動化提高了他們的工作質量。
在2022年延遲云計算自動化等于錯過了以下好處:
- 為企業的應用選擇最有效的實例類型和大小;
- 自動擴展云資源以應對需求高峰和下降;
- 消除未使用資源以降低成本;
- 通過管理潛在中斷來優化搶占式實例;
- 減少其他領域的不必要開支,例如存儲、備份、安全、配置更改等——所有這些都是實時的,而且成本只是企業人工實施的一小部分。
(2)如何解決這個挑戰?
克服人對變革和全新解決方案的抵觸問題由來已久。自動化云優化能讓團隊從重復性任務的負擔中解脫,但僅告知團隊這一點可能還不夠。所以也希望有更多的企業能在2022年采用自動化云優化,并享受到它帶來的好處。
原文標題:6 Top Cloud Cost Optimization Issues To Avoid in 2022 and How To Deal With Them,作者:Laurent Gil