繼續創新的同時降低云數據存儲成本的7個方法
譯文【51CTO.com快譯】 眼下對企業來說日子不好過:面對經濟衰退威脅,企業需要嚴格控制成本,同時仍需要足夠的技術投入以保持競爭力。有了公共云,很容易根據需要增減存儲容量,但是訪問看似無限的資源也讓使用量和成本快速且不可預測地增長。
對于分析和機器學習項目而言尤其如此。數據湖非常適合機器學習和數據流分析,是企業開發新產品、更好地為服務客戶的有效方式。但由于數據團隊能夠在云端輕松啟動新項目,因此必須嚴加管理基礎架構,以確保所有資源針對成本進行了優化,證明花的每一分錢都是值得的。在當前經濟形勢下,沒有一家企業能容忍浪費。
但企業并非無能為力。強有力的財務治理實踐讓數據團隊可以控制甚至降低云成本,同時仍便于創新。設立適當的防護機制以防止團隊使用過多的資源,并確保工作負載與正確的實例類型匹配以優化成本節省,這對于減少浪費并確保符合關鍵的服務級別協議(SLA)大有幫助。
以下是CIO們可以用來管理云數據湖成本的七個最佳實踐。這有助于在這個充滿不確定性的時期避免不可預知的賬單,并控制支出,但仍可以讓貴公司進行創新、變得更強大。
•監測、監測、監測。成本管理始于準確了解使用什么資源、何時使用以及誰在使用,至少每天要跟蹤這方面。在作業、集群和用戶層面密切跟蹤使用情況,就可以立即識別浪費或效率低下,并進行必要的改變。看不到的東西是沒法管理的。
•使用異構集群。集群中的節點可能有不同類型的實例,這取決于工作負載和不同實例的成本/可用性。比如說,集群可能包括按需實例和AWS競價實例或谷歌搶占式虛擬機。采用工具(通常以DIY腳本的形式)可自動管理使用情況,以便你在使用最具價值的基礎架構,同時滿足應用程序的彈性和可用性要求。
•積極主動地自動擴展。集群不用時不需要運行,根據需要自動啟用和關閉集群可大幅節省成本。新冠疫情期間,我們至少有一個客戶在閑置15分鐘后關閉集群,大幅降低成本。這顯然有賴于應用程序的SLA要求,但是對于開發工作和概念驗證工作而言,等待片刻讓集群重新啟動應該不是問題。
•測試不同的引擎。許多企業使用多個決策引擎,比如Spark、Hive和Presto,因為它們各自適合不同類型的工作負載。在多個引擎上測試一下查詢,看看在哪個引擎上運行最快。這不僅可以為最終用戶提升性能,還可以使貴公司受益,因為更短的查詢時間通常意味著您使用較少的資源。
•使用基于計劃表的生命周期管理。自動創建和銷毀系統以匹配使用模式。比如說,如果集群通常在早上或高峰交易時段滿負荷運行,查看運行中的作業,看看哪些作業可以在其他時段運行。
•調整未充分利用的基礎架構。推出新項目和應用程序時,容量需求并不總是很明確。基礎架構過度配置,當實際需求變得清晰時,沒人回過頭去改動基礎架構。將基礎架構的大小調整到適當的水平。這需要認真制定策略,因為容量仍需支持預期的使用高峰。
•教育用戶。如果數據團隊了解更宏觀的業務需求和可選擇的路子,會盡力幫助降低成本。概念證明項目果真需要r4.4xlarge實例嗎?可能不需要。與他們聊聊當前的情況,談談為什么調整基礎架構對大家都有利。我們的一個客戶甚至與其團隊一起使用彩色樂高積木進行演練,表明可以如何使用集群中不同類型的實例。幫助您的團隊,以便幫助您。
云成本管理旨在優化利用率,同時提供財務防范,讓團隊可以在自助服務環境中快速行動,同時防止意外成本。任何組織應經常采用這些最佳實踐,不過在眼下這種宏觀經濟環境下尤為重要。使用這些技巧,您將能夠度過難關,到時會有良好的財務狀況。
原文標題:7 Ways to Reduce Cloud Data Costs While Continuing to Innovate
作者:Ashish Thusoo
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】