聚云科技 CTO 丁冠宇:加速FinOps實踐,實現企業云成本治理與優化
原創近些年,隨著云計算的快速發展,越來越多的關鍵業務遷移到云端。然而,諸多企業在審計成本時發現,云成本并不像宣傳云計算優勢那樣節省,反而費用支出比以前更大。
根據 Gartner 全球公有云支出的預測報告顯示,2022 年全球公有云支出已達 5000 億美金,預計在 2023 年會達到 6000 億美金,并且還會持續增長。但是,另一份報告指出,2023 年會有 28% 的云成本是浪費的。
過去十年,企業對于云計算的頭號挑戰都是安全性,但隨著企業上云的不斷深入,云支出的不斷增加,云成本管理成為企業上云最大的挑戰。那么,企業如何開展云成本優化?這就需要引入 FinOps(云成本優化)的概念。
降本增效利器,FinOps 讓云成本價值最大化
FinOps 是 “Finance” 和 “DevOps” 的合成詞,是一種云成本管理和優化的解決方案,并為組織、企業、團隊提供了系統化的方法論,其中每個人都應該對自己的云資源成本負責。
根據FinOps基金會對 FinOps 的定義:FinOps 是將 DevOps、財務和業務整合在一起的變革,其目標在于優化一個組織在云計算上的支出的財務規范和技術解決方案,即根據支出的歷史記錄和來自預期負載的信息,FinOps 可以在需要時預分配資源或估算成本。
那么,企業如何通過 FinOps 來進行云成本管理和優化呢?在近日舉行的 2023 亞馬遜云科技中國峰會上,聚云科技 CTO 丁冠宇在白金講堂進行了主題為《云服務智能化與 FinOps:實現可持續發展》的演講,與現場用戶探討云服務智能化和 FinOps 在實現企業可持續發展方面的關鍵作用,以及 FinOps 在實現云成本優化方面的重要性。
丁冠宇指出,在理想狀況下,隨著企業使用云計算的資源量逐漸增多,規模也在擴大,企業上云的單位經濟成本是下降的。但是實際情況卻是,企業上云的單位經濟成本反而不斷上升。這是一個非常不健康的發展狀態。
隨著企業大規模工作負載遷移上云,采用多云架構,加之企業缺乏成本可見性和控制策略,具有低效的文化和組織變革,種種原因疊加后,有可能就會導致企業云成本的失控。
此外,云資源的浪費不但增加了企業成本,還可能對可持續性發展帶來不小影響??沙掷m業務被視為推動業務發展、提高效率和增加收入的關鍵機會。企業如何面對成本管理和環境問題雙重考量呢?答案是 FinOps+GreenOps。FinOps 主要關注云成本的管理和優化,GreenOps 主要關注關于環境以及可持續性發展的問題,如果企業能夠將 FinOps 和GreenOps 相結合,并作為企業的戰略性發展目標,相信企業就會達到經濟效益和環境效益雙贏的效果。
破局:基于FinOps 理念的多云成本管理與平臺 SavingsNow
在云成本管理與優化的發展趨勢下,聚云科技也在積極擁抱變化和挑戰?;?FinOps 理念,聚云科技自研了云成本管理與優化平臺 SavingsNow,幫助企業解決在云計算環境中面臨的財務管理痛點。丁冠宇認為,不計后果的云支出時代已經結束。為了達到可持續發展目標,公有云用戶需要做一件事,就是 Savings Now。
據了解,SavingsNow 提供全方位的云成本管理和優化服務,支持客戶實現成本分級化管理、成本分攤和資源占用率等多種功能,幫助企業降低成本支出,提高資源利用率和優化決策。
聚云科技 SavingsNow 云成本優化的核心能力集中在三個領域,成本的可視化、成本優化和成本運營。丁冠宇表示,為了能夠讓系統更加具備擴展性以及滿足數據合規等問題,聚云科技將整個系統部署在亞馬遜云科技的架構之上,共分為三層,包括用戶層、應用層和數據層。目前,SavingsNow 平臺已經支持了數十億美金數據的管控。
2023 年,聚云科技觀察到,從業者對 FinOps 能力的優先級排名發生了變化。成本分配、建立 FinOps 文化、資源利用率與合理調整配置進入前 3 名,成本分配仍然是優先級最高的能力,表明它是 FinOps 科學實踐的基礎。丁冠宇介紹了五種場景下的成本管理問題和解決方法。
場景一:成本衡量分攤與問責
FinOps 的一個基本原則是:“每個人都應對自己的云使用負責”。因此,企業需要構建成本衡量分攤和問責機制,讓所有的成本都得到它的歸屬,讓所有人可以了解真正的使用云成本。然而,成本分攤不是一蹴而就的。雖然企業可以通過云賬號和成本標簽識別專用云資源,但未分配的共享成本如果不能適當地進行分攤,工程師和產品經理就無法全面了解他們的產品的實際成本是多少。面對百萬、千萬條賬單明細記錄,成本分攤工作還是比較復雜的,再加上一些個性化的成本分攤方式,經常給運營同學帶來不小的麻煩。
SavingsNow 可以通過定義分攤對象,選擇分攤維度以及分攤方式,從而建立成本分攤模型,以滿足不同業務部門、項目對成本分攤的需求。
場景二:引入預測,感知未來
丁冠宇指出,組織如果過度依賴于傳統的本地基礎設施,會面臨著成本(運營+運維)高昂、資源限制和維護復雜性等挑戰。但是若將其核心業務系統從 IDC 遷移到公有云之上,公司也希望通過成本預測,制定詳細的預算規劃,并設定成本控制的目標,確保在預算范圍內完成云遷移。丁冠宇建議,將整個成本預算拆分成兩步,第一步是業務上云前的資源成本估算,第二步是成本預測。結合預測和估算能力才可以幫助企業做更高精準的成本預算。
因為云環境本身是動態的,云定價模型也是動態的,業務自身也在根據需求驅動而不斷變化,比如業務方進行市場推廣活動、節假日的大促等,在所有動態的因素中,企業很難做出準確的預測。SavingsNow 當前成本預測方法是基于歷史數據預測的方案,這種方案適合穩態的業務,后續會支持結合事件驅動的方式,達到相對全面且準確的效果。
場景三:高度可見的云成本
在日常工作中,我們各個業務團隊和產品負責人需要定期向上級組織領導定期匯報業務的成本情況,比如對于高管來說,需要創建高度可見的 FinOps 儀表盤;對于業務人員,要創建各個業務部門的成本 KPI 儀表盤;對于運維人員,需要一個靈活的成本分析引擎,幫助運維同學快速定位到觸發成本異常的根因。那么,有效的儀表板對于傳達和掌握團隊的云成本狀態是至關重要的。
如果將成本分析需求進一步分解,就是所謂的成本洞察,而洞察就需要數據是準確且準實時的。眾所周知,云賬單最大的弱點就是滯后性,這就給成本分析和做成本決策增加了難度。此外,支持多項云成本指標、靈活查詢分組、支持標簽過濾、數據權限隔離、報告的訂閱和分享,也是成本洞察的必備能力。
SavingsNow 成本可視化主打的就是簡單易用。根據角色不同預設了多種維度的儀表盤,可以進行全面的成本數據展示,而且通過聚云科技的最佳實踐,平臺預設了 80 多項預設的云成本分析報告,可以讓沒有任何賬單經驗的同學快速上手,開箱即用;同時引入成本 BI 引擎,滿足賬單相關的個性化分析;并且支持多云環境匯總分析,比如將亞馬遜云科技的賬單和 GCP 的賬單并進行匯總分析。此外,SavingsNow 提供豐富的報告操作功能,包括訂閱、發送、導出、克隆、權限、多幣種、暗色主題、圖表的自由擺放、周報格式、大屏等多種功能。
場景四:成本異常監控
盡管公有云提供了很多安全防護手段,但也不妨會遇到一些安全漏洞,被惡意開啟和大量占用計算資源并導致費用增加;也有因為程序配置不當而導致的費用增加;架構或產品的特性更新也可能會導致一定的成本增加;因此,企業需要通過配置告警規則,結合平臺提供的智能發現能力,盡早發現成本異常,并向運維或產品負責人通知異常情況,盡早避免不必要的成本浪費。
SavingsNow 成本監控告警模型,在時間粒度上支持到每天/每周/每月,監測范圍覆蓋到云賬號、云服務、云項目、資源 ID 和資源 Tag 等。告警指標可以按照時間粒度的環比,從而進行成本異常的監控;如果出現異常,還可以結合成本分析報告,定位根因。
場景五:左手穩定性、右手降成本
隨著業務不斷迭代的過程中,各業務部門逐漸產生不同類型的云資源費用,包括計算類、數據庫、云存儲、數據傳輸等。然而,盡管出現了多種云資源類型,計算費用通常占據了企業在云平臺上的主要開支,約占總費用的 50%左右。因此,對計算資源進行成本優化成為云成本優化的主要需求。
在資源的用量優化方面,可實施優化的渠道也有很多種,例如資源配置、數據傳輸、彈性、競價實例等,雖然這些方式大家都耳熟能詳,但是能做到的卻不多。一般對成本優化程度高、有核心人員監督的組織,相對完成的比較好。
丁冠宇表示,很多企業都會覺得,成本優化是件挺簡單的事情。但在他看來成本優化是最難做的,影響成本優化的兩個杠桿分別是資源的用量和費率,只有用量和費率同時降低,同時進行優化,才能達到最終費用的降低。成本優化另一個難做的點是,很難讓開發者或運維同學增強成本優化的意識。
是否有既不影響業務穩定性,又能夠大量節約成本的策略?公有云廠商提出了一種基于“承諾”的云定價模型。它改進了穩定狀態工作負載的單位經濟效益,在不改變已部署資源情況下,能夠覆蓋計算、數據庫、分析、媒體服務等多種資源類型的成本,“承諾”之后優勢比較明顯,但是決策很難做。
為此,聚云科技研發的彈性的折扣策略,可以實現對客戶“免承諾”的折扣技術方案。聚云科技建設的成本優化體系分為三層結構。底層提供一種“免承諾”的折扣費率,為企業實現了一種實施復雜度最低,TCO 影響最高的一級優化策略;第二層,提供資源用量的優化建議,比如正確的資源配置、閑置資源的掃描等等;最上層也是相對最具挑戰性的,彈性伸縮和 Spot 競價實例調度策略,適合業務容錯性強、靈活度高,無狀態的工作負載使用。丁冠宇指出,如果這三種策略結合,可以為客戶節約成本 60% 以上。
SavingsNow 賦能 JOYME 進行成本優化
北京樂我無限科技有限公司(以下簡稱 JOYME)是主打海外市場的移動直播服務商,在全球推出名為 Live.me 的全球直播和社交平臺,目前已成為美國最受歡迎的社交應用程序之一,并已在 200 多個國家和地區推出。LiveMe 于 2016 年 4 月上線,目前已在全球積累了超過 1 億用戶和超過 300 萬的主播。除了主打的 C 端用戶的直播產品,JOYME 業務也涉及游戲、工具產品等。
2016 年,JOYME 當時業務單一,主要是 C 端直播產品,采用的全是裸機式的服務,使用了大量的 EC2 以及其他的托管服務。隨著業務要求快速迭代,2017 年 JOYME 開始走向容器化,將業務服務遷移至 ECS 集群;2019 年,JOYME 拓展業務線,并將 ECS 集群遷移至 EKS 集群,同時引入 Spot 實例。2022 年,JOYME 在業務架構層面開始使用 Serverless 幫助實現降本增效,聚云科技幫助 JOYME 進行了一系列的成本優化措施。
在幫助 JOYME 成本優化的時候,聚云科技搭建了三層優化模型,包括資源統一管理、成本數據可視化以及專項服務治理。通過持續優化業務系統架構,控制和優化成本,從而實現云上高效運維和敏捷開發。此外,聚云科技為 JOYME 提供專業的 MSP 運維管理服務,幫助 JOYME 完成在基礎設施、安全合規、系統架構及運維管理上的全面提升。經過兩年多的努力,JOYM E每年節約成本 1700 萬美金,月度節省了 30% 左右。
建議:踐行 FinOps,是一項全民運動
為了能夠在 FinOps 踐行落地過程中取得比較好的成績,企業一定要建立 FinOps 文化,并優化運營流程,循序漸進地控制單位經濟成本。
那么,企業該如何落實呢?首先要跨組織選人,建立運營團隊或云卓越中心團隊,要創建和維持跨組織的合作伙伴關系,制定符合公司發展戰略的目標,然后是要定期溝通。丁冠宇指出,隨著企業不斷地定目標、溝通、執行和分享,公司內部就會在潛移默化中逐漸形成有意識的成本優化的文化。
除此之外,企業要把成本優化作為一個計劃來實施,不斷迭代,穩中前進。在推進過程中,工具的選取也是很重要的,亞馬遜云科技提供了一系列的成本管理框架與工具,可以幫助企業完成成本度量、評估、優化、規劃和預測等各種優化工具。
丁冠宇表示,“成本優化的路其實并不好落地,我們要不斷地進行自我激勵,一旦堅持下來了,對于企業和個人都是有很大收獲的?!?/span>