快速實施現代化數據架構的五點建議
譯文【51CTO.com快譯】
在如今這樣“快魚吃慢魚”的市場環境中,那些數字化顛覆者往往能夠利用AI算法、無服務器數據平臺、以及不間斷分析等創新技術,去徹底顛覆傳統的業務模型。同時,Covid-19在全球范圍內的大流行,也加速了企業數字化的快速轉型,新的服務產品需求也應運而生。因此,為了保持競爭力和敏捷性,服務提供型企業必須迅速地在現有基礎架構上,部署新的數據技術,以推動包括:個性化報價、實時警報、以及預測性維護在內的市場驅動型創新。
不過,在實施從流式處理到數據湖(data lakes)分析的過程中,許多企業發現他們現有的數據架構存在著各種歷史遺留問題,以至于無法有效地管理或正確地利用海量數據。因此,為了實現新功能的快速部署,并簡化現有的架構方法,企業需要在不影響核心技術棧的情況下,轉變或重塑現有的基礎架構。下面,我們來具體討論在此類轉變的實施過程中,需要注意的五個方面。
1.轉向基于云服務的平臺
在對各種完全不同的數據架構進行轉型的方面,云服務具有一定的根本性和徹底性。它為企業提供了一系列快速且可擴展的工具,以及競爭優勢上的賦能。云服務能夠讓企業及時且大規模地獲取、部署和運行新的數據架構平臺和應用程序。
關鍵技術:
- 無服務器的數據平臺 – 此類平臺使組織能夠構建和運行以數據為中心的應用,在賦予無限可擴展能力的同時,消除了現場配置和管理的工作負載與麻煩,進而降低了成本的支出。這些技術易用性,主要體現在它們可以在數分鐘內,而非過去的數周之內,實現部署。這樣可以大幅減少了總體業務的運營開銷。
- 容器化數據解決方案 – Kubernetes技術不但能夠使得企業解耦現有的業務、而且能夠自動化其他數據存儲系統的部署和計算力。據此,那些具有復雜設置的平臺,仍然可以按需進行擴展,以滿足業務的需求。
2.從批處理轉移到實時處理
實時數據流功能為當前的各種業務應用提供了動力。例如:來自工廠車間的傳感器,可以通過捕獲到的實時數據,協助制造商去預測各類維護問題;保險公司可以根據來自智能設備的實時行為數據,去設置個性化的費率;消費者能以秒為單位,準確地跟蹤從餐廳到家門口的訂餐遞送服務。由于云服務降低了數據和計算力的費用,也就大幅降低了實時數據消息在傳輸和交付上的成本,此類技術對于各種規模的企業都比較適用。
同時,實時流功能也能夠讓數據使用者訂閱不同的“主題”,以便不斷地收到與真實需求相關的信息。通過將信息存儲到數據湖中,我們還能夠保留所有粒度的詳細信息,被用于深入分析和趨勢預測。
關鍵技術:
- 消息傳遞平臺 – 現代化消息傳遞平臺能夠提供可擴展、且具有容錯能力的發布與訂閱服務。與傳統的、基于批處理的消息隊列相比,此類消息傳送平臺每秒鐘可以處理和存儲數百萬條消息。在降低成本的同時,它也減少了存儲所占用的空間。
- 流分析方案 – 此類系統不但能夠實時、直接地分析消息,還能夠將歷史數據與當前消息進行比較,以通過趨勢分析,來生成預測和建議。
3.從商用現貨(Commercial Off the Shelf,COTS)升級到定制解決方案
過去在軟件選擇性匱乏的時代,企業往往可以強勢地通過提供COTS,讓用戶被動地接受產品。如今隨著個性化需求的增長,開發者不得不轉向定制的、高度模塊化的數據架構。他們可以從同類開源的組件中選用最受歡迎的一款,并且能夠根據實際需求,在不破壞現有業務模式的情況下,進行升級和改造。
關鍵技術:
- 基于API的接口 – 在以DevOps方式實施數據管道時,API接口可以讓不同的獨立團隊免受那些無關的復雜因素的影響,進而減少了人為錯誤的可能性,并加快了產品的面市時間。與此同時,隨著需求的變化,他們也能夠輕松地更換各類組件。
- 分析工作臺 – 此類服務平臺可實現在模塊化組件(如:數據庫和服務)之間進行端到端的通信。
4.解耦數據訪問
通常情況下,API可以幫助我們解除數據訪問時的耦合性問題,并能夠通過封裝,確保對數據進行直接訪問和查看時的限制與安全。有了API,我們不但能夠實現對通用數據集的快速訪問,而且方便了團隊之間對于數據的重用,以及高效的無縫協作。
關鍵技術:
- API網關 – 您可以創建和發布以數據為中心的API,進而實現訪問控制,實施使用策略,以及衡量服務的性能。
- 數據緩沖 – 許多組織都會用到某個數據平臺,來緩沖核心系統外部的事務。該平臺的實現方式既可以是針對每個團隊預期工作負荷的一種數據湖,又可以是基于數據存儲架構的一種存儲庫。
5.轉向基于域的數據架構
許多組織不再將所有的企業數據都存儲在某個單一的位置,而是會過渡到基于域的架構中,將數據集的所有權轉移給使用它們的業務職能團隊。此舉的好處不但可以讓那些業務域的數據能夠以一種面向消費的方式推送給用戶,而且能夠有效地應對不斷變化的流動性需求,并遵守持續更新的法律法規。
關鍵技術:
- 數據基礎設施即平臺 – 此類服務平臺提供了用于存儲和管理通用工具的功能。數據生產者能夠快速地實現其數據需求,且無需自行構建平臺。
- 數據分類工具 – 此類工具可以在無需獲取完全訪問權限的情況下,對數據進行搜索和瀏覽。該工具的數據目錄通常還提供了對于元數據的定義,簡化的界面,以及可以從任何地方訪問到數據資產。
如何實現現代化的數據架構
數據和技術領導者需要能夠通過快速地評估和部署新的技術,以確保跟上現代化數據創新的步伐。目前,業界有如下三種技術準備與實踐,可方便企業構建出數據轉發型組織(data-forward organization)架構:
- 對于組織而言,“測試和學習(test-and-learn)”是DevOps的敏捷實踐方法。通過嘗試不同的組件和概念,我們能夠快速地確定出對于本組織行之有效的方法。
- DataOps是DevOps針對數據的增強。它有助于加速新組件的設計、開發和部署,能夠方便團隊快速地實施變更,并按需更新方案與文檔。
- 確保獲得高級管理層的支持,并致力于打造積極的數據文化(data-positive culture)。據此,技術人員不但能夠提高工作效率并簡化準備流程,還能夠確保數據策略與組織的業務目標相一致。
隨著數據、分析、以及AI等元素被嵌入企業的日常運營之中,我們需要通過靈活的數據架構,以確保本組織在瞬息萬變的市場中保持敏捷性、魯棒性和競爭力。
【原標題】5 Steps for Implementing a Modern Data Architecture (作者: Rachel Roundy)
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】