構建大數據架構:核心組件優秀做法
結構化、半結構化和非結構化數據的數量和種類正呈指數增長,并且以越來越高的速度從各種來源生成,這形成大數據。
研究人員估計,到2025年,世界每天將創建463艾字節的數據,即每天4,630億千兆字節。
當然,沒有任何一家企業會需要所有這些數據,但是他們需要收集、存儲和分析盡可能多的數據,以便從可行見解中獲得優勢,以在這個數字時代有效地競爭并取得成功。
然而,很多企業才剛剛開始其大數據之旅。數據集成平臺提供商Talend公司全球解決方案工程副總裁Christophe Antoine說:“大多數企業仍在摸索大數據的作用。”這里的主要原因:他們沒有適當的大數據架構。Antoine 補充說:“如果你只是重復自己所做的事情,你很有可能會對結果感到不滿意。”
什么是大數據架構?
企業需要擴展其技術堆棧來處理大量且多樣的數據,并且他們需要部署基礎架構,以最快的速度(通常是實時或近實時)完成這項工作。
數字化轉型服務UST公司數據工程和平臺總經理Sripathi Jagannathan說:“傳統的數據庫和數據處理技術無法擴展以滿足企業的需求。”
這正是大數據架構發揮作用的地方。它的目的是獲取、處理和分析數據,而傳統數據庫系統無法處理這些數據,因為它們太大或太復雜。而且,大數據架構可隨著企業大數據計劃的發展而擴展-無論是所使用的數據量,企業用例數量–取決于企業的大數據。
Jagannathan解釋說:“大數據架構是基礎架構和軟件方法,可加快存儲和處理非常大量且以不同速度生成的各種數據。”
大數據架構組件
IT顧問表示,他們已經看到有些企業領導者錯誤地尋求一種一次性解決方案來滿足其大數據野心。實際上,企業需要設計和部署多層架構,以成功處理大數據程序中所涉及的全部任務。
大數據分析咨詢公司Brillio美國地區負責人Sandhya Balakrishnan表示,最簡單的大數據架構模型具有三層。
存儲層保存企業從各種數據生成源中提取的數據,無論這些源是企業自己的操作系統、第三方系統還是其他端點。
處理層可以執行批處理、實時處理或混合處理。
消耗層使企業可以通過分析引擎、數據查詢或AI和機器學習應用程序以及數據可視化(這可以通過很多不同的工具來實現)以各種方式使用數據。
其他模型將大數據架構分解為更多的層,從而分離出更多的單個組件。例如,某些模型列出這些單獨的層:數據收集器、數據獲取、存儲、處理、數據查詢、數據分析和數據可視化。
其他模型進一步增強數據安全性和數據監視。
設計和部署挑戰
在設計和部署大數據架構以及管理所有相關基礎架構時,IT團隊通常會遇到多個挑戰:
- 選擇合適的組件和工具來平衡當前需求、未來需求、成本和預期回報。
- 集成各種組件(特別是與生成數據的舊系統集成)以收集、處理和利用所有必需的數據。
- 以企業用例所需的速度和規模來收集、集成和處理數據。
- 具有必要的技能,可充分評估選項、開發和完善架構,并最終管理已部署的技術。Antoine指出:“你必須有架構師完全了解優缺點,并可說明為什么選擇一種技術,而不是另一種。”
- 請確保數據符合法規要求、隱私標準和最佳做法。
- 提高對數據的信任度,讓用戶對數據所產生的結果充滿信心,以最大化數據價值。Balakrishnan稱:“你必需構建正確的實用程序和工具,以確保數據質量可見。”
- 優化數據。人壽保險提供商Bestow數據科學工程師Jeremiah Cunningham表示:“我們可以通過多種方式存儲、傳輸、清理、查詢和呈現數據。企業可能會選擇不同方式調查數據:基于時間、基于隊列或更復雜的子集。但以復雜的方式訪問大量數據會產生優化問題,這個問題可能有不同表現形式。”
大數據架構的具體做法
經驗豐富的技術領導者為我們提供了以下最佳做法,用于設計和運行可提供價值的大數據架構:
- 確定企業希望通過大數據計劃實現的業務價值,并用以指導所需技術的敏捷交付。
- 根據戰略構想構建架構,并將其作為敏捷程序,同時創建足夠的模版以使其可擴展。Balakrishnan建議說:“應以全面的視角構建技術基礎。”
- Jagannathan稱,解耦系統“以確保新工具和技術可集成,而不會造成重大中斷”。
- 創建全面的數據治理計劃,以確保數據受到保護,對于計劃的用例是完整的,并收到用戶的信任。
可用技術示例
很多技術共同形成大數據架構,因此在部署其基礎架構時,企業IT架構師可以從多個供應商中選擇工具。
根據Research and Markets的報告顯示,全球大數據市場的估計價值預計將以每年近20%的速度增長,到2027年將超過2430億美元。構成大數據生態系統的技術包括:
- 提取、轉換和加載工具;
- 數據湖和數據倉庫;
- 用于處理和存儲的云平臺;
- 商業智能和數據可視化軟件;
- 以及 數據治理和數據安全工具
Cunningham建議:“調查企業對數據的當前需求和未來前景,并對所需的概念技術制定計劃。通過盡早研究潛在的產品和選擇,你可以將問題縮小到可管理的規模,然后從同行那里獲得有關潛在問題或意外收獲的意見。重要的是,適當地研究并選擇正確的技術來完成正確的工作,最大限度地提高生產力,同時最大程度地減少時間和成本。”