DataOps,開啟數據管理的新時代
譯文【51CTO.com快譯】最近的一項針對企業正在面臨的大數據挑戰的調查,揭露了一個有關數據使用的驚人事實:有38%的企業“缺乏”令人信服的合理方式,去使用他們持有的數據;34%的公司沒有足夠成熟的流程,去持續處理大數據;24%的公司甚至無法讓大數據轉換為可供最終用戶使用的有價值信息!無論該調查是否有所夸大其詞,至少它表明了許多企業并不知道自己可以對數據做什么、必須做什么、以及如何合理從客戶處收集數據。
可以說,在以數據為驅動的競爭格局中,忽視數據的價值,甚至無法充分發揮其潛力,對于組織來說都只會意味著災難性的結局。許多組織往往在收集大量數據的過程中,不知道如何使用適當的流程,來處理和轉化數據。
當然,部分問題源自歷史遺留的數據管道。伴隨著數據在數據管道中從源頭移至目標系統,每個階段對于數據的含義,以及數據的使用,都可能產生不連貫的數據視圖。這些會讓數據管道變得脆弱且難以迭代,進而使得組織在面對變化時,出現反應上的遲緩。對此,我們值得采取的方式便是:DataOps。
什么是DataOps?
DataOps(即,數據運營的縮寫)是一種協作式數據管理方法,強調的是組織內部各種數據管道的通信、集成和自動化。
與數據存儲管理不同,DataOps并非主要關注數據的“存儲”,而是數據的“交付”。也就是說,如何讓所有數據需求者都能夠輕松地獲得、訪問和使用數據。其管理的目標是:創建可預測的數據、模型、以及相關組件的交付和變更管理,以便在整個組織內和數據消費者中,更快地交付出有價值的信息。
為此,DataOps需要通過各項技術,來自動化數據的設計、部署、管理和交付,縮短數據分析的周期,進而改善其使用和提供的價值。在此基礎上,DataOps能夠大幅提高組織對于市場變化的響應速度,以及應對挑戰的能力。
DataOps能夠解決的挑戰和問題
大數據給我們帶來的最大好處莫過于,快速可靠的數據驅動和可實現的業務洞見。對此,各類組織和技術人員需要將DataOps與敏捷、DevOps和精益制造等方法實踐相結合,以應對如下方面的數據挑戰:
- 速度
現代化的組織往往需要對來自不同源頭、不同形式的數據,持續進行清理、改進和再利用。只有經過這樣復雜且漫長的過程,組織才能夠從那些快速發展的業務環境中,發掘出潛在的數據洞見。而DataOps恰好能夠從根本上提高此類洞見的發掘速度。
- 數據類型
有時,組織收集到的數據可能是非結構化的格式。而此類數據源極有可能為新興的業務挑戰提供線索。因此,組織仍然以結構化的格式,去處理數據的話,是遠遠不夠的。鑒于此類數據洞見提取的難度,DataOps能夠方便組織去更好地識別、收集和使用來自每個可用數據源的數據。
- 數據孤島
DataOps打破了組織內部數據過于集中的孤島狀態。同時,它能夠通過構建彈性系統,為需要訪問數據的每一方提供自助式的服務。也就是說,彈性系統能夠隨著組織的業務進行擴展,為數據用戶提供一種可預測的方式,實現對數據的按需查找和使用。
DataOps的業務優勢
對于數據驅動型企業而言,他們需要盡快將數據交付給數據工程師、數據科學家、機器學習(ML)工程師,甚至客戶。而DataOps則能夠為他們帶來如下業務優勢:
- 最大限度地利用數據
DataOps為包括:分析師、管理層、以及客戶在內的所有數據用戶,提供自動化的數據交付,并在此過程中允許每個部門,從數據中提取最大的信息價值。顯然,它能夠提高組織的競爭力、面對變化的響應能力、以及更高的投資回報率。
- 在正確的時間獲得正確的洞見
目前,大數據需要關注的一個顯著問題是,提供數據洞見的時效性。也就是說,過于延遲地提供正確的洞見,對于企業來說是沒有意義的。而DataOps能夠將數據快速地提供給需求方,以便更快地做出更明智的決策,使組織能夠快速地適應市場的變化。
- 提高數據生產力
DataOps會使用自動化工具,將數據以自助操作的服務方式予以交付。它不但消除了數據請求和數據訪問之間的固有延遲,而且讓團隊能夠據此做出以數據為驅動的決策。同時,由于DataOps擺脫了各種需要手動進行數據管道變更的管理流程,因此組織能夠針對數據管道進行簡化、快速、且自動化的變更。
- 針對結果優化的數據管道
DataOps在數據管道中加入了一個反饋循環,允許各種數據消費者識別他們所需的特定數據,并從中獲得定制的洞見。據此,每個團隊都可以使用這些洞見,來進一步降低成本,發現新的機會,并提高組織的盈利能力。
DataOps的原則
在技術方面,DataOps能夠在不影響數據分析的速度或質量的基礎上,提高數據應用的可擴展性。由于借鑒了DevOps的經驗教訓與實踐,因此DataOps在許多關鍵方面與DevOps高度重合。下面是DataOps的三個基本原則:
- 持續集成
由于DataOps能夠動態地識別、整理、集成和提供來自不同源頭的數據,因此新的數據會被DataOps自動集成到數據管道中,并使用AI/ML工具,提供給各個需求方。
DataOps的自動化完全簡化了數據從被發現到轉換、管理、洞察、以及定制的全過程。實際上,它可以將數據以實時流的形式,直接傳輸到預測算法中,以便向用戶,特別是數據消費者提供即時的洞見。
這種經過優化的數據集成過程,確保了數據在被發現和利用的過程中,不會浪費過多的時間。
- 持續交付
根據規模效應的理論,越多的人去訪問組織持有的數據,從中提取的洞見就越具有參考價值。不過,數據的可訪問性,取決于數據的治理。我們只有通過DataOps,在整個組織內實施數據治理,才能保證數據能夠在安全、且保有隱私的前提下,提供可訪問性。
為了保證數據能夠以符合內部數據質量、以及數據屏蔽規則的協作方式,有目的性地交付給內、外部數據消費者,我們通常需要使用智能化的數據平臺來實現。也就是說,只有當數據的質量、隱私和安全得到了保證時,各種相關方才有信心使用它,并從中獲得準確的洞見,而不必擔心數據治理所帶來的影響。
- 持續部署
如今,各種欺詐檢測、AI聊天機器人、數字化銷售、以及供應鏈管理等關鍵任務功能,都需要數據驅動型應用,實時地根據最新可用的數據,來進行決策。而持續部署正是保證用戶與應用能夠無縫訪問數據的前提條件。
DevOps與DataOps
雖然DataOps借鑒了DevOps的基本概念和操作流程,但是兩者之間仍然存在如下顯著的差異:
- 人員條件
盡管DataOps的從業者可能非常精通技術,但是他們需要更加專注于,為數據用戶創建算法、模型和視覺輔助等工具。同時,他們還應當具有可落地的軟件工程思維。
- 流程
雖然DevOps流程幾乎不會涉及到編排(orchestration),但是DataOps流程則需要用到數據管道和分析開發的編排。
- 測試
與DevOps不同,DataOps會高度依賴數據屏蔽,來開展測試。因此,測試數據的管理就顯得至關重要了。此外,在部署之前,DataOps通常需要在數據管道和分析開發的過程中,測試和驗證數據。
- 工具
目前,DevOps已擁有成熟的工具生態系統,尤其體系在測試方面。而作為一種新的方法,DataOps通常需要團隊從頭開始構建工具,或根據其特殊目的去定制DevOps工具。
DataOps平臺的演進
在數據分析的早期,ETL(提取、轉換、加載)工具已經成為了管理大量導入數據的強大工具。然而,隨著數據的多樣性、準確性、以及體量的激增,人們對于可擴展性和實時數據分析的需求,變得更加迫切。ETL工具與云計算資源的結合,雖然加快了數據的分析速度,然而,數據訪問的安全性仍然形式嚴峻。在此背景下,DataOps應運而生。通過采用民主化的數據訪問(democratized data access)方式,所有數據需求方可以在組織數據治理策略的約束下,安全、優質地獲取數據洞見。
原文標題:A Guide toDataOps: The New Age of Data Management,作者: Mir Alimanagement
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】