數據湖的發展趨勢將給企業帶來什么
譯文【51CTO.com快譯】“數據湖”(Data Lake) 這一術語已經推出了將近10年的時間,如今已經成為從大型數據存儲庫中的數據挖掘中形成競爭性見解的關鍵工具。
Pentaho公司創始人James Dixon在2010年創造了“數據湖”這個術語。他對“數據湖”給出了這樣描述:“如果將數據集市看作是一個瓶裝水的儲存地——經過清潔、包裝和結構化以便消費,那么數據湖就是在自然狀態下的一個大型水體。”
隨后很多人質疑組織是在創建具有業務價值的數據湖,還是創建價值有限或沒有價值的數據沼澤。有鑒于此,行業專家Marco Iansiti和Karim Lakhani建議說,“數據湖(其中的數據是原始來源)是數據平臺的一部分,數據從下到上流動……數據平臺聚合、清理、精煉和處理在數據湖中捕獲的數據”。
考慮到這種更為精細的觀點,那么問題是:數據湖在其炒作周期內發揮了什么作用?為了回答這個問題,行業媒體征求了一些首席信息官和行業專家的意見。
數據湖產生了什么結果?
首席技術官Steve Jones說:“我所在的組織部署了很多數據湖,通常它們有三點基礎:(1)彌補傳統企業數據倉庫的不一致的鴻溝;(2)使機器學習和人工智能更容易實施;(3)數據的提取和整理實現產業化。這樣做的目的是讓組織專注于結果,而IT團隊專注于供應數據,而不是將系統集成到數據集市/倉庫中。如果有了這些,那么用例就會變得無窮無盡。”
作為數據湖實施者,首席信息官Deb Gildersleeve表示,她所在的組織已經為業務部門實現了特定主題的數據湖,它們在獲取見解并為企業用戶提供訪問方面確實起到了很大作用。”
首席信息官Jim Russell表示,也采取了類似的自助服務方法,并部署了適用于供應商的數據湖。他說,“它是我們三年成熟計劃的一部分,以修復數據并開始查看流程。其驅動力很難判斷,因為它代表了我們組織的總體范式轉變。因此,它證明了這一點,但并不令我們感到驚訝。”
同時,企業架構師Craig Milroy表示,“我們已在不同的平臺(AWS、Azure和Cloudera)上分別繼承了一個數據湖。每個領域都專注于從數字到5G的特定業務成果。我認為我們正處于價值驅動之旅的起點。要使業務價值和成果與技術投資保持一致,還有很多工作要做。”
與此同時,首席信息官Melissa Woo認為從其數據湖中獲得的業務成果并不確定。她說:“我們的分析主管在數據湖變成現實之前就實施了一個數據湖,但是對于我們的組織而言,并沒有那么多需求。我們的客戶仍然需要傳統的數據倉庫和報告編寫功能。我們公司總裁仍然對建立適當的基礎設施可能產生的結果非常感興趣,并且非常喜歡數據湖這一術語。”
更糟糕的是,首席信息官Ben Haines說:“許多數據湖變成了數據沼澤,浪費了數據機會。”以上的討論導致Mark Thiele提出一個問題,“數據湖是否取代了其他數據存儲庫,還是只是一種增值服務?”
與數據倉庫相比,數據湖面臨的最大機遇是什么?
對于電信行業高管Mil Roy來說,數據湖提供了對來自5G終端的大量非結構化數據的支持。這不適合傳統的數據倉庫方法,尤其是在線/實時流式數據和分析功能。他表示,針對特定業務需求,將適合特定用途的工作負載部署到數據湖。
Stephen diFilipo對Milroy的建議表示認同,并表示,“數據湖提供了收集、存儲和分析所有數據、格式、非結構化元數據的功能,而這是傳統數據倉庫存儲庫無法實現的。”
與類似的觀點一樣,Gildersleeve認為數據湖的最大機會是能夠應用焦點,并比傳統數據倉庫移動更快。這樣可以使更多人訪問數據。
首席技術官Steve Jones在這一點上斷言,數據湖和數據倉庫之間的區別在于能夠從“更改數據捕獲”轉變為所有更改的歷史。使用數據湖,無需僅提取報告所需的數據,就可以捕獲整個歷史記錄。
Gartner公司分析師Nick Heudecker對這一討論進行了總結,他說:“數據湖應被視為勘探系統。它們為數據倉庫方法提供了補充。”
數據湖項目成敗的驅動因素是什么?
對于成功的數據湖項目的性質,首席信息官們有著不同的看法。一些人認為,當多個業務組數據合并以創建融合而不是歷史報告的總和時,數據湖是最好的利用方式。首席信息官Melissa說,“這已成為我們解決問題的一部分。如果不同的群體不愿意提供數據,則沒有什么價值。顯然,分析的成熟度仍然很重要。但是,成功完成這一任務的組織將成為分析公司或競爭對手。”
首席信息官McBreen說,“當企業能夠為共同的目的而合作時,這就像來自許多設備、合作伙伴和重要領域的數據流,但我們只是從頭開始。對于人工智能和機器學習來說,這可能是使用它們進行增強。”就成功或失敗的驅動因素而言,首席信息官幫助執行團隊理解有價值的數據湖和數據沼澤之間的區別是很重要的。常見問題包括:
(1)缺乏業務定義的用例/結果。
(2)缺乏人際交往能力。
(3)資源不足。
(4)過高的期望。
(5)數據素養和流利性。
(6)數據質量。
(7)數據治理。
Heudecker表示:“數據湖部署經常遇到困難,因為尚未確定目標受眾。這會影響可用的工具,所需的數據素養水平等等。而認為數據湖只是一種服務的觀點是不正確的。”
隨著首席數據官的出現,首席信息官可以在哪里增加最大價值?
diFilipo建議說,“企業的首席信息官也將成為為首席數據官提供數據平臺的數據資產經理。”
Craig Milroy表示,由于這個原因,首席信息官們應該讓分析、數據科學更容易獲得高質量、更容易理解的數據,從而推動業務價值和成果。
結語
首席信息官在數據管理中繼續發揮著重要作用。數據湖為他們提供了增值的潛力。顯然,隨著數據湖的應用結果喜憂參半,許多組織在業務上面臨失敗。但是對于那些將數據湖視為生成數據平臺或用數據結構分析的一些組織來說,加速業務轉型付出一些代價都是值得的。
原文標題:Key Trends in Data Lakes,作者: Guest Author
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】