如何查找隱藏在云存儲中的數(shù)據(jù)
最近的一項調(diào)查顯示,隨著云端對象庫成為事實上的數(shù)據(jù)湖,企業(yè)在查找和統(tǒng)計堆積的所有數(shù)據(jù)時,處于艱難的境地。

對于擁有大量空曠空間的人們來說,其存放的物品總是凌亂散布,而這可能是人類的本性。而目前也有這樣一個趨勢,即對于越來越多的企業(yè)來說,云對象存儲正在成為事實上的數(shù)據(jù)湖。好消息是,云對象存儲成本相對更低,并且具有高度可擴展性,而且越來越易于訪問。例如,大多數(shù)云Hadoop服務(wù)交換Hadoop分布式文件系統(tǒng)(HDFS)的對象存儲,并且越來越多的云計算提供商正在提供服務(wù),提供臨時查詢或?qū)⒃茖ο蟠鎯σ暈閿?shù)據(jù)倉庫的擴展表。
依賴云存儲作為默認目標或數(shù)據(jù)湖的另一個方面是需要協(xié)調(diào)通用目標中數(shù)據(jù)的積累,需要對數(shù)據(jù)隱私或數(shù)據(jù)保護更負責,尤其對于GDPR等規(guī)則生效的情況。
Chaos Sumo公司計劃在今年夏天推出SaaS提供商的搜索層以添加云存儲(現(xiàn)在稱為Amazon S3),該公司剛剛發(fā)布了一項調(diào)查,顯示云計算采用者感受到的一些痛點。
無可否認,這個調(diào)查規(guī)模并不大,只有120名受訪者,主要針對的是數(shù)據(jù)操作專業(yè)人員,該示例很可能偏向已經(jīng)接受云計算的組織。例如,72%的人表示他們目前使用某種形式的云對象存儲。對于那些使用亞馬遜S3的人來說,40%的受訪者表示他們預(yù)計明年他們使用S3存儲的比例至少會增長50%。
對于企業(yè)來說,主要用于備份、存儲和歸檔。但是28%的人已經(jīng)在使用數(shù)據(jù)湖的對象存儲,而另外18%的人計劃在未來的12-18個月內(nèi)實施。毫不奇怪,對于這個以AWS為主的樣本,如今在使用Amazon Athena報告的類似比例(23%)。大約一半的受訪者表示,已使用Amazon Redshift數(shù)據(jù)倉庫,Spectrum現(xiàn)在可以將S3視為擴展表。
Athena等工具的創(chuàng)新開放了對系統(tǒng)中數(shù)據(jù)的交互式訪問,而不是對存儲進行優(yōu)化,而不需要ETL(盡管數(shù)據(jù)必須采用某種形式的半結(jié)構(gòu)化存儲,如CSV、JSON、Parquet或其他格式)。

但正如圖表所顯示的那樣,隨著數(shù)據(jù)在對象存儲中的涌現(xiàn),越來越多的少數(shù)人擔心問責制問題。這正是Hadoop等平臺的商業(yè)銷售優(yōu)勢,以及用于分析和數(shù)據(jù)準備的打包工具,這些平臺具有某種形式的數(shù)據(jù)沿襲,安全性和訪問控制作為其存在的理由。云對象存儲在涉及治理或周邊安全時是赤裸裸的——傳統(tǒng)上是數(shù)據(jù)平臺、云主機或消耗數(shù)據(jù)的分析工具的工作。
因此,四分之一的受訪者擔心他們將不得不移動數(shù)據(jù)來分析數(shù)據(jù),而數(shù)量較少但具有統(tǒng)計學意義的少數(shù)群體則對查找數(shù)據(jù)、合規(guī)性和安全性表示擔憂。他們花費大量時間清理和準備數(shù)據(jù),超過一半的受訪者表示花費每周至少6小時,其中近40%的受訪者表示每周花費超過11小時來完成任務(wù)。
值得注意的是,只有7%的受訪者表示目前很容易分析當今在對象存儲中的數(shù)據(jù)。這就是調(diào)查贊助商Chaos Sumo公司的商業(yè)用途。該公司計劃引入它所謂的“數(shù)據(jù)結(jié)構(gòu)”,將于今年夏天將S3數(shù)據(jù)打開到Elastic search,供現(xiàn)有SaaS提供商使用OEM。預(yù)計S3將成為更多分析平臺和工具的良好去處。對于Chaos Sumo來說,將搜索作為SaaS提供商的實用工具來增加這些數(shù)據(jù)的可見性可以更好地應(yīng)用云存儲。