新型數據準備工具來襲 你還在使用傳統數據倉庫架構嗎?
越來越多的業務分析師正在提升自身編寫臨時查詢和分析算法的能力。這些臨時查詢和分析算法用來尋找企業數據存儲中的有用信息,為企業做業務決策時提供更多數據。隨著企業員工越來越精通于使用分析工具,他們當中越來越多的人發現,傳統的數據倉庫架構阻礙了他們分析某些重要數據的能力。
新興的自助型數據準備工具可以幫助業務分析師、數據科學家和其他最終用戶繞過數據倉庫,完成數據集成和制備過程的關鍵部分。而我們說數據倉庫對此造成了阻礙的主要原因有以下三點。
首先,傳統的數據倉庫通常是一個存儲庫,其數據來自內部事務處理,或者用于生成業務性能報告的運營系統。這限制了在數據上所進行分析的范圍和類型。
其次,傳統的數據倉庫用于提取的數據集合是高度集成和標準化的,它使用了一整套的業務規則,結合了一個預定義的易于維度分割的數據模型。這樣做可能會過濾掉與特定分析應用程序相關的某些信息。
第三,IT團隊通常負責開發規則和流程,以確保數據以正確的方式存儲到數據倉庫中,這種方法同樣可能無法滿足分析人士的最終分析需求。
顯然,傳統的數據倉庫的規范流程在過去很適合于企業,但數據的應用場景正在迅速改變。企業越來越需要將他們的交易數據與來自各種其他信息來源的數據混合,這些數據源包括網站點擊,活動日志,生產設備的傳感器和其他設備,客戶電子郵件、社交網絡和客戶流媒體數據、數據聚合器和第三方信息服務提供商等。
新的數據類型需要新的數據平臺
利用這些外部數據源可以幫助提高商業洞察力,配以業務流程的變化,將使得企業真正轉變為數據驅動型。但在許多情況下,比起數據倉庫,這些新增的數據更適合在一個大型的數據平臺上被存儲和處理——Hadoop集群,NoSQL數據庫,或Spark系統,或者從外部門戶網站獲取這些數據。
此外,業務分析師以及數據科學家經常對可用數據進行不同形式的訪問,甚至包括數據的原始狀態。
例如,消費產品制造商的營銷團隊可能需要分析客戶的檔案記錄,新聞源和社交媒體數據,以找出一種模式,幫助策劃一個在線營銷活動。同時,客戶體驗團隊可能需要監控社交媒體,獲取各種網站上的產品評論,識別潛在的問題,以便采取相應的行動來安撫顧客的不滿情緒。其他團隊也可以有自己的用處。因為每個人都有不同的需求和目標,數據倉庫幾乎不可能讓所有的分析目標都得到滿足。
讓分析師處理那些最能滿足他們獨特需要的數據,可以讓分析工作更加更富有成效。這對數據集成的各個方面都有影響,包括數據發現,數據攝取、分析、驗證和質量保證等。各大供應商所提供的新型自助型數據準備工具是個不錯的選擇。
數據準備階段的邏輯分離
此技術對分析用戶、IT和數據管理團隊進行了明確合理的分工。業務分析師和數據科學家可以使用數據準備工具來找到不同系統中的相關數據,將這些數據放在一起,進行配置和清洗以保持數據的一致性,定義業務規則管理對數據的使用。在數據準備軟件的幫助下,他們能得到相關數據的更全面的定制化視圖,這通常比他們從數據倉庫獲取到的東西要強得多。
理想情況下,分析師對數據的使用更加充分。這意味著他們應該保證自身理解高層數據使用策略,并貫徹實施。他們還需要與其他人合作以確保數據被合理的解釋,并保證企業內部數據的一致性。
因為數據集被捕獲后,保持著原來的格式,IT部門不需要負責實現被分析數據的集成和轉換規則。相反,他們的責任轉換為管理整個基礎架構,以支持數據發現、整合和分析過程,并提供控制機制來監控數據定義的不一致現象以及使用業務數據時不遵守治理規則的行為。
大多數企業可能并不會拋棄數據倉庫。自助型數據準備軟件是一種相對較新的不斷成熟的技術,主要由一些新興供應商提供。但這些數據準備工具的蓬勃發展,為那些尋求獲取更多數據的企業指明了方向,那就是要增加分析的靈活性和有效性。