數據倉庫中的數據清洗
什么是數據清洗?
“數據清洗確保無法辨認的數據不會進入數據倉庫。無法辨認的數據將影響到數據倉庫中通過聯機分析處理(OLAP)、數據挖掘和關鍵績效指標(KPI)所產生的報表。”
在哪里會用到數據清洗的一個簡單例子是,數據是如何儲存在不同的應用系統中的。例如:2007年3月11號可以儲存為“03/11/07”或“11/03/07”及其他格式。一個數據倉庫項目將數據輸入數據倉庫之前需要將不同格式的日期轉變成一個統一的格式標準。
為什么要進行提取,轉換和加載(ETL)?
提取、轉換和加載 (ETL) 指的是一種可以幫助確保數據在進入數據倉庫之前被清洗過(即符合標準)的工具。供應商提供的提取、轉換和加載 (ETL) 工具更加容易被用來管理持續進行的數據清洗。供應商提供的提取、轉換和加載 (ETL) 工具坐鎮在數據倉庫之前,監測輸入的數據。如果它遇到了程序指定轉換的數據,它就會在數據載入數據倉庫之前對其進行轉換。
提取、轉換和加載 (ETL) 工具也可以用來從遠程數據庫或者通過自動設定的事件或通過人工干預提取數據。有替代工具可以替換ETL工具,這要取決于你項目的復雜性和預算。數據庫管理員們 (DBA) 可以編寫腳本來完成提取、轉換和加載 (ETL) 的功能,通常能滿足較小的項目需要。微軟的SQL服務器都有一個免費的被稱為數據轉換服務 (DTS) 的提取、轉換和加載 (ETL) 工具。數據轉換服務 (DTS) 是一款不錯的免費工具,但它確實有其局限性,尤其是在數據清洗的持續管理上。
提取、轉換和加載 (ETL) 的供應商有Informatica、IBM(Cognos)及Pentaho等。 在對所有產品進行選擇時,在接觸供應商之前列出你認為對一個提取、轉換和加載 (ETL) 供應商的需求。從咨詢顧問那里獲得服務還是值得的,它能在產品的選擇上幫助你進行需求分析。
數據清洗和提取、轉換和加載(ETL)對一個數據倉庫項目的成功有多重要?
在數據倉庫產生的結果符合利益相關者的期望值時,提取、轉換和加載 (ETL) 通常被忽視和置于腦后的。結果是,提取、轉換和加載 (ETL) 冠以數據倉庫項目的“沉默的殺手”的稱號。大多數數據倉庫項目由于數據清洗方面的意外情況而體驗到延遲和預算超支的情況。
如何規劃數據清洗?
及早開始對將要進入數據倉庫的數據進行籌劃是很重要的,這一籌劃可能會隨著項目的成熟發展而改變,但當你需要獲得數據擁有者在沒有事先通知的情況下不會改動數據的格式的承諾時,這些文件的蹤跡就變得極為有價值。
創建一個需要提取、轉換和加載的數據列表。為極有可能需要轉換格式的數據設立一個獨立的列表。對是否需要購買提取、轉換和加載(ETL)工具做出決定,并留出一個全面的預算。從該領域的專家那里聽取建議并評估產品是否適用于你企業的整體技術層次。
原文鏈接:http://www.chinabi.net/CIO/dwh/201107/1942.html
【編輯推薦】