談?wù)剟?chuàng)建有效數(shù)據(jù)質(zhì)量規(guī)則特別關(guān)注的五大要素
根據(jù) Gartner 的數(shù)據(jù)質(zhì)量市場調(diào)查,低質(zhì)量數(shù)據(jù)每年使公司損失約 1500 萬美元,那么如何通過創(chuàng)建有效的數(shù)據(jù)質(zhì)量規(guī)則來提高數(shù)據(jù)質(zhì)量呢。
什么是數(shù)據(jù)質(zhì)量規(guī)則
數(shù)據(jù)質(zhì)量規(guī)則是企業(yè)對其數(shù)據(jù)設(shè)定的要求。這些要求旨在滿足兩個相互依存的目標:
1.定義數(shù)據(jù)應遵循的格式以及數(shù)據(jù)元素之間應存在的依賴關(guān)系。
2.作為企業(yè)根據(jù)這些要求衡量和檢查其數(shù)據(jù)質(zhì)量的參考。
比方說,對于即將發(fā)起的電子郵件營銷活動,我們需要優(yōu)化工作和成本,需要決定篩選出無效電子郵件。為此,創(chuàng)建簡單的規(guī)則:
- 電子郵件必須包含“@”符號。
- '@' 只能使用一次。
- 電子郵件必須包含以下任何或所有內(nèi)容:字母、數(shù)字、非字母字符,例如,! # $ % & ' * + – / = ? ^ _ ` { 。
通過僅向經(jīng)過驗證的電子郵件發(fā)送消息,企業(yè)將能夠改善與客戶的溝通,并更好地評估活動在電子郵件打開率、點擊率等方面的成功。
然而,這套電子郵件數(shù)據(jù)質(zhì)量規(guī)則絕不是詳盡無遺的。例如,如果進行有針對性的營銷活動,那么再創(chuàng)建一個規(guī)則是有意義的。這將幫助企業(yè)避免在消息開頭出現(xiàn)令人尷尬的“親愛的 N/A”或“親愛的……”:
- 電子郵件引用的“客戶全名”字段不得為“空”。
如果想驗證名稱的拼寫以正確稱呼客戶,可以提出額外的規(guī)則:
- 客戶的全名只能由字母組成;不允許使用其他字符。
- 只有客戶姓名、中間名(如果有)和姓氏中的首字母必須大寫。
創(chuàng)建有效數(shù)據(jù)質(zhì)量規(guī)則需要考慮的因素
1.業(yè)務(wù)主題專家需要深入?yún)⑴c
不同的部門有不同的優(yōu)先事項。要制定全面的數(shù)據(jù)質(zhì)量規(guī)則,應該正確定義所有主題專家并明智地整合他們的要求。如果不從不同部門的角度看待數(shù)據(jù),可能會破壞所有數(shù)據(jù)管理工作。例如,銀行的貸款部門會將貸款金額、貸款到期日和月利率視為關(guān)鍵數(shù)據(jù)。他們很可能會認為客戶名稱或客戶訪問過的分支機構(gòu)的前綴不值得填寫。相反,市場部對貸款相關(guān)信息不太感興趣,但他們會找到客戶數(shù)據(jù)對于有效溝通和創(chuàng)建單一客戶視圖非常重要。
2.數(shù)據(jù)質(zhì)量規(guī)則的數(shù)量要適中
在爭取提高數(shù)據(jù)質(zhì)量的過程中,重要的是不要忘形于太多的質(zhì)量規(guī)則。過多的數(shù)據(jù)質(zhì)量規(guī)則顯著降低系統(tǒng)性能,因為需要更多的計算能力和時間來運行檢查。根據(jù) 10 條規(guī)則檢查字段與根據(jù) 100 條規(guī)則檢查字段不同。因此,應該找到一個很好的平衡點。
3. 需要采用循序漸進的方法
我們不必創(chuàng)建涵蓋所有數(shù)據(jù)的規(guī)則,也不必一口氣解決所有問題。我們應該對數(shù)據(jù)進行分類并定義需要立即關(guān)注并盡最大努力的關(guān)鍵元素。例如,要開展有針對性的營銷活動,“客戶姓名”、“出生日期”和“電子郵件”字段至關(guān)重要,而家庭住址可被視為有用的額外信息。完成關(guān)鍵數(shù)據(jù)后,可以繼續(xù)處理 #2 優(yōu)先級,依此類推。簡而言之,數(shù)據(jù)質(zhì)量管理是接力賽,而不是短跑,然后采取相應的行動。
4.單獨對待數(shù)據(jù)庫的每個字段并相應地創(chuàng)建規(guī)則
有多種數(shù)據(jù)質(zhì)量特征,我們的任務(wù)是確定哪些最適合特定領(lǐng)域。我們以'員工全名'和'員工聯(lián)系電話'為例。第一個字段包含關(guān)鍵信息,而第二個字段不包含。所以,“員工姓名”要滿足完整性、唯一性和準確性的要求,而“員工聯(lián)系電話”——準確性和有序性。這些特征應反映在數(shù)據(jù)質(zhì)量規(guī)則中,例如:
- 員工全名不得為 N/A(以確保完整性)。
- 一個'員工全名'必須對應一個'身份證號碼'(以確保唯一性)。
- 員工全名必須至少包含一個空格,必須僅由漢字組成,不允許使用數(shù)字、字母或其他字符(以確保準確性和完整性)。
- 員工聯(lián)系電話必須僅包含數(shù)字(以確保準確性和有序性)。
- 員工聯(lián)系電話必須采用 +1 NXX-NXX-XXXX 格式,其中 N 表示 2 至 9 的數(shù)字,X 表示 0 至 9 的數(shù)字(以確保準確性和有序性)。
5. 為數(shù)據(jù)質(zhì)量規(guī)則選擇集中存儲還是本地存儲
如果是大型多元化企業(yè),應該決定是將規(guī)則集中存儲還是在每個企業(yè)本地存儲。每種方法都有其優(yōu)點和缺點。例如,在完全集中的情況下,將采用標準方法來捕獲客戶的姓名,無論他們與什么業(yè)務(wù)進行交互。在分散數(shù)據(jù)管理的情況下,可以獲得更大的靈活性,因為將只關(guān)注與特定業(yè)務(wù)方向相關(guān)的數(shù)據(jù)規(guī)則。
綜述
如果決定管理數(shù)據(jù)質(zhì)量,將不可避免地要處理數(shù)據(jù)質(zhì)量規(guī)則。建立這些規(guī)則需要考慮來自不同部門的意見、不要創(chuàng)建太多規(guī)則,否則會損害系統(tǒng)的性能、不必一次完成所有操作、為數(shù)據(jù)庫的每個字段選擇單獨的數(shù)據(jù)質(zhì)量特征、為數(shù)據(jù)質(zhì)量規(guī)則做出集中存儲還是本地存儲的決策。