數(shù)據(jù)治理之參考數(shù)據(jù)與主數(shù)據(jù)管理
一、 參考數(shù)據(jù)與主數(shù)據(jù)
最近湊巧參與了一次某行業(yè)的業(yè)務(wù)共創(chuàng)會(huì)議,期間討論到了主數(shù)據(jù)系統(tǒng),還有我們?cè)撊绾螀⑴c主數(shù)據(jù)系統(tǒng)建設(shè)的話題。說實(shí)話,我一直以為我不會(huì)有機(jī)會(huì)參與到主數(shù)據(jù)與參考數(shù)據(jù)系統(tǒng)的話題中去,所以,又去把DAMA的書籍翻了翻。順便也重新思考了一下主數(shù)據(jù)與參考數(shù)據(jù)這個(gè)數(shù)據(jù)治理的課題。
1. 基本定義
在DAMA指南中對(duì)主數(shù)據(jù)和參考數(shù)據(jù)的基本定義如下:
參考數(shù)據(jù)和主數(shù)據(jù)管理是對(duì)參考數(shù)據(jù)和主數(shù)據(jù)進(jìn)行持續(xù)的協(xié)調(diào)一致和維護(hù)工作。
參考數(shù)據(jù)管理是對(duì)定義的數(shù)據(jù)域值(也稱為詞匯、術(shù)語)進(jìn)行控制,包括對(duì)標(biāo)準(zhǔn)化術(shù)語、代碼值和其他唯一標(biāo)識(shí)符一級(jí)每個(gè)取值的業(yè)務(wù)定義的控制,和對(duì)數(shù)據(jù)域值列表內(nèi)部和跨不同列表之間的業(yè)務(wù)關(guān)系的控制;并且對(duì)準(zhǔn)確、及時(shí)和相關(guān)參考數(shù)據(jù)值的一致、共享使用進(jìn)行控制,以進(jìn)行數(shù)據(jù)分類和目錄整編。
主數(shù)據(jù)管理對(duì)主數(shù)據(jù)值進(jìn)行控制,以時(shí)序跨系統(tǒng)的一致、共享、上下文相關(guān)地使用主數(shù)據(jù),以及對(duì)核心業(yè)務(wù)實(shí)體的真實(shí)情況的最準(zhǔn)確、集市和相關(guān)的版本進(jìn)行控制。
這段話,大部分人其實(shí)看了有點(diǎn)懵。換個(gè)簡單的說法:主數(shù)據(jù)管理就是管理交易系統(tǒng)中的各種核心活動(dòng)對(duì)象實(shí)體(常見的對(duì)象有組織、個(gè)人、產(chǎn)品等)在一個(gè)大型組織內(nèi)部的一致性,參考數(shù)據(jù)管理就是管理交易系統(tǒng)中各種實(shí)體的屬性的定義(代碼值或者枚舉值)的一致性。
2. 簡明定義
在DAMS中國數(shù)據(jù)智能管理峰會(huì)的官網(wǎng)一篇文章中這樣簡明的描述了主數(shù)據(jù)管理和參考數(shù)據(jù)管理,內(nèi)容如下(引用文章地址在本文最后)。
主數(shù)據(jù)--企業(yè)黃金數(shù)據(jù)記錄
主數(shù)據(jù)(master data)主要是指經(jīng)實(shí)例化的企業(yè)關(guān)鍵數(shù)據(jù)。
如上圖,我們?cè)谏厦嬖O(shè)計(jì)完成數(shù)據(jù)模型設(shè)計(jì)的“城市表”中填寫了相應(yīng)的城市數(shù)據(jù),例如,北京、上海、廣州、南寧等等。這些在城市表中填充的數(shù)據(jù),正是組織中國地理協(xié)會(huì)的主數(shù)據(jù),因?yàn)檫@些數(shù)據(jù)是中國地理協(xié)會(huì)這個(gè)組織的關(guān)鍵業(yè)務(wù)實(shí)體,它為組織的業(yè)務(wù)開展提供關(guān)聯(lián)環(huán)境,而且它可能在企業(yè)業(yè)務(wù)開展過程中被反復(fù)引用。針對(duì)這些核心關(guān)鍵數(shù)據(jù),組織和企業(yè)無論從數(shù)據(jù)的質(zhì)量、一致性、可用性、管理規(guī)范等方面都應(yīng)該有著最嚴(yán)格的數(shù)據(jù)要求。
那么一般而言,以下涉及企業(yè)經(jīng)營的人、財(cái)、物的數(shù)據(jù)最有可能納入企業(yè)主數(shù)據(jù)管理的范疇,例如:
企業(yè)產(chǎn)品及其相關(guān)信息:包括企業(yè)相關(guān)產(chǎn)品、服務(wù)、版本、價(jià)格、標(biāo)準(zhǔn)操作等等;
企業(yè)財(cái)務(wù)信息:包括業(yè)務(wù)、預(yù)算、利潤、合同、財(cái)務(wù)科目等等 ;
企業(yè)相關(guān)利益相關(guān)者:如客戶、供應(yīng)商、合作伙伴、競(jìng)爭對(duì)手等;
企業(yè)組織架構(gòu):如員工、部門等;
可見,主數(shù)據(jù)就是企業(yè)被不同運(yùn)營場(chǎng)合反復(fù)引用關(guān)鍵的狀態(tài)數(shù)據(jù),它需要在企業(yè)范圍內(nèi)保持高度一致。它可以隨著企業(yè)的經(jīng)營活動(dòng)而改變,例如,客戶的增加,組織架構(gòu)的調(diào)整,產(chǎn)品下線等;但是,主數(shù)據(jù)的變化頻率應(yīng)該是較低的。所以,企業(yè)運(yùn)營過程產(chǎn)生過程數(shù)據(jù),如生產(chǎn)過程產(chǎn)生各種如訂購記錄、消費(fèi)記錄等,一般不會(huì)納入主數(shù)據(jù)的范圍。當(dāng)然,在不同行業(yè),不同企業(yè)對(duì)主數(shù)據(jù)有不同的看法和做法,正如我們與國內(nèi)大型航空企業(yè)的實(shí)施相關(guān)數(shù)據(jù)項(xiàng)目時(shí),也在為航班動(dòng)態(tài)是不是主數(shù)據(jù)而糾結(jié)不已。
因此,有鑒于主數(shù)據(jù)對(duì)于企業(yè)的重要性,企業(yè)和組織需要對(duì)其主數(shù)據(jù)進(jìn)行有效的管理:包括理解主數(shù)據(jù)應(yīng)用需求,識(shí)別主數(shù)據(jù)來源及源頭,梳理主數(shù)據(jù)上下游關(guān)系,數(shù)據(jù)整合和發(fā)布,提升主數(shù)據(jù)的數(shù)據(jù)質(zhì)量等。
參考數(shù)據(jù)-數(shù)據(jù)的字典
在本文引用的假設(shè)案例中,我們將會(huì)注意到剛才填寫的地市這類數(shù)據(jù)有些列,如省份、城市類型等。如果沒有缺少上下文的環(huán)境,我們是無法理解其具體含義,這時(shí)候我們往往引入?yún)⒖紨?shù)據(jù)(reference data)加以解釋和理解,如下圖紅色標(biāo)注所示。
參考數(shù)據(jù)是增加數(shù)據(jù)可讀性、可維護(hù)性以及后續(xù)應(yīng)用的重要數(shù)據(jù)。例如,你看到“性別”的這個(gè)字段,很可能是1代表男性、2代表女性。在許多企業(yè)中有這樣的約定俗成,而更多的參考數(shù)據(jù)可能記錄在開發(fā)人員和運(yùn)營人員的大腦當(dāng)中。但問題是一旦這些人離開,您系統(tǒng)里面的數(shù)據(jù)就成了一堆沒有注釋的天書。
大家可能覺得,這所謂參考數(shù)據(jù)不就是數(shù)據(jù)字典嗎?對(duì),我們?cè)诤芏嘞到y(tǒng)里面都會(huì)有這樣和那樣的數(shù)據(jù)字典。但是正是由于這些數(shù)據(jù)字典局僅限于個(gè)別系統(tǒng)而沒有統(tǒng)一標(biāo)準(zhǔn),從一個(gè)側(cè)面間接造就了大量的數(shù)據(jù)孤島。企業(yè)為了進(jìn)行更有效率的數(shù)據(jù)整合、數(shù)據(jù)共享和數(shù)據(jù)分析應(yīng)用,開始嘗試對(duì)參考數(shù)據(jù)進(jìn)行企業(yè)或者部門層面的整合和管理,利用參考數(shù)據(jù)集記錄系統(tǒng)嘗試為范圍內(nèi)的IT系統(tǒng)中的數(shù)據(jù)庫提供統(tǒng)一的參考數(shù)據(jù)。
l 小結(jié)
主數(shù)據(jù)則是真實(shí)的企業(yè)業(yè)務(wù)數(shù)據(jù),是企業(yè)的關(guān)鍵業(yè)務(wù)數(shù)據(jù)。
參考數(shù)據(jù)則是對(duì)數(shù)據(jù)的解釋,針對(duì)一些數(shù)據(jù)范圍和取值的數(shù)據(jù)解釋,讓人們?nèi)菀鬃x取相關(guān)的數(shù)據(jù)。
3. 驅(qū)動(dòng)因素
在任何組織中,都存在一些需要跨業(yè)務(wù)領(lǐng)域、跨系統(tǒng)使用的數(shù)據(jù)。如果這些數(shù)據(jù)實(shí)現(xiàn)了共享,所有的業(yè)務(wù)部門就可以訪問相同的客戶清單、地理位置代碼、業(yè)務(wù)不么清單、交付選項(xiàng)、部件清單、成本核算中心代碼、政府稅收代碼以及用于運(yùn)營業(yè)務(wù)的其他數(shù)據(jù),那么整個(gè)組織及其客戶都會(huì)從中受益。數(shù)據(jù)使用者在看到不一致的數(shù)據(jù)之前,通常會(huì)建設(shè)這些數(shù)據(jù)在整個(gè)組織中具有一定的一致性。
在大數(shù)據(jù)多組織中,系統(tǒng)和數(shù)據(jù)的變化速度比數(shù)據(jù)管理專業(yè)人員所希望的要快。特別是大型組織中,各種項(xiàng)目和方案、合并和收購以及其他商業(yè)活動(dòng)導(dǎo)致存在多套在本質(zhì)上作業(yè)相同的系統(tǒng),它們相互隔離,無法溝通。以上這些情況不可避免地導(dǎo)致了系統(tǒng)間數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)值的不一致,從而增加了成本和風(fēng)險(xiǎn)。組織可以通過對(duì)參考數(shù)據(jù)和主數(shù)據(jù)進(jìn)行管理來降低成本和風(fēng)險(xiǎn)。
參考數(shù)據(jù)管理和主數(shù)據(jù)管理都是專門的數(shù)據(jù)質(zhì)量改進(jìn)規(guī)劃,依賴有效的數(shù)據(jù)管理制度和數(shù)據(jù)治理活動(dòng)。是一項(xiàng)持續(xù)的質(zhì)量改進(jìn)計(jì)劃才能獲得成功,不可能畢其功于一役。
參考數(shù)據(jù)和主數(shù)據(jù)質(zhì)量改進(jìn)計(jì)劃的成本和復(fù)雜性由業(yè)務(wù)驅(qū)動(dòng)決定,常見的業(yè)務(wù)驅(qū)動(dòng)因素是:
a) 跨數(shù)據(jù)源、應(yīng)用和技術(shù)的條件下提升數(shù)據(jù)治理和整合度。
b) 對(duì)于重要的業(yè)務(wù)相關(guān)方、角色和產(chǎn)品提供綜合的360度視圖,特別是提供更有效的報(bào)表和分析。
參考數(shù)據(jù)和主數(shù)據(jù)管理的目標(biāo)包括:
a) 確保組織在各個(gè)流程中都擁有完整、一致、最新且權(quán)威的參考數(shù)據(jù)和主數(shù)據(jù)。
b) 促使企業(yè)在各個(gè)業(yè)務(wù)單元和各個(gè)應(yīng)用系統(tǒng)之間共享參考數(shù)據(jù)和主數(shù)據(jù)。
c) 通過采用標(biāo)準(zhǔn)的、通用的數(shù)據(jù)模型和整合模式,降低數(shù)據(jù)使用和數(shù)據(jù)整合的成本及復(fù)雜性。
二、 與其他系統(tǒng)關(guān)系
1. 現(xiàn)實(shí)情況
理論上在聯(lián)機(jī)事物處理(OLTP)系統(tǒng)和數(shù)據(jù)倉庫及商務(wù)智能系統(tǒng)都存在參考數(shù)據(jù)和主數(shù)據(jù)管理。理論上組織內(nèi)所有的聯(lián)機(jī)事物處理(OLTP)系統(tǒng)都使用相同的黃金記錄和數(shù)據(jù)值,實(shí)際上在所有的大型企業(yè)內(nèi)部跨交易系統(tǒng)環(huán)境中都存在不一致的參考數(shù)據(jù)和主數(shù)據(jù)。這不僅需要數(shù)據(jù)倉庫系統(tǒng)來確認(rèn)最真實(shí)的記錄系統(tǒng),同時(shí)還有確定最準(zhǔn)確的參考數(shù)據(jù)和主數(shù)據(jù)。數(shù)據(jù)倉庫構(gòu)建構(gòu)成中要花很大的代碼用于清晰和整合不同來源的主數(shù)據(jù),或者在數(shù)據(jù)倉庫和商務(wù)智能環(huán)境中使用維度表維護(hù)主數(shù)據(jù)和參考數(shù)據(jù),而不是在主操作系統(tǒng)數(shù)據(jù)庫中維護(hù)并復(fù)制到其他業(yè)務(wù)數(shù)據(jù)庫和數(shù)據(jù)倉庫中。
如上所述,理論上參考數(shù)據(jù)和主數(shù)據(jù)管理是在聯(lián)機(jī)事物處理(OLTP)系統(tǒng)層面需要去治理和解決的問題,但是實(shí)際上很多時(shí)候在數(shù)據(jù)倉庫與決策分析系統(tǒng)使用數(shù)據(jù)的時(shí)候才會(huì)花很大的代價(jià)去解決。
如下所述,這是《數(shù)據(jù)倉庫》一書中對(duì)數(shù)據(jù)轉(zhuǎn)換和集成復(fù)雜性的描述。這些多源不一致的描述在數(shù)據(jù)倉庫中去解決并不是從根本上解決了不一致的問題,只是利用這個(gè)整合的平臺(tái)進(jìn)行了一次表面上的掩蓋,并未真實(shí)從源頭解決主數(shù)據(jù)和參考數(shù)據(jù)的一致性與質(zhì)量問題。
轉(zhuǎn)換和集成的復(fù)雜性
a) 存在多個(gè)輸入數(shù)據(jù)源。在某些情況下數(shù)據(jù)倉庫中數(shù)據(jù)項(xiàng)的來源是一個(gè)文件,而在另外一些情況下,則為另外一個(gè)文件。邏輯上必須分清楚,以便由適當(dāng)?shù)臄?shù)據(jù)源提供正確條件下的數(shù)據(jù)。
b) 當(dāng)存在多個(gè)輸入文件時(shí),進(jìn)行文件合并之前要首先進(jìn)行鍵碼解析。這意味著如果不同的輸入文件使用不同的鍵碼結(jié)構(gòu)。那么,完成文件合并的程序必須提供鍵碼解析功能。
c) 當(dāng)存在多個(gè)輸入文件時(shí),這些文件的順序可能不相同甚至互不相容。在這種情況下這些輸入文件需要進(jìn)行重新排序。當(dāng)有許多記錄需要進(jìn)行重新排序時(shí)可能有些困難,但可惜的是,通常都是這種情況。
d) 存在多個(gè)輸入數(shù)據(jù)源。在某些情況下數(shù)據(jù)倉庫中數(shù)據(jù)項(xiàng)的來源是一個(gè)文件,而在另外一些情況下,則為另外一個(gè)文件。邏輯上必須分清楚,以便由適當(dāng)?shù)臄?shù)據(jù)源提供正確條件下的數(shù)據(jù)。
e) 當(dāng)存在多個(gè)輸入文件時(shí),進(jìn)行文件合并之前要首先進(jìn)行鍵碼解析。這意味著如果不同的輸入文件使用不同的鍵碼結(jié)構(gòu)。那么,完成文件合并的程序必須提供鍵碼解析功能。
f) 當(dāng)存在多個(gè)輸入文件時(shí),這些文件的順序可能不相同甚至互不相容。在這種情況下這些輸入文件需要進(jìn)行重新排序。當(dāng)有許多記錄需要進(jìn)行重新排序時(shí)可能有些困難,但可惜的是,通常都是這種情況。
2. 層次關(guān)系
從上一部分的介紹可以了解到,參考數(shù)據(jù)和主數(shù)據(jù)管理是涵蓋數(shù)據(jù)產(chǎn)生的“聯(lián)機(jī)事物處理(OLTP)系統(tǒng)”和“數(shù)據(jù)倉庫及商務(wù)智能系統(tǒng)”的。但是應(yīng)該是在“聯(lián)機(jī)事物處理(OLTP)系統(tǒng)”這個(gè)層次去解決,并把標(biāo)準(zhǔn)化的數(shù)據(jù)同步給“數(shù)據(jù)倉庫及商務(wù)智能系統(tǒng)”去使用。
作為一個(gè)做數(shù)據(jù)倉庫的數(shù)據(jù)研發(fā)人員,我其實(shí)一直都認(rèn)為參考數(shù)據(jù)和主數(shù)據(jù)管理是“聯(lián)機(jī)事物處理(OLTP)系統(tǒng)”(業(yè)務(wù)系統(tǒng))范圍內(nèi)的事情,而不是分析型系統(tǒng)需要去實(shí)施的。很多時(shí)候如果所服務(wù)的企業(yè)內(nèi)部有參考數(shù)據(jù)和主數(shù)據(jù)管理系統(tǒng),做了參考數(shù)據(jù)和主數(shù)據(jù)管理,對(duì)于我的“數(shù)據(jù)倉庫及商務(wù)智能系統(tǒng)”工作來說是大大有益的。雖然很多時(shí)候這個(gè)主數(shù)據(jù)和參考數(shù)據(jù)的識(shí)別和標(biāo)準(zhǔn)化的工作,會(huì)被帶到數(shù)據(jù)倉庫與商務(wù)智能環(huán)境中來解決,但是從數(shù)據(jù)使用者的角度來看還是希望在底層解決。
之前服務(wù)過的某銀行在08年實(shí)施了“統(tǒng)一客戶管理系統(tǒng)”,實(shí)現(xiàn)了銀行間多個(gè)業(yè)務(wù)系統(tǒng)的唯一客戶識(shí)別,并對(duì)不同系統(tǒng)的遺留客戶的歸一做了識(shí)別。這是我接觸過的一個(gè)主數(shù)據(jù)識(shí)別的業(yè)務(wù)系統(tǒng),這個(gè)系統(tǒng)解決了銀行之前個(gè)貸、理財(cái)、基金等多個(gè)業(yè)務(wù)系統(tǒng)的客戶唯一識(shí)別。但是,后來我還是遇到了一個(gè)個(gè)人信息是以個(gè)貸的個(gè)人信息為準(zhǔn)還是信用卡的個(gè)人信息為準(zhǔn)的主數(shù)據(jù)識(shí)別的問題。是組合著來還是以某個(gè)為準(zhǔn),真是難以入目。個(gè)貸的數(shù)據(jù)是一個(gè)歷史數(shù)據(jù),都是在辦理貸款業(yè)務(wù)的時(shí)候錄入的,這個(gè)信息相對(duì)要準(zhǔn)確真實(shí),但是如果這是一筆10年前的貸款,這些數(shù)據(jù)可能早就不能使用了。信用卡的數(shù)據(jù)一般比較新,更新也相對(duì)頻繁一點(diǎn),但是信用卡的數(shù)據(jù)質(zhì)量可能不太好,可信度要低一些。這是數(shù)據(jù)倉庫能解決的問題么?同一個(gè)信息不一致的情況下,不管使用哪個(gè)數(shù)據(jù)都是猜的。我本人看了一些業(yè)務(wù)人員給的規(guī)則計(jì)算后的結(jié)果,只能說湊合著用吧,也沒得選(我的選擇最后就變成了數(shù)據(jù)倉庫中的用戶主數(shù)據(jù)信息)。這也是參考數(shù)據(jù)和主數(shù)據(jù)系統(tǒng)建設(shè)的重要意義,如果從源頭解決這個(gè)問題,何必這么為難。
主數(shù)據(jù)的問題其實(shí)非常廣泛。在稅務(wù)領(lǐng)域,我們遇到了不同企業(yè)在異地注冊(cè)的識(shí)別問題。多地注冊(cè)企業(yè)是否一個(gè)企業(yè)的問題,在缺乏主數(shù)據(jù)系統(tǒng)的情況下這個(gè)問題回答的極為艱難。在公共安全領(lǐng)域,不同個(gè)人使用不同證件在多個(gè)不同場(chǎng)合,如何識(shí)別是同一個(gè)個(gè)人的問題,也是非常有挑戰(zhàn)。所以,在業(yè)務(wù)系統(tǒng)這層做好主數(shù)據(jù)系統(tǒng),真是非常的必須。
3. 與中臺(tái)關(guān)系
數(shù)據(jù)中臺(tái)概念和阿里提出ONEID概念后,突然間整個(gè)數(shù)據(jù)治理的事情都是阿里中臺(tái)化的革命使命了。所以,我們?cè)谠絹碓蕉嗟捻?xiàng)目中遇到了參考數(shù)據(jù)和主數(shù)據(jù)管理的事情。
談到阿里的主數(shù)據(jù)管理,一定會(huì)提到ONEID的概念。阿里的ONEID是給阿里系的諸多APP識(shí)別同一個(gè)用戶的一套個(gè)人身份識(shí)別的規(guī)則算法,如果對(duì)應(yīng)在主數(shù)據(jù)管理系統(tǒng)中應(yīng)該是對(duì)應(yīng)“匹配規(guī)則”這個(gè)概念。在《DAMA數(shù)據(jù)管理知識(shí)體系指南》8.2.7章節(jié)中指出“主數(shù)據(jù)管理在未來面臨的最大挑戰(zhàn)是在多個(gè)系統(tǒng)中對(duì)于通一個(gè)人、群組和事物的數(shù)據(jù)進(jìn)行匹配、合并、連接”。ONEID的實(shí)現(xiàn)與純?cè)诮灰仔拖到y(tǒng)去解決主數(shù)據(jù)問題有一些形式上的區(qū)別:第一,ONEID是根據(jù)實(shí)際業(yè)務(wù)需求提出的主數(shù)據(jù)數(shù)據(jù)治理的一個(gè)小應(yīng)用,而不是主數(shù)據(jù)管理系統(tǒng),其覆蓋的范圍是傳統(tǒng)主數(shù)據(jù)管理的“客戶數(shù)據(jù)”。第二,ONEID的實(shí)現(xiàn)利用了數(shù)據(jù)倉庫和機(jī)器學(xué)習(xí)與算法規(guī)則,是一種相對(duì)交易規(guī)則更加復(fù)雜的規(guī)則算法,是一種事后(數(shù)據(jù)倉庫和商務(wù)智能)與事前(聯(lián)機(jī)事物處理(OLTP)系統(tǒng))共用的相對(duì)弱規(guī)則。
從數(shù)據(jù)中臺(tái)和業(yè)務(wù)中臺(tái)拆分的角度來看,主要從事數(shù)據(jù)中臺(tái)工作的我對(duì)主數(shù)據(jù)和參考數(shù)據(jù)管理這個(gè)領(lǐng)域的劃分還是在業(yè)務(wù)中臺(tái),不是自己的日常工作范圍。因?yàn)闃I(yè)務(wù)中臺(tái)的概念提出后,就提出了業(yè)務(wù)中心的概念。像“用戶中心”、“產(chǎn)品中心”、“參數(shù)中心”這種中心化的業(yè)務(wù)系統(tǒng)全局設(shè)計(jì),已經(jīng)可以從根本上解決了主數(shù)據(jù)的企業(yè)級(jí)標(biāo)準(zhǔn)化的問題。
但是從實(shí)現(xiàn)的角度來說,只有少量大型企業(yè)能把全局的業(yè)務(wù)系統(tǒng)全部重構(gòu)一遍?大多是漸進(jìn)式和改造式。何況很多大型企業(yè)還有很多收購公司與關(guān)聯(lián)公司,很難做到覆蓋全面的管控。所以,主數(shù)據(jù)管理和參考數(shù)據(jù)管理,還是我們眼前大型企業(yè)必備核心數(shù)據(jù)治理工作。只是我們是否能利用當(dāng)前技術(shù)上的更多的進(jìn)步,來改善我們的治理工作實(shí)施方法和治理效果。
從另外一個(gè)角度來看,數(shù)據(jù)倉庫或者數(shù)據(jù)中臺(tái)所面臨的數(shù)據(jù)整合的問題其實(shí)也是主數(shù)據(jù)和參考數(shù)據(jù)的問題。我們?cè)跀?shù)據(jù)倉庫中構(gòu)建了全局一致的業(yè)務(wù)模型,實(shí)現(xiàn)了數(shù)據(jù)中臺(tái)中數(shù)據(jù)倉庫級(jí)別的主數(shù)據(jù)和參考數(shù)據(jù)識(shí)別,并以此向下游的數(shù)據(jù)集市發(fā)布了數(shù)據(jù)倉庫中甄別的主數(shù)據(jù)和參考數(shù)據(jù)。很多參考數(shù)據(jù)和主數(shù)據(jù)系統(tǒng)本身就有數(shù)據(jù)模型管理、數(shù)據(jù)采集、實(shí)體解析、數(shù)據(jù)共享等工作,其實(shí)很多時(shí)候也是利用數(shù)據(jù)倉庫平臺(tái)來實(shí)現(xiàn)的(或者自己構(gòu)建了一個(gè)小型數(shù)據(jù)平臺(tái))。只是從最終服務(wù)對(duì)象上來說,服務(wù)的系統(tǒng)是主數(shù)據(jù)和參考數(shù)據(jù)管理系統(tǒng)。
看了兩個(gè)傳統(tǒng)的MDM系統(tǒng)供應(yīng)商,STIBO SYSTEMS(思迪博)和IBM。從這兩個(gè)公司對(duì)MDM系統(tǒng)的介紹來看STIBO SYSTEMS(思迪博)似乎在行業(yè)能力上更加領(lǐng)先,介紹也更加傳統(tǒng)第一眼看到的是其涉及多領(lǐng)域的能力。IBM似乎更注重宣傳功能,介紹諸如自助訪問、更深入的洞察、同意管理、使用直觀的儀表板來更主動(dòng)地管理數(shù)據(jù)。總的來說,感覺落地一套這種系統(tǒng)從交付角度來說難度會(huì)非常有挑戰(zhàn),需要非常厚的行業(yè)沉淀,需要日積月累的持續(xù)的協(xié)調(diào)推進(jìn)這個(gè)數(shù)據(jù)治理活動(dòng)。我一直記得曾經(jīng)坐在我對(duì)面的一個(gè)負(fù)責(zé)數(shù)據(jù)治理的同事,好像一年搞的事情就是幾張代碼表,我也不知道她最后搞完了沒有。對(duì)于做這個(gè)事情的同事,我覺得心態(tài)一定要平穩(wěn),做好持續(xù)推進(jìn)的運(yùn)營計(jì)劃,不用想著一次性解決問題,這樣才能把事情做成。