聊聊數據源集市建設的初步思路和規劃
最近在對接數據流轉的一些問題,發現越是了解,越是擔心,因為有不少潛在的問題,所以我就在想規劃和統一所謂的數據源集市,能夠實現數據流轉方向的一個基線標準。
目前發現的問題:
1.數據出口通道繁雜,管理混亂
2.MySQL流轉服務單點難以擴展
3.任務狀態不清晰,缺乏統一管理
4.數據交付質量難以保證,反饋不及時
5.近實時數據同步需求難以滿足
對此提出的改進方案有:
1.數據出口通道統一交付
2.構建數據源集市服務組,水平擴展壓力
3.任務配置平臺化,任務日志指標可視化
4.數據交付提供交付標準和數據質量日志
5.提供近實時方案作為備選,預知問題
整個數據源集市在數據流轉體系中的角色和位置如下:
當日這里是刻意把數據源集市的一些組件和服務列舉出來,能夠盡可能在這個層面實現數據質量的標準和度量,簡而言之,數據如果不合理,我應該及時預警,不能將錯就錯的提供給中下游,數據源集市需要做好這一層的保障。
在數據流轉方向上,我把數據表分為狀態表,流水表和配置表,他們在流轉體系中的定位和標準也大有不同。
當然這僅僅是數據流轉體系內的冰山一角,而如果要把數據的認知和數據源要整合起來,形成統一的認知,這個工作量是極為巨大的。
我感覺對于數據的認知,一旦拋出這個話題,就好像打開了一扇窗,經過了更大范圍的討論,我感覺我本來想要的是一口井,沒想到現在需要引一條河流,而且還要再河流上再搭一座橋,真讓人頭大。
本文轉載自微信公眾號「 楊建榮的學習筆記」,可以通過以下二維碼關注。轉載本文請聯系 楊建榮的學習筆記公眾號。