成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

分布式及高可用元數據采集原理

數據庫 分布式
元數據采集是元數據產品的核心部分,如何提升采集效率是需要仔細斟酌的事情,既要保持穩定性也要保持跟上主流技術的發展趨勢。元數據產品從最初集中式WEB應用系統到現在流行的分布式、微服務這種系統架構,原有元數據采集效率已不能滿足應用的需求了。

引言:

元數據采集是元數據產品的核心部分,如何提升采集效率是需要仔細斟酌的事情,既要保持穩定性也要保持跟上主流技術的發展趨勢。元數據產品從最初集中式WEB應用系統到現在流行的分布式、微服務這種系統架構,原有元數據采集效率已不能滿足應用的需求了。

[[279335]]

目錄:

1.元數據采集原理

2.分布式采集策略

3.分布式采集策略的應用

1.元數據采集原理

我們要想采集元數據首先得明白,什么是元數據,元數據都存在哪里,為什么采集元數據?

元數據MetaData通俗的解釋是用來描述數據的數據,實際來看,除了業務邏輯直接讀寫處理的那些業務數據,所有其它用來維持整個系統運轉所需的信息/數據都可以叫作元數據。比如數據庫的Schema、Table、Column信息,任務的血緣關系,用戶和腳本/任務的權限映射關系信息等等。

以大數據平臺為例,元數據貫穿大數據平臺數據流動的全過程,主要包括數據源元數據、數據加工處理過程元數據、數據主題庫專題庫元數據、服務層元數據、應用層元數據等。

數據治理關鍵就是收集信息,很明顯,沒有數據就無從分析,也就無法有效的對平臺的數據鏈路進行管理和改進。所以元數據管理平臺很重要的一個功能就是信息的收集,至于收集哪些信息,取決于業務的需求和我們需要解決的目標問題。

如何采集元數據?

元數據采集是指獲取數據生命周期中的元數據,對元數據進行組織,然后將元數據寫入數據庫中的過程。

分布式及高可用元數據采集原理

不同來源的元數據獲取獲取方式也不大相同,在采集方式上有使用包括數據庫直連、接口、日志文件等技術手段,對結構化數據的數據字典、非結構化數據的元數據信息、業務指標、代碼、數據加工過程等元數據信息進行自動化和手動采集,元數據采集完成后,被組織成符合CWM模型的結構,存儲在關系型數據庫中。

分布式及高可用元數據采集原理

2.分布式采集架構

現在人們對元數據管理工具采集的元數據時效性越來越高,我們元數據管理工具會管理很多來源的元數據,配置很多采集任務定時去采集,如何高效的完成采集任務,影響著元數據管理工具存儲的元數據時效性。我們原先采集任務策略是單一采集程序串行執行采集任務,這樣的策略采集效率是很低的,為了提高采集效率,我們就采用多個采集程序并發執行采集任務。

常見的元數據管理工具架構是傳統的集中式WEB應用架構,所有的功能模塊都集中在一個應用程序中。

分布式及高可用元數據采集原理

3.分布式采集架構的應用

我們在某一證券公司做數據治理時,發現該客戶的網絡架構比較復雜,它的網絡架構大概分為三層業務系統層、數據采集層和數據存儲層。

業務系統分布業務系統層的不同地域,比如A業務系統在北京,B業務系統在上海,C業務系統在廣州等。我們要想訪問個各個業務系統的數據庫只能通過數據采集層的代理IP去訪問,不同地域的業務系統代理的IP地址網段也是不同的,數據采集層各個網段之間不能連通,數據存儲層是可以和數據采集層的所有網段直接連通的。

分布式及高可用元數據采集原理

我們現在元數據的架構是分為應用程序和采集服務兩部分,應用程序和采集程序是一對一的關系,針對這種網絡情況,我們要對元數據產品的架構做調整。

分布式及高可用元數據采集原理

一、將元數據的應用程序與采集服務改為一對多模式,這樣我們得需要一個采集服務管理模塊,可以對采集服務的信息(IP,端口)進行維護(增刪改),采集的目標數據源與采集程序服務進行映射,一個目標數據源可以配置主備采集服務,主采集服務發生故障后,可以通過備采集服務繼續采集工作。

采集服務管理模塊要考慮易操作性和適用性,如:查看采集服務運行情況、設置默認采集服務等等。

二、元數據采集任務調整為并行執行,現在采集元數據步驟為獲取元數據>入臨時表>與正式表比對,更新元數據ID,得到元數據的變更信息>將元數據和變更信息入正式表。

采集任務調整為并行執行的主要的難點是如何取消臨時表,因為臨時表在元數據存儲數據庫中只有一份,只有等待當前采集任務執行完畢,清空臨時表后,才能執行下一次采集任務。

臨時表的作用是:

更新元數據ID和找出新增、修改和刪除的元數據,采集元數據時,都會給每一個元數據生成隨機的UUID當作元數據ID,與正式表作比對時,如果某一元數據之前已經入庫,需要將該元數據的臨時表里的ID更新成正式表里的ID。

取消臨時表的舉措:

1、我們選擇將元數據編碼+元數據類型+元數據父級路徑這三項數據進行MD5加密生成的字符串作為元數據的ID,這樣元數據的ID也就固定了,不需要和正式表里做比對了。

2、通過元數據ID去正式表里查詢就可得出哪些元數據是新增和刪除的。

我們將元數據的所有屬性值進行MD5加密生成的字符串作為元數據的屬性ID,這樣通過比對元數據的屬性ID就可得知該元數據是否修改了。

這樣我們就可以取消臨時表,在采集服務程序中就可以將元數據和正式表數據作比對,得到變化的元數據,將元數據記錄直接寫入到數據庫中的正式表,元數據采集任務也就可以并行執行了。

分布式及高可用元數據采集原理

我們在數據采集層各個網段都部署采集服務,這樣就實現了高并發元數據采集,這種分布式采集策略優點是:

1、采集元數據效率快

2、可以并行執行采集任務

3、可以適應復雜網絡環境的元數據采集。

責任編輯:華軒 來源: 今日頭條
相關推薦

2022-05-11 13:55:18

高可用性分布式彈性

2018-10-29 12:51:35

分布式存儲元數據

2023-09-14 15:44:46

分布式事務數據存儲

2020-11-26 09:38:19

分布式架構系統

2021-09-23 12:14:50

Redis分布式優化

2023-08-22 13:16:00

分布式數據庫架構數據存儲

2013-06-14 14:17:36

分布式Hbase管理和監控

2025-04-01 01:04:00

Redis集群緩存

2022-10-24 09:56:09

seleniumGrid分布式

2014-07-10 09:28:57

光纖

2015-05-13 09:34:46

分布式存儲元數據設計公有云

2018-03-12 08:17:27

分布式存儲

2017-04-17 09:54:34

分布式數據庫PhxSQL

2022-06-21 08:27:22

Seata分布式事務

2022-01-10 19:45:40

微服務GO系統

2022-05-11 22:10:05

分布式云云計算公共云

2021-08-26 00:23:14

分布式存儲高可用

2015-04-03 12:43:45

Redis分布式

2024-11-28 15:11:28

2020-04-14 11:14:02

PostgreSQL分布式數據庫
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天干天天操天天射 | 亚洲成人一区 | 天天看天天摸天天操 | 亚洲精品一区中文字幕乱码 | 成人性视频免费网站 | 免费黄色网址视频 | 久久精品黄色 | 亚洲三区在线 | 亚洲人成人一区二区在线观看 | 在线观看中文视频 | 国产精品亚洲一区二区三区在线 | 欧美一区二区三区在线 | 精品亚洲国产成av人片传媒 | 亚洲精品888 | 亚洲欧美中文日韩在线v日本 | 国产视频导航 | 国产精品激情 | 五月激情综合 | 欧美精品一区二区三区在线播放 | 蜜桃一区二区三区在线 | 久久精品aaa | 欧美一区二区三区四区五区无卡码 | 国产毛片视频 | 亚洲成av人片在线观看 | 亚洲一区二区三区四区五区中文 | 精品在线一区 | 久久综合一区 | 91精品在线播放 | 亚洲精品乱码久久久久久蜜桃91 | 中日字幕大片在线播放 | 97精品一区二区 | 一区二区三区四区在线视频 | 9191av| 国产xxxx岁13xxxxhd | 午夜在线观看免费 | 91在线视频国产 | 天堂视频免费 | www.国产| 国产婷婷精品av在线 | 麻豆av一区二区三区久久 | 国产一区二区三区 |