成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據治理:數據集成和應用模式的演進

存儲 數據管理
目前數據集成的主要應用模式有以下幾種:聯邦數據庫模式、基于中間件模式、主數據集成模式、數據倉庫模式、數據湖模式,這些模式的技術著重點不同,但在應用上都是解決數據交換共享和使用的問題,以實現數字化企業的數據驅動業務、數據驅動管理的目標。

在企業數據集成領域,已經有了很多成熟的框架可以利用,不同的使用場景下,應該選用不同的應用模式。目前數據集成的主要應用模式有以下幾種:聯邦數據庫模式、基于中間件模式、主數據集成模式、數據倉庫模式、數據湖模式,這些模式的技術著重點不同,但在應用上都是解決數據交換共享和使用的問題,以實現數字化企業的數據驅動業務、數據驅動管理的目標。

01 聯邦數據庫模式

聯邦數據庫集成模式提供了一種創建對數據消費者(應用)角度看數據集成視圖,數據邏輯看上去存在一個位置,但實際的物理位置卻可能在多個數據源中。聯邦數據庫由半自治數據庫系統構成,相互之間分享數據,聯盟各數據源之間相互提供訪問接口,同時聯盟數據庫系統可以是集中數據庫系統或分布式數據庫系統及其他聯邦式系統。

下圖是 IBM 聯邦數據庫的體系結構,應用程序可以使用任何受支持的接口(包括 ODBC、JDBC 或 Web 服務客戶機)與聯邦服務器交互,對用戶而言無需知道數據存儲在哪里,無需知道數據源支持哪種 SQL 語言,也無需知道數據源是Oracle 9i 還是IBM的DB2??傊?,聯邦數據庫對yoghurt來說就像是使用一個系統。

圖片

聯邦數據庫集成模式的優點是通過統一的“聯邦視圖”來訪問不同數據源,為用戶訪問數據提供了很好的方便性,并且數據是實時的。對于及時投入生產要求較高的應用,數據聯邦允許應用直接訪問數據,而不需要耗時較長的數據架構的調整。另外,如果數據安全性要求較高的企業,不允許對數據進行復制和備份的場景下,數據聯邦是很好的解決方案。聯邦數據庫缺點也很明顯:由于訪問數據是通過一個“聯邦”視圖來實現的,視圖是實時的,因此數據轉換是一個重點,但是卻無法解決數據質量和性能問題。隨著企業數據量的增大,性能問題是所有數據集成都面臨的問題,但是由于設計思路的缺陷,數據聯邦在這方面雖有很大進展,但是也無法和另外一些數據集成技術相比。數據質量管控意味著數據規則的加載、數據檢驗執行,這也不是“聯邦”視圖解決現實數據集成問題的優先考慮的因素。這就導致數據聯邦模式不適用對數據質量要求較高,需要進行大量數據轉換、加工和場景,例如:數據治理、數據倉庫等。

02 中間件數據集成模式

基于數據集成中間件的數據集成模式是數據復制的一種方式。數據集成中間件(data integration middleware)是指支持不同來源、格式和性質的數據源進行邏輯上或物理上有機集成,為分布、自治、異構的數據源提供可靠轉換、加載與統一訪問服務的中間件。中間件集成方法是目前比較流行的數據集成方法,中間件模式通過統一的全局數據模型來訪問異構的數據庫、遺留系統、Web資源等。圖片數據集成中間件的主要功能便是通過對不同來源、格式和特性的數據的轉換與包裝,提供統一的高層訪問服務,實現各種異構數據源的共享。初期的數據集成中間件,主要由數據集成中央處理器(中間件)和適配器組成。中間件位于異構數據庫系統(數據層) 和應用程序(應用層)之間,向下協調各數據源系統,向上為訪問集成數據的應用提供統一數據模式和數據訪問的通用接口。各數據源的應用仍然完成它們的任務,中間件系統則主要集中為異構數據源提供一個高層次數據訪問服務。隨著技術的發展,ETL工具發展成了數據集成中間件的主流,ETL即數據的抽取、轉換、清洗、裝載。關于ETL中間件我們下文再詳細介紹。

03 主數據應用模式

主數據是企業各應用系統之間共享的數據,例如:客戶、供應商、產品、員工等,它也是企業最核心的數據。主數據的集成模式本質上是一種數據交換共享模式,旨在解決各異構系統之間核心數據的一致性、正確性、完整性和及時性。

圖片

主數據集成強調的是單一數據視圖,通過整合多個數據源,形成主數據的單一視圖,保證單一視圖的準確性、一致性以及完整性,從而提供數據質量。統一業務實體的定義,簡化改進業務流程并提升業務的響應速度。在主數據集成的應用中,會使用到聯邦數據庫、數據接口集成和基于ESB中間件的數據集成技術等。

04 數據倉庫應用模式

數據倉庫是一個為決策支持系統提供支撐的數據集合,這些數據具有面向對象性、集成性、與時間相關性等特點。數據倉庫的數據都是從企業數據源集成過來的,不可以修改的、穩定的數據以只讀格式保存,且不隨時間改變。

圖片

面向主題:即處于數據倉庫中的數據是按照特定的主題組織而成的,這里的主題不是具體的而是一個抽象的概念,常指企業或個人在使用數據倉庫著重關注的方面。主題是一個抽象的概念,是較高層次上企業信息系統中的數據綜合、歸類并進行分析利用的抽象。例如:財務主題、人力主題、生產主題等。

集成性:集成性指在數據倉庫中的數據信息并不是在各業務系統中簡單、隨機抽取的,由于數據倉庫間的獨立性,因此需要消除源數據中的異值。通過對分散、獨立、異構的數據庫數據進行抽取、清理、轉換和匯總便得到了數據倉庫的數據,這樣保證了數據倉庫內的數據關于整個企業的一致性。

穩定性:即業務系統中的數據總是處于不斷變化的狀態,即數據為最新的狀態。相對于業務系統的不斷變化,數據倉庫具有穩定性,是指數據在進入數據倉庫后,數據一般用于查詢,很少會對數據進行修改,常見的操作也只是進行定期的加載和刷新。數據倉庫中的數據是在對原有分散的數據庫數據抽取、數據清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個企業的一致的全局信息。

數據倉庫是決策支持系統和數據(知識)挖掘系統的基礎,數據倉庫中的數據可信度和完整程度將直接影響后續系統的工作。數據倉庫的集成方式通常是采用數據集成工具(ETL)將數據源的數據以全量或增量的方式,定期抽取到數據倉庫中。ETL的過程就是數據集成的過程,從不同異構數據源流向統一的數據倉庫,其間數據的抽取、清洗、轉換和裝載形成串行或并行的過程。

05 數據湖應用模式

數據湖是在倉庫概念上發展出了的新一代數據集成、管理和應用模式。數據湖的出現,最初就是為了補充數據倉庫的缺陷和不足,為了解決數據倉庫漫長的開發周期,高昂的開發成本,細節數據丟失、信息孤島依然無法解決、出現問題無法真正溯源等問題。但是隨著大數據技術的發展,數據湖不斷演變,匯集了各種技術,包括數據倉庫、實時和高速數據流技術、機器學習、分布式存儲和其他技術。數據湖逐漸發展成為一個可以存儲和處理所有結構化、半結構化、非結構化數據,并對數據進行大數據處理、實時分析和機器學習等操作的統一數據管理平臺,為企業實現真正的“數據驅動”提供完整解決方案。

圖片

與數據倉庫不同的是,數據倉庫在處理數據之前要先進行數據梳理、定義數據結構、進行數據清洗才進行入庫操作,而數據湖是不管“三七二十一”連上數據源就將原始數據“一鍋端過來”,這就為后續數據湖的機器學習、數據挖掘能力帶來了無限可能!在靈活性上數據湖具備天然優勢。傳統的數倉,因為模型范式的要求,業務不能隨便的變遷,變遷涉及到底層數據的各種變化,這導致了傳統數倉無法支持業務的變化。

對于數據湖來說,即使像互聯網行業不斷有新的應用,業務不斷發生變化,數據模型也不斷的變化,但數據依然可以非常容易的進入數據湖,對于數據的采集、清洗、規范化的處理,完全可以延遲到業務需求的時候再來處理。這跟早期的數倉思維就很不一樣,數據湖相對于企業來說,靈活性比較強,能更快速的適應上層數據應用的變化。由于數據湖需要具備多樣數據的存儲和處理能力,在數據集成方面使用的技術也是多樣的,比如:基于ETL工具的結構化數據集成,接口服務集成,文件數據集成,實時數據集成等。

寫在最后的話

數據集成是消除企業信息孤島,實現數據集中共享,進而實現數據治理和數據應用的重要手段。數據集成可以將企業本地數據、云中的數據等來自不同“孤島”的數據連接起來,讓數據不在孤立、相互作用,從而挖掘出更大的價值。數據集成可以讓企業的應用、流程、系統、組織和人員等關鍵要素都協同起來,提高企業業務效率。數據集成可以將不同類型的數據匯聚和融合起來,讓業務用戶可以快速獲得有用信息進行分析,從全局綜合的角度分析問題,增加分析結果的準確性。

責任編輯:華軒 來源: 談數據
相關推薦

2022-11-10 20:43:57

數據治理數據湖

2023-06-28 07:54:44

數據治理數據分析

2024-01-15 07:17:11

2018-05-18 08:20:32

數據治理應用

2021-09-06 15:39:00

大數據技術醫療

2020-11-19 15:01:26

京東大數據數據平臺

2021-06-11 13:56:27

大數據DataWorks數據開發

2023-04-14 15:50:29

元數據數據治理

2021-09-02 16:10:57

系統數據存儲

2023-03-10 07:30:24

2024-08-15 17:21:58

2021-02-25 18:03:07

數據管理

2014-09-22 15:07:03

普元

2024-09-29 08:40:34

2023-02-03 09:10:32

大數據SeaTunnel

2021-09-30 16:28:34

大數據數據管理企業

2024-09-26 19:41:55

數據飛輪數據倉庫數據中臺

2013-01-09 14:27:26

數據治理Informatica

2024-09-24 10:33:36

數據飛輪智能自動化

2013-01-06 17:10:54

數據治理Informatica
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 好姑娘影视在线观看高清 | 91中文 | 久精品视频 | 古装人性做爰av网站 | 麻豆精品国产免费 | 国产99久久精品一区二区永久免费 | 日韩av一区二区在线 | 欧美日韩网站 | 久久精品中文字幕 | 国产丝袜一区二区三区免费视频 | 欧美成年黄网站色视频 | 黄色操视频 | 在线播放日韩 | 麻豆国产一区二区三区四区 | 日韩精品成人av | 九色.com | 久久亚洲春色中文字幕久久久 | 日韩在线 | 成年人黄色小视频 | 日韩一级在线 | 中文字幕亚洲视频 | 欧美精品成人影院 | 国产日韩欧美一区二区 | 日韩av三区| 热re99久久精品国产99热 | 午夜看片 | 毛片免费视频 | 欧美黑人国产人伦爽爽爽 | 中文字幕在线观看成人 | 毛片一区二区三区 | av中文字幕在线 | 中文字幕蜜臀 | 天堂av中文在线 | 亚洲一区二区视频在线播放 | 9999在线视频 | 91传媒在线观看 | 日本久久网 | 久久久久黑人 | 久久综合欧美 | 波多野结衣一区二区 | 色av一区二区 |