如何設(shè)計(jì)適合數(shù)字化轉(zhuǎn)型需要的數(shù)據(jù)架構(gòu)
現(xiàn)代組織需要一個(gè)模塊化的數(shù)據(jù)架構(gòu)來(lái)支持復(fù)雜的企業(yè)環(huán)境,同時(shí)為業(yè)務(wù)用戶提供數(shù)據(jù)訪問(wèn)。以下是一些關(guān)鍵考慮因素。
一重視元數(shù)據(jù)的管理
數(shù)據(jù)架構(gòu)不斷發(fā)展以提供由元數(shù)據(jù)支持的數(shù)據(jù)自助服務(wù)
過(guò)去幾十年來(lái),數(shù)據(jù)分析架構(gòu)最佳實(shí)踐已經(jīng)經(jīng)歷了多個(gè)時(shí)代,數(shù)字化轉(zhuǎn)型強(qiáng)調(diào)了實(shí)現(xiàn)數(shù)據(jù)戰(zhàn)略現(xiàn)代化和利用數(shù)據(jù)使用機(jī)會(huì)的必要性。這些時(shí)代包括:
- 2000年之前的時(shí)期—企業(yè)數(shù)據(jù)倉(cāng)庫(kù)時(shí)代:以企業(yè)數(shù)據(jù)倉(cāng)庫(kù)(EDW)的成功為中心的數(shù)據(jù)架構(gòu)。
- 2000-2010—后EDW時(shí)代:這一時(shí)期的特點(diǎn)是碎片化的數(shù)據(jù)分析,數(shù)據(jù)集市依賴于數(shù)據(jù)倉(cāng)庫(kù)。根據(jù)你問(wèn)的是誰(shuí),你得到的事實(shí)版本不同,因?yàn)槊看螖?shù)據(jù)集市整合都會(huì)導(dǎo)致另一個(gè)數(shù)據(jù)孤島,從而導(dǎo)致分析碎片化和不一致。
- 2010-2020年—邏輯數(shù)據(jù)倉(cāng)庫(kù)(LDW)時(shí)代:這一時(shí)期通過(guò)通用語(yǔ)義層對(duì)數(shù)據(jù)進(jìn)行更加統(tǒng)一的分析,從而可以訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市和數(shù)據(jù)湖。這是當(dāng)前的最佳實(shí)踐。
- 2020年未來(lái)—活躍元數(shù)據(jù)時(shí)代:未來(lái)將看到使用所有相關(guān)數(shù)據(jù)源對(duì)數(shù)據(jù)進(jìn)行增強(qiáng)分析,通過(guò)高級(jí)分析、推薦引擎、數(shù)據(jù)和人工智能編排、自適應(yīng)實(shí)踐和元數(shù)據(jù)分析來(lái)訪問(wèn)和啟用。
數(shù)據(jù)訪問(wèn)和自助分析的廣泛化正在推動(dòng)當(dāng)前從LDW時(shí)代向主動(dòng)元數(shù)據(jù)時(shí)代的演變。首席數(shù)據(jù)和分析官(CDAO)同樣希望將數(shù)據(jù)用例擴(kuò)展到LDW無(wú)法處理的范圍。其中包括主數(shù)據(jù)管理、企業(yè)間數(shù)據(jù)共享、B2B數(shù)據(jù)集成、合作伙伴數(shù)據(jù)共享、應(yīng)用程序數(shù)據(jù)集成等。
但什么是元數(shù)據(jù),它在這一演變中扮演什么角色?
元數(shù)據(jù)描述數(shù)據(jù)的不同方面,例如數(shù)據(jù)的上下文。它是作為數(shù)據(jù)在企業(yè)系統(tǒng)中移動(dòng)的副產(chǎn)品而產(chǎn)生的。元數(shù)據(jù)有四種類(lèi)型:技術(shù)元數(shù)據(jù)、操作元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)和社交元數(shù)據(jù)。這些類(lèi)型中的每一種都可以是組織收集但不主動(dòng)分析的“被動(dòng)”元數(shù)據(jù),也可以是使用相同數(shù)據(jù)識(shí)別兩個(gè)或多個(gè)系統(tǒng)之間的操作的“主動(dòng)”元數(shù)據(jù)。
主動(dòng)元數(shù)據(jù)可以實(shí)現(xiàn)自動(dòng)化、提供見(jiàn)解并優(yōu)化用戶參與度,并且是自助分析的關(guān)鍵推動(dòng)者。然而,要實(shí)現(xiàn)其潛力,需要一個(gè)能夠平衡可重復(fù)性、可重用性、治理、權(quán)威、來(lái)源和優(yōu)化交付等要求的數(shù)據(jù)架構(gòu)。
數(shù)據(jù)分析領(lǐng)導(dǎo)者看到了兩種選擇,可以將其數(shù)據(jù)架構(gòu)從目前大多數(shù)運(yùn)營(yíng)的LDW時(shí)代發(fā)展到主動(dòng)元數(shù)據(jù)時(shí)代。這些選項(xiàng)是數(shù)據(jù)編織或數(shù)據(jù)網(wǎng)格。這些獨(dú)立概念的共同目標(biāo)是為使用數(shù)據(jù)的每個(gè)人(包括數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和數(shù)據(jù)工程師以及數(shù)據(jù)消費(fèi)者)提供更輕松的數(shù)據(jù)訪問(wèn)。盡管許多數(shù)據(jù)領(lǐng)導(dǎo)者將數(shù)據(jù)編織和數(shù)據(jù)網(wǎng)格視為相互競(jìng)爭(zhēng)的數(shù)據(jù)架構(gòu)方法,但更準(zhǔn)確地說(shuō),它們被視為互補(bǔ)。
二關(guān)注數(shù)據(jù)編織技術(shù)
DataFabric利用邏輯數(shù)據(jù)倉(cāng)庫(kù)時(shí)代的現(xiàn)有資產(chǎn)。
數(shù)據(jù)編織是一種新興的數(shù)據(jù)管理和數(shù)據(jù)集成設(shè)計(jì)概念。其目標(biāo)是實(shí)現(xiàn)靈活、可重用和增強(qiáng)的數(shù)據(jù)集成,以支持整個(gè)企業(yè)的數(shù)據(jù)訪問(wèn)。
對(duì)于許多組織來(lái)說(shuō),數(shù)據(jù)編織是邏輯數(shù)據(jù)倉(cāng)庫(kù)模型的自然演變,因?yàn)樗矛F(xiàn)代化數(shù)據(jù)架構(gòu)中的現(xiàn)有技術(shù)和元數(shù)據(jù)。數(shù)據(jù)編織設(shè)計(jì)不存在“淘汰和替換”。相反,它利用沉沒(méi)成本,同時(shí)為新的數(shù)據(jù)管理支出提供優(yōu)先級(jí)和成本控制指導(dǎo)。
數(shù)據(jù)編織從不同角度提供優(yōu)勢(shì):
- 業(yè)務(wù)視角:使技術(shù)含量較低的業(yè)務(wù)用戶(包括分析師)能夠快速查找、集成、分析和共享數(shù)據(jù)
- 數(shù)據(jù)管理團(tuán)隊(duì)觀點(diǎn):數(shù)據(jù)工程師的自動(dòng)化數(shù)據(jù)訪問(wèn)和集成帶來(lái)的生產(chǎn)力優(yōu)勢(shì),以及敏捷性的提高,達(dá)到每天/每周/每年更多地關(guān)閉數(shù)據(jù)請(qǐng)求
- 整體組織視角:更快地從數(shù)據(jù)和分析投資中獲得洞察;提高組織數(shù)據(jù)的利用率;通過(guò)分析所有參與系統(tǒng)的元數(shù)據(jù)并提供有關(guān)有效數(shù)據(jù)設(shè)計(jì)、交付和利用的見(jiàn)解來(lái)降低成本
決定數(shù)據(jù)編織設(shè)計(jì)是否適合組織的兩個(gè)因素是:元數(shù)據(jù)完整性和組織中的數(shù)據(jù)編織主題專(zhuān)業(yè)知識(shí)。具體來(lái)說(shuō),元數(shù)據(jù)太少的組織將看不到數(shù)據(jù)編織的好處。缺乏元數(shù)據(jù)還增加了對(duì)主題專(zhuān)家(SME)的依賴,他們可以幫助發(fā)現(xiàn)、推斷甚至創(chuàng)作元數(shù)據(jù),這可能會(huì)抵消數(shù)據(jù)編織設(shè)計(jì)相對(duì)較低的SME要求。
三關(guān)注數(shù)據(jù)網(wǎng)格技術(shù)
數(shù)據(jù)網(wǎng)格雖然有吸引力,但需要嚴(yán)格的方法
數(shù)據(jù)網(wǎng)格是一種允許分散數(shù)據(jù)管理的架構(gòu)方法。其目標(biāo)是支持定義、交付、維護(hù)和管理數(shù)據(jù)產(chǎn)品的工作,使數(shù)據(jù)消費(fèi)者能夠輕松查找和使用數(shù)據(jù)產(chǎn)品。數(shù)據(jù)網(wǎng)格架構(gòu)基于將數(shù)據(jù)責(zé)任分散和分配給最接近數(shù)據(jù)的人并將該數(shù)據(jù)作為服務(wù)共享的概念。
數(shù)據(jù)網(wǎng)格最常見(jiàn)的驅(qū)動(dòng)因素是:業(yè)務(wù)線(LOB)具有更多的數(shù)據(jù)自主權(quán)、減少對(duì)中央IT的依賴以及利用數(shù)據(jù)去中心化來(lái)打破孤島(盡管可能需要在網(wǎng)格架構(gòu)內(nèi)進(jìn)行一些數(shù)據(jù)集中化)。盡管其吸引力顯而易見(jiàn),但請(qǐng)注意以下先決條件和挑戰(zhàn)。
數(shù)據(jù)網(wǎng)格架構(gòu)尚未成為既定的最佳實(shí)踐。
該術(shù)語(yǔ)與因組織模式、數(shù)據(jù)管理和技術(shù)實(shí)施而異的各種方法相關(guān)。組織驅(qū)動(dòng)因素也各不相同。其中包括消除IT瓶頸,以及合理化由LOB主導(dǎo)的數(shù)據(jù)管道創(chuàng)建或由云現(xiàn)代化數(shù)據(jù)管理計(jì)劃觸發(fā)的孤立數(shù)據(jù)集。
數(shù)據(jù)分析領(lǐng)導(dǎo)者不應(yīng)采用數(shù)據(jù)網(wǎng)格架構(gòu)作為解決數(shù)據(jù)管理挑戰(zhàn)的看似簡(jiǎn)單的解決方案。盡管它正式化了常見(jiàn)做法,但它放棄了LOB專(zhuān)家的數(shù)據(jù)責(zé)任,這可能會(huì)導(dǎo)致孤立數(shù)據(jù)使用激增。
數(shù)據(jù)網(wǎng)格的成功取決于LOB中的組織模式和數(shù)據(jù)技能。
如果各個(gè)部門(mén)的數(shù)據(jù)素養(yǎng)、自主性和數(shù)據(jù)技能差異很大,并且組織缺乏實(shí)施數(shù)據(jù)管理活動(dòng)的能力,那么中央IT將需要提供更多支持——至少在一開(kāi)始是這樣。LOB可以通過(guò)創(chuàng)建新角色(例如數(shù)據(jù)產(chǎn)品所有者)來(lái)管理數(shù)據(jù)產(chǎn)品的定義、創(chuàng)建和治理,從而在數(shù)據(jù)網(wǎng)格環(huán)境中實(shí)現(xiàn)更大的自主權(quán)。然而,缺乏構(gòu)建分布式數(shù)據(jù)技能承諾的組織應(yīng)該避免數(shù)據(jù)網(wǎng)格。
數(shù)據(jù)網(wǎng)格架構(gòu)、設(shè)計(jì)和技術(shù)實(shí)現(xiàn)差異很大。
數(shù)據(jù)網(wǎng)格架構(gòu)實(shí)現(xiàn)通常基于云并使用共享存儲(chǔ)和處理。然而,每個(gè)LOB用于數(shù)據(jù)交付、維護(hù)和治理的工具將根據(jù)用例以及生產(chǎn)者和消費(fèi)者之間的合同而有很大差異。這些合同定義了數(shù)據(jù)產(chǎn)品的范圍、SLA和運(yùn)營(yíng)成本,例如可用性、計(jì)算成本、訪問(wèn)并發(fā)性、治理和質(zhì)量策略、上下文和語(yǔ)義。沒(méi)有明確合同的組織通常會(huì)面臨共享性和可重用性限制,這違背了開(kāi)發(fā)數(shù)據(jù)網(wǎng)格架構(gòu)的目標(biāo)。
組織需要聯(lián)合治理模型。
數(shù)據(jù)網(wǎng)格將數(shù)據(jù)治理的責(zé)任轉(zhuǎn)移給領(lǐng)域應(yīng)用程序設(shè)計(jì)者和用戶。對(duì)于要自主構(gòu)建和公開(kāi)數(shù)據(jù)產(chǎn)品的LOB,它必須定義符合首席信息安全官(CISO)和首席數(shù)據(jù)官(CDO)或中央治理委員會(huì)的中央指導(dǎo)的本地?cái)?shù)據(jù)治理和數(shù)據(jù)管理。在成熟的數(shù)據(jù)網(wǎng)格組織中,業(yè)務(wù)組織通過(guò)中央IT支持來(lái)實(shí)施自己的治理策略,而不是相反。
對(duì)于元數(shù)據(jù)不完整的組織來(lái)說(shuō),數(shù)據(jù)網(wǎng)格是一個(gè)可行的選擇。只要他們擁有具有主題專(zhuān)業(yè)知識(shí)的數(shù)據(jù)架構(gòu)師,他們就可以從數(shù)據(jù)網(wǎng)格開(kāi)始并并行構(gòu)建其活動(dòng)元數(shù)據(jù)存儲(chǔ)。
四構(gòu)建靈活的數(shù)據(jù)架構(gòu)
現(xiàn)代環(huán)境的復(fù)雜性需要靈活的數(shù)據(jù)架構(gòu)
使用本地、云、多云、云間和混合部署進(jìn)行運(yùn)營(yíng)的數(shù)據(jù)領(lǐng)導(dǎo)者將需要修改其現(xiàn)有的數(shù)據(jù)架構(gòu)策略,以支持其當(dāng)前和未來(lái)的復(fù)雜性。精心規(guī)劃且強(qiáng)大的數(shù)據(jù)架構(gòu)可確保新技術(shù)與現(xiàn)有基礎(chǔ)設(shè)施相一致,并能夠支持未來(lái)的需求,包括跨云提供商、SaaS解決方案和本地資源部署等的集成和互操作性。數(shù)據(jù)架構(gòu)制定重點(diǎn)圍繞以下方面考慮:
- 制定解決整個(gè)數(shù)據(jù)生態(tài)系統(tǒng)的策略。即使對(duì)于最初進(jìn)行云部署的組織來(lái)說(shuō),隨著時(shí)間的推移,發(fā)展成為混合和多云環(huán)境也是很常見(jiàn)的。建立優(yōu)先考慮提供商的總體云戰(zhàn)略可以管理其他云部署。這將減輕未經(jīng)批準(zhǔn)的云部署可能的數(shù)據(jù)架構(gòu)帶來(lái)的風(fēng)險(xiǎn)。
- 使數(shù)據(jù)要求與用例保持一致。分布式和復(fù)雜的用例現(xiàn)在正在推動(dòng)可提供業(yè)務(wù)價(jià)值的更新創(chuàng)新,特別是通過(guò)啟用自助數(shù)據(jù)訪問(wèn)。云的成功將取決于滿足企業(yè)消費(fèi)者用例的能力,這些用例很可能本質(zhì)上是分布式的、靠近數(shù)據(jù)源并在邊緣網(wǎng)絡(luò)和設(shè)備上運(yùn)行。
- 評(píng)估集成模式。快速的數(shù)據(jù)增長(zhǎng)和自助數(shù)據(jù)訪問(wèn)加劇了以適當(dāng)?shù)膸挕⒀舆t和吞吐量跨不同云和本地系統(tǒng)移動(dòng)數(shù)據(jù)的挑戰(zhàn)。評(píng)估集成模式,以確定可靠且高效的數(shù)據(jù)架構(gòu),該架構(gòu)可以服務(wù)于不斷發(fā)展的業(yè)務(wù)用例并滿足數(shù)據(jù)合規(guī)性和主權(quán)需求。
- 采用開(kāi)源和開(kāi)放標(biāo)準(zhǔn)來(lái)進(jìn)行面向未來(lái)的數(shù)據(jù)投資。熟悉云中的開(kāi)源定價(jià)模型,包括計(jì)算和存儲(chǔ)資源的費(fèi)用。使用開(kāi)放或提供商中立的標(biāo)準(zhǔn),并了解開(kāi)源數(shù)據(jù)存儲(chǔ)的選項(xiàng),以及使元數(shù)據(jù)可在企業(yè)環(huán)境中跨平臺(tái)共享的開(kāi)源元數(shù)據(jù)標(biāo)準(zhǔn)。最后,制定支持計(jì)劃來(lái)解決開(kāi)源解決方案的問(wèn)題。
最后
根據(jù)數(shù)據(jù)和分析(D&A)團(tuán)隊(duì)組織、共享和分析數(shù)據(jù)的方式設(shè)計(jì)數(shù)據(jù)管理架構(gòu)。