2023 年數據治理趨勢
數據治理的價值對企業和整個數據管理的價值體現在2023年塑造該學科的兩個最明顯的趨勢中。
首先,這個術語本身幾乎已經被專門從事訪問管理、數據控制和企業安全內部方面的供應商所使用。這些供應商專注于法規遵從性、數據隱私和數據保護——在如今高度監管的環境中,這些已經迅速成為決定當代企業成敗的因素。即使是對這些公司投入的資本的粗略檢查也能證明這一事實。
第二個趨勢是數據治理對越來越多的環境、用例和市場條件的實時適用性,所有這些都要求數據治理變得比以往任何時候都更加易變,以適應這些需求的出現。組織正在認識到,嘗試完全預先確定每一種可能的數據治理突發事件并為此做好相應準備是很困難的。
相反,他們現在正在嘗試定制數據治理結構,以便他們可以動態調整以適應發生的情況。
TopQuadrant 首席技術官Ralph Hodgson 表示:“了解可能發生的事情(通常數據治理就是表達這種情況)、已經發生的事情和正在發生的事情之間存在區別 。” “正在發生的事情是數據治理運營方面非常難以解決的問題。如果有可能實現企業的數字孿生,那么數據治理的‘正在發生的事情’理念就是未來所在。”
盡管整個組織的數字孿生還沒有普及到整個數據領域,但是數據治理的許多基本方面——當通過實時訪問控制和情景適應性的鏡頭應用時——可以模擬它們詳細描述當前發生的事情的能力。
這只是從該知識到控制和利用它以實現治理目標的邏輯進展。
管理元數據
元數據管理可能始終作為數據治理的核心存在。組織可以從旨在優化此任務的眾多工具中進行選擇。有大量的數據目錄、主數據管理工具,以及 Privacera 首席執行官 Balaji Ganesan 所說的“敏感數據目錄”,它們通過各種元數據模型自動進行數據發現和分類。根據 Hodgson 的說法,有六種主要形式的元數據與數據治理的突出領域接壤,包括:
數據表達:這個維度屬于“數據如何表達;什么數據類型;什么數據表達式;它是可量化的嗎?它有計量單位嗎,等等。” Hodgson 透露。
數據質量:質量數據對于信任數據和鼓勵企業采用這些數據是不可或缺的。
用途: 該領域涉及數據的重要性、數據安全性和數據機密性。
數據管理:數據管理需要“所有權、指標、可訪問性”,Hodgson 詳述道。
法規遵從性:有關法規遵從性的元數據通常會為政策和標準提供信息。
數據來源:數據沿襲或數據來源表示數據的起源和企業旅程。
根據 Gartner的說法,元數據已經從被動變為主動,為數據結構的數據集成等實時用例提供信息。因此,Hodgson 描述的元數據(以及伴隨的數據治理結構)最關鍵的方面之一是它們“都有表達事物之間關系的共同需求,”Hodgson 說。清楚地了解這些數據治理領域內的元素如何相互關聯,使組織能夠調整它們以滿足新的要求、數據源或用例。
數據模型
Hodgson稱之為“元關系”的規則是動態修改 數據治理組件不可或缺的一部分以滿足新出現的情況和業務條件。概念數據模型由這些關系、它們的定義和消除它們歧義的語義組成——如有必要,在部門或應用之間。此類數據模型有助于與數據治理相關的一切,從呈現數據訪問控制到促進生命周期管理必需品(如保留策略)。
定義良好的概念數據模型可能是調整數據治理協議以滿足出現情況的起點。為此,此類模型由特定領域(模型的內容)和學科組成。 Hodgson指出:“你可以為護士提供化學,或者為計算機科學提供電氣工程。” “領域和學科之間是有區別的。”
其他維度包括企業對主題的看法、模型的特異性級別、方面和時間信息。使用必要的數據標識符、術語系統和模式指定模型的這些元素,可以很容易地將它們組合起來進行部門間分析、源系統、客戶畫像、數據隱私需求等之間的分析。TopQuadrant 首席執行官 Nimit Mehta 闡述了一個用例,其中有幾個致力于野火預防的政府機構,每個機構都有自己的術語。“不是把它集中起來,做一個‘你應該用同樣的方式說話’,圖表允許你以一種標準驅動的方式,創建一個元模型,并使那些聯邦語言學保持它們的位置。”
分布式數據管理
數據格局的分布及其對數據管理的影響,將繼續成為明年數據治理領域的首要挑戰。除了云計算和多云計算的日益普及之外,Data Fabric等架構尤其是數據網格,使這個問題更加復雜。誠然,它影響數據治理的所有方面,從生命周期管理到元數據管理。盡管如此,正如 Ganesan 正確指出的那樣,“這就是數據治理的用武之地:公司內部。他們如何查看和處理這些數據?” 為此,在新的 12 個月內,對專門用于擴展交付受管數據訪問能力的解決方案的投資——同時減少跨源策略執行措施的數量——不太可能減少。
Ganesan 表示,這些收益可以通過多種方式實現,包括“提供單一管理平臺,可以在其中管理所有政策 [并且平臺] 執行這些政策”。策略減少是通過基于屬性的訪問控制 (ABAC) 及其推論、基于目的的訪問控制 (PBAC) 實現的,這兩者都對保持流暢、響應迅速的數據治理有影響。
根據 Immuta CTO Steve Touw 的說法,“基于數據標簽標記數據和推送策略不是 ABAC。這是 ABAC 的一個組成部分。ABAC 的真正力量在于使 [訪問] 成為一個動態的運行時決策,而不是一個預先計算的、基于角色的決策。” PBAC 建立在這一優勢的基礎上,僅為特定目的授予訪問權限,例如處理特定報告。
數據隱私和監管合規
ABAC 和 PBAC 都是滿足法規遵從性的基礎,特別是在橫向數據隱私授權方面,并向監管機構證明這些事實。“你不僅獲得了控制和屏蔽,而且還獲得了法律監督,讓你的用戶同意他們只會將事物用于特定目的,并在他們訪問時根據該目的行事數據,”Touw 規定。他提到的動態運行時決策是為修改數據治理結構而準備的,例如遵守特定用例的同步法規,甚至在合并和收購期間促進數據訪問。
此用例和其他此類用例的合規性證明得到數據來源的支持,這也普遍適用于數據治理的許多方面。日志文件是關于誰訪問了哪些數據、在何處、何時以及使用 PBAC 和其他方法出于何種目的而生成的。也許數據沿襲應用于監管合規性和其他治理維度的更廣泛影響與其提供的環境有關——這有助于告知修改治理概念以滿足不斷變化的環境的能力。“從血統的角度來看,這不僅僅是數據從哪里來的問題,還有使用這些數據的用戶是誰;他們為什么要用它?” Immuta 全球解決方案架構副總裁 Matt Vogt 表示。“所有這些背景信息都很重要。”
數據質量
數據領域的日益分布——除了大量可用的非結構化數據之外——使數據質量成為管理良好的數據的先決條件。“治理部分圍繞元數據、質量和訪問部分,以減少用戶查找和使用該數據的摩擦,”Ganesan 反映道。盡管有大量 與數據質量相關的指標,但核心指標不可避免地涉及“完整性、正確性、清晰度、一致性等”,Hodgson 解釋說。
類似于大量涉及統計和非統計人工智能發現和分類數據的自動化,有這樣的機制可以幫助查明數據質量存在問題的領域,并加以糾正。模糊匹配和精確匹配也可以提供這些好處。因此,這種現代數據質量機制“使用機器學習,我們可以建議映射到詞匯表,然后詞匯表,例如,以詞匯表的形式,可以表達一致性規則,”霍奇森說。
態勢感知,實時響應
正如 Hodgson 先前指出的那樣,數據治理的理想是業務及其數據流程的實時模型,以確保后者的長期價值,同時豐富前者。這種范式隱含著修改數據模型、權限、術語甚至治理策略的能力,如果需要的話,以一種提供業務價值同時降低風險的內聚方式。動態訪問控制功能、活動元數據和流動的分布式數據管理可以促進這些收益。
比人們想象的更快,實施這種可變形式的數據治理將成為強制性的。
本文作者:Jelani Harper