面向AI的數據治理體系如何構建?
近年來,隨著新技術模型出現、各行業應用場景價值打磨與海量數據積累下的產品效果提升,人工智能應用已從消費、互聯網等泛C端領域,向制造、能源、電力等傳統行業輻射。各行業企業在設計、采購、生產、管理、營銷等經濟生產活動主要環節的人工智能技術與應用成熟度在不斷提升,加速人工智能在各環節的落地覆蓋,逐漸將其與主營業務相結合,以實現產業地位提高或經營效益優化,進一步擴大自身優勢。
AI技術創新應用的大規模落地,帶動了大數據智能市場的蓬勃發展,同樣也為底層的數據治理服務注入了市場活力。
伴隨著大數據、云計算以及算法的發展,人工智能的熱潮從幾年前一直延續至今,并且廣泛應用于多個行業和領域,成為當前正在進行的科技革命的一個領軍技術。而人工智能在如火如荼的數據治理領域又怎么能缺席呢?數據治理和人工智能,看似不相關的兩個詞,他們兩者放一起,會發生什么故事呢?
一、數據治理為人工智能奠定基礎
大數據是不斷持續的數據采集、清洗、轉換、分類等的數據積累,而數據治理則為大數據的呈現提供了更為規范的管理模式。由于目前大部分人工智能的形式需要通過大量的數據運算實現,因此離不開大數據和數據治理的支持。人工智能需要依賴大數據平臺和技術來幫助完成深度學習進化。
1.數據治理為人工智能提供優質數據
大部分的人工智能分為訓練(Training)和預測(Predict)兩個環節。機器訓練算法的效果依賴于所輸入的數據質量的優劣,如果輸入的數據存在偏差,那么輸出的算法也將產生偏差,這可能直接導致所得結果的不可用。數據治理在提升數據質量方面具有重要作用。通過梳理數據質量需求、定義數據質量檢查規則、制定數據質量改善方案、設計并實施數據質量管理工具、監控數據質量管理操作程序和績效等數據質量管理環節,企業可以獲得干凈的、結構清晰的數據,為深度學習等人工智能技術提供可信的數據輸入。
2.數據治理為人工智能保障數據隱私
當前人工智能發展中面臨的很大制約就是數據權屬和隱私保護問題。個人隱私數據應該受到保護,這些數據的濫用可能對個人造成巨大的財產損失甚至人身傷害。所謂隱私保護,其實就是對隱私數據的保護,歸根結底是對數據用戶的隱私保護。數據治理工具從技術層面設計了保護隱私數據的諸多環節,提供數據模糊化、數據脫敏、數據加密,可為企業個人數據保護奠定基礎,從而實現人工智能應用的數據合規性。
二、人工智能提升數據治理智能化水平
1.元數據管理
在傳統的元數據管理中,對于非結構化數據的元數據采集通常是通過創建非結構化數據的搜索索引的方式。而語音識別、圖像識別、文本分析等人工智能技術能幫助實現元數據的最初業務詞庫的構建,成為提取各類有價值的非結構化元數據的資源池。
2.數據標準管理
在數據標準的實施初期,需要對存量系統的數據庫字段進行摸底,識別出共有的、重復使用的業務字段,作為建立數據標準的依據。如果完全靠人工梳理,需要協調各業務部門大量人員參與,工作量巨大且容易出錯。借助機器學習、自然語言處理技術,可以根據字段業務名快速的整理出高頻詞根,將可能需要幾個月的工作在幾天內完成。
數據標準管理的另一個重要環節是標準與元數據的映射。在業務系統眾多,數據標準與業務系統的元數據進行映射往往是實施工程師的惡夢,一不小心就容易出錯。有了人工智能技術,可以對業務字段名進行自然語言處理,精確分詞,根據詞根相似性將數據標準與元數據自動映射起來。
3.數據質量管理
數據質量是保證數據高效應用的基礎。衡量數據質量的指標體系包括完整性、規范性、一致性、準確性、唯一性、時效性。在實施數據質量提升方案之前,需要依據不同的業務規則和業務期望選擇合適的數據質量指標體系,并進行數據的清洗。
一般數據質量改善的理想模式是從數據源頭剔除臟數據,但是在現實中并不可行。因此,根據業務期望,應針對性地提升各個業務階段的數據質量。機器學習(如分類學習、聚類、回歸等)可提取并識別存在的質量問題,從而制定有效的數據質量評估指標,最大化實現該指標下的數據質量的提升。同時,監督學習、深度學習也將實現對數據清洗和數據質量的效果評估,進而改善轉換規則和數據質量評估維度,并隨著數據量和業務期望的逐漸變化,使數據質量提升方案動態更新。
4.數據安全
數據安全是指讓信息或信息系統免受未經授權的訪問、使用、破壞、修改、銷毀的過程或狀態。人工智能技術可以進行敏感數據的分類分級。應用機器學習、自然語言處理和文本聚類分類技術,能對數據進行基于內容的實時精準分類分級,而數據的分類分級是數據安全治理的核心環節。例如,利用數據分類引擎在郵件內容過濾、保密文件管理、情報分析、反欺詐、數據防泄露等領域明顯提升了安全性。
5.主數據管理
主數據指企業核心業務實體的數據,也叫黃金數據,是在整個價值鏈上被重復、共享應用于多個業務流程的、各個業務部門與各個系統之間共享的基礎數據,是各業務應用和各系統之間進行信息交互的基礎。但是在主數據管理的過程中,企業可能面臨如何在數量龐大的數據項中識別主數據、如何建立統一的主數據標準等問題。
確定主數據依賴于企業對于業務需求的理解和相應“黃金數據”的定義。通常來說,每個主數據主題域都有自己專用的記錄系統,并且分散在各個業務系統中。人工智能相關技術可以幫助我們在所有數據中篩選出頻繁出現或流動的數據,同時快速確定主數據的可靠與可信數據來源,構建完整的主數據視圖。
6.人工智能幫助重復數據自動匹配和合并據
數劇管理面臨的一個挑戰是在企業眾多的系統中對于同一數據項或者重復的數據項進行匹配和合并,解決該挑戰的一個方法是構建數據匹配規則,包括不同置信水平的匹配接受度。有些匹配需要極高的信任度,可以基于跨多個字段的準確數據匹配實現;有些匹配僅僅由于數據值的沖突,可以采用較低的信任度。機器學習、自然語言處理可幫助建立重復數據識別的匹配規則,在識別字段重復的主數據之后不進行自動合并,并確定與主數據相關的記錄,建立交叉引用關系。
三、數據治理平臺的智能化
通過人工智能技術降低數據治理的門檻將成為數據治理發展的重要方向。充分考慮到數據治理高復雜性的特點,數據治理平臺不斷融合AI新技術,力求通過智能化管理來簡化數據治理實施過程,大大地解放技術人員,幫助企業實現更高效的數據治理,遠離“數據黑洞”。
1、智能化元數據服務。睿治平臺支持全自動元數據采集和關聯,實現元模型智能化應用,提供圖形化元數據分析視圖。
2、智能化探查數據質量。睿治平臺內置數理統計算法、綁定機器學習算法,實現自動探查數據質量,同時支持智能修復。
3、智能化構建數據標準。睿治平臺支持智能化映射及落標,形成的數據標準和業務數據雙向評估。
4、智能化識別主數據。睿治平臺自動識別主數據,幫助重復數據自動匹配和合并,構建完整的主數據視圖。
隨著數據治理和人工智能兩個領域的快速發展,二者的融合將會有更多場景和商業模式。
四、數據治理+AI的行業融合
AI技術創新應用大規模落地,帶動大數據智能市場蓬勃發展
企業在部署AI應用時,數據資源的優劣極大程度決定了AI應用的落地效果。因此,為推進AI應用的高質量落地,開展針對性的數據治理工作為首要且必要的環節。而對于企業本身已搭建的傳統數據治理體系,目前多停留在對于結構性數據的治理優化,在數據質量、數據字段豐富度、數據分布和數據實時性等維度尚難滿足AI應用對數據的高質量要求。為保證AI應用的高質落地,企業仍需進行面向人工智能應用的二次數據治理工作。
面向人工智能的數據治理是傳統數據治理體系在以AI應用落地為導向下的體系“升級”。
從數據管理維度來看,面向人工智能的數據治理體系仍會根據數據結構化流向、數據資產管理需要、數據安全需求等角度順應搭建元數據管理、數據資產管理、主數據管理、數據生命周期管理和數據安全隱私管理等組件模塊。而在數據治理過程中,則會更強調底層實現多源數據融合、數據采集頻率、數據標準建立、數據質量管理,滿足AI模型所需數據的規模、質量和時效,以AI應用的數據需求為核心,優化對應模塊的體系建設。
AI應用驅動成為面向人工智能的數據治理服務的核心立足點
面向人工智能的數據治理服務常包含于數據服務、平臺能力和數據產品三類采購形式中。第一類,數據服務即以單獨的數據治理產品形式出現;第二類,數據平臺,主要包括大數據平臺、數據中臺、數據倉庫和AI能力平臺等項目;第三類,數據產品,范圍限定在應用AI算法的數據產品,可劃分為機器學習產品、自然語言理解產品和知識圖譜三類AI產品。
如今AI產品需求旺盛,AI開發平臺陸續推進AI產品的規模化落地,且AI數據治理效果與最終平臺產品交付效果緊密相連。
總體來看,前沿技術手段應用可以讓數據治理工作趨于流程化、自動化與智能化,同時讓數據變得可擴展、更負責可溯、更可信,已然成為未來數據管理發展的必由之路。
打造“治理+AI”體系的良性循環
相互關聯,互為依托,共同促進人工智能應用的內外發展
面向人工智能的數據治理充分利用機器學習技術,將數據治理環節自動化智能化,可極大提升數據治理工作效率,同時基于自然語言理解和知識圖譜挖掘關聯非結構化數據的應用價值,解決數據質量管理的傳統難題,使治理后的數據更加契合AI應用的要求,從效率和質量雙側推進AI模型的落地應用。
與此同時,AI應用落地效果的顯著優化也會給企業帶來更多智能化轉型信心,讓其加大相關AI項目的預算投入,進一步推進相關治理體系建設,打造“治理+AI”的良性循環