人工智能是否可以解決IT數據管理問題?
譯文從欺詐檢測到聊天機器人再到預測分析,人工智能和機器學習已經為企業提供了大量實用案例。但是,ChatGPT大膽的創意寫作技巧將 AI/ML 的期望提升到了新的高度。IT領導者想知道:AI/ML 最終是否能夠超越單點解決方案,并真正解決企業面臨的核心問題呢?
以管理和集成數據為例,這是當前企業中特別需要 AI/ML 技術的應用。由于本地和云平臺的數據量、數據種類、可變性和分布上升到一個新的高度,非常需要機器來幫助管理解決數據問題。
那么,AI/ML真的能夠幫助建立數據混亂的秩序嗎?答案是肯定的,但業界的共識是,我們只是觸及了可能實現的目標表面。諸如Informatica、IBM和SnapLogic這些集成軟件的老牌企業,已經增加了AI/ML功能來自動化各種任務,并且Tamr、Cinchy和Monte Carlo等一批新公司將AI/ML作為其產品的核心。不過,至今仍然沒有一家能夠提供端到端自動化數據管理和集成流程的 AI/ML 解決方案。
時至今日,仍然沒有任何產品或服務可以在沒有人為干預的情況下管理每個異常數據,更不用說改革混亂的企業數據架構了。如今,這些新的 AI/ML 驅動型解決方案可以做的是大幅減少各種數據整理和集成工作的人工勞動,從數據編目到構建數據管道再到提高數據質量。
然而,值得注意的是,要產生真正、持久的影響,一個 CDO(首席數據官) 需要一種方法,而不是為一次性項目獲取集成工具的沖動。在企業確定要應用于哪些 AI/ML 解決方案的優先級之前,他們需要對其整個數據資產(客戶數據、產品數據、交易數據、事件數據等)進行連貫的、自上而下的審視,并全面了解定義這些數據類型的元數據。
企業數據問題的范圍
如今,大多數企業都管理著大量的數據存儲,每個數據存儲都與自己的應用程序和案例相關聯,隨著業務部門使用云計算等,企業的數據孤島問題變得越來越嚴重。在企業的眾多存儲當中,一些數據存儲可用于事務或其他業務活動,而其他數據存儲(主要是數據倉庫)則為從事分析或商業智能的人員提供服務。
Forrester Research副總裁兼首席分析師Noel Yuhanna表示,地球上的每個組織都有二十多種數據管理工具,這些工具都是獨立存在的。目前,已經有一些供應商為他們的產品注入了AI / ML功能,而其他供應商尚未這樣做。
數據集成的主要目的是映射各種數據源的架構,以便不同的系統可以共享、同步和/或豐富數據。例如,后者是開發客戶360度視圖的必備條件。但是,看似簡單的任務,例如確定具有相同名稱的客戶或公司是否是同一實體,以及哪些記錄正確的詳細信息,都需要人工干預,這也就是技術專家經常被要求幫助建立規則來處理各種異常的原因所在。
Tamr的首席產品官Anthony Deighton聲稱,他的MDM解決方案克服了基于規則的系統復雜性。Anthony Deighton表示,基于機器學習的方法的優勢在于,當你添加新的來源時,或者當數據類型本身發生變化時,系統可以很快地適應這些變化。當然,這與大多數ML系統一樣,需要使用大量數據進行持續訓練,并且仍然需要人工判斷來解決差異。
因此,在管理數據的問題上,AI/ML不是靈丹妙藥。但它可以提供非常有價值的自動化,不僅適用于 MDM,而且適用于數據集成的許多領域。
將AI/ML集成到數據結構中
“數據結構”是用于描述整個企業中有用數據的操作短語。要確定該結構的范圍,首先要知道數據的位置,并對其進行編目。該任務可以使用Informatica的AI/ML注入CLAIRE引擎或IBM Watson知識目錄等解決方案的AI / ML功能進行部分自動化。其他編目軟件供應商包括Alation,BigID,Denodo和OneTrust。
Gartner研究總監Robert Thanaraj認為,要構建數據結構,必須購買必要的技術組件,構建并根據所需的結果進行編排。這種結構應該是“元數據驅動的”,由圍繞企業數據本身的所有重要信息的匯編編織而成。
Robert Thanaraj對企業的建議是“投資于元數據發現”。這包括“與組織中的人員一起工作的模式,處理數據的人員模式以及他們使用的數據組合。
Informatica的CLAIRE引擎可以幫助企業獲得元數據見解并采取行動。Informatica首席產品官Jittesh Ghai表示,我們應用 AI/ML 功能來提供預測數據......通過將元數據的所有維度鏈接在一起以提供上下文。除此之外,這種預測性數據智能可以幫助自動創建數據管道。通過自動生成與各種源項的公共元素的映射,并將其與目標系統的架構保持一致。
IDC Stewart Bond指出,SnapLogic集成平臺具有類似的流水線功能。因為它們是基于云的,所以他們會關注所有其他已經建立了管道的客戶,可以找出下一個最好的 Snap:根據成百上千的其他客戶行為,判斷應該在這個管道中采取的下一個最佳行動是什么。
提高數據質量
根據Stewart Bond的說法,AI / ML產生最大影響地是提供更好的數據質量。Forrester Yuhanna對此表示贊同:“AI/ML確實在推動數據質量的提高,這是因為 ML 可以發現大量數據中的模式并從中學習,并推薦人類缺乏帶寬來確定的新規則或調整。
高質量的數據對于處理重要客戶、員工、供應商和產品數據的交易和其他操作系統至關重要,讓沉浸在分析中的數據科學家的生活更加輕松。
人們常說,數據科學家花費80%的時間清理和準備數據。Michael Stonebraker對這一估計提出了異議:他引用了與一位數據科學家的對話。這位數據科學家認為,她花了90%的時間來確定想要分析的數據源,整合結果并清理數據。然后,她將剩余 10% 的時間中的 90% 用于修復清潔錯誤。因此,任何能夠讓她節省大量時間的 AI/ML 數據編目或數據清理解決方案都會改變游戲規則。
數據質量從來都不是一勞永逸的。數據不斷變化的性質及其經過的許多系統催生了一類新的解決方案:數據可觀測性軟件。它可以觀察數據流經數據管道的數據,并正在識別數據質量問題。Stewart Bond認為,使用AI / ML來監控數據質量的六個維度”的參與者:準確性,完整性,一致性,唯一性,及時性和有效性。
正如DevOps必不可少的持續測試一樣,越來越多的公司正在接受數據操作,其中正在對儀表板、ETL 作業進行操作、使這些管道運行的東西進行持續測試,并分析這些管道中的數據。
更多智能即將推出
數據管理和集成軟件供應商將繼續快速添加有用的 AI/ML 功能,以實現數據發現、映射、轉換、流水線、治理等自動化。
Informatica Ghai 表示,如果我們要在這個異構、多云、碎片化的環境中以 PB 級的規模進行數據配置,我們需要將 AI 應用于數據管理。Ghai甚至關注OpenAI的GPT-3系列大型語言模型。他表示,最令人興奮的是理解人類文本指令的能力。
然而,沒有任何產品擁有使數據混亂合理化或在沒有幫助的情況下清理數據的智能。Gartner Thanaraj認為,在自動化、人工操作之前必須找到一個平衡。
目前,AI / ML人才的嚴重短缺。Michael Stonebraker表示,目前仍舊沒有用于數據管理和集成的交鑰匙 AI/ML 解決方案,因此 AI/ML 專業知識對于正確實施是必要的。
當然,隨著AI / ML解決方案變得更加智能,將會給企業帶來越來越多的收益。
原文標題:Can AI solve IT’s eternal data problem?
原文作者: Eric Knorr