作者 | Isaac Sacolick
編輯 | 言征
出品 | 51CTO技術棧(微信號:blog51cto)
數據治理涵蓋一系列學科,包括數據安全、管理、質量和編目。這種做法需要定義使用策略、創建主數據源、分析數據集、記錄字典以及監督數據生命周期。組織模型通常定義促進戰略的首席數據官、制定數據集政策的數據所有者和負責提高數據質量的數據管理員的角色。
Precisly首席技術官TendüYogurt?u博士表示:“數據治理是數據完整性的關鍵要素,使組織能夠輕松地發現、理解和利用關鍵數據,從而實現準確的報告和明智的決策。”“它提供了對數據含義、譜系和影響的理解,因此企業可以保持合規性,并確保人工智能模型由可靠的數據推動,以獲得可靠的結果。”
Yogurt?u表示,數據治理曾經是一項專注于合規性的技術任務。”隨著人工智能的日益普及,數據已成為最重要的企業資產,數據治理應成為整個企業的優先事項,”她說。
對于許多嘗試GenAI或使用大型語言模型(LLM)構建應用程序的組織來說,數據治理責任更大,員工使用人工智能工具的風險更大,非結構化數據的范圍也更廣。我咨詢了幾位專家,了解數據治理必須如何發展,以應對生成人工智能工具和能力所固有的機遇和風險。
GenAI時代,組織獲取和使用數據面臨著新的風險、挑戰和機遇。以下是數據治理團隊應對這種情況的四種方式。
1.審查用于GenAI工具和LLM的數據政策
數據治理部門負責監督數據目錄,并傳達數據使用政策,以幫助員工訪問集中式數據集并使用它們構建機器學習模型、儀表板和其他分析工具。這些部門現在正在更新政策,以確定是否以及如何在LLM和開放的GenAI工具中使用企業數據源。開發人員和數據科學家必須審查這些政策,并與數據所有者就使用數據集支持GenAI實驗的問題進行協商。
“隨著生成式AI帶來更復雜的數據,組織必須擁有出色的數據治理和隱私政策來管理和保護用于訓練這些模型的內容,”Egnyte聯合創始人兼首席安全官Kris Lahiri表示。“組織必須特別注意這些AI工具使用了哪些數據,無論是像OpenAI、PaLM這樣的第三方,還是公司可能內部使用的內部LLM。”
審查GenAI政策中關于隱私、數據保護和可接受使用的規定。許多組織要求在使用數據集進行GenAI用例之前提交請求并獲得數據所有者的批準。在使用必須滿足GDPR、CCPA、PCI、HIPAA或其他數據合規性標準的數據集之前,請與風險、合規和法律部門協商。
數據政策還必須考慮與第三方數據源合作時的數據供應鏈和責任。“如果發生涉及在特定區域內受保護的數據的安全事件,供應商需要明確他們及其客戶的責任,以妥善緩解這種情況,尤其是如果這些數據旨在用于AI/ML平臺,”EDB首席產品工程官Jozef de Vries表示。
對于那些對GenAI機會感到興奮的人來說,重要的是首先了解他們組織的數據隱私、安全和合規政策。
2.加速數據質量提升
許多公司提供數據質量解決方案,包括Attacama、Collibra、Experian、IBM、Informatica、Precisely、SAP、SAS和Talend。2022年全球數據質量工具市場規模超過40億美元,預計年增長率將達到17.7%。現在,許多公司都在嘗試使用AI工具和LLM,我預計這一增長會更高。
“由于人工智能的質量僅取決于為其提供的數據,因此使用人工智能面臨的許多挑戰都與數據質量有關,”Piwik Pro首席運營官Mateusz Krempa表示。“數據質量差可能導致誤導性或錯誤的見解,嚴重影響結果。”
Krempa表示,數據質量的挑戰來自于大數據的體量、速度和多樣性,尤其是現在LLM利用組織的非結構化數據源。希望開發內部LLM的公司需要將數據質量倡議擴展到從文檔、協作工具、代碼存儲庫和其他存儲企業知識和知識產權的工具中提取的信息。
“數據治理不僅在為LLM系統提供大量數據方面正在發生變化,而且還在明智和安全地做到這一點,”Hakkoda數據治理負責人Karen Meppen表示。“重點是確保數據不僅規模龐大,而且智能——準確、可理解、注重隱私、安全,并考慮到知識產權和公平性的風險和影響。”
根據業務目標和數據類型,可以使用不同的工具來提高數據質量。
傳統的數據質量工具:可以刪除重復項、規范化數據字段、根據業務規則驗證數據、檢測異常并計算質量指標。
主數據管理工具(MDM):有助于組織連接多個數據源,并為商業實體(如客戶和產品)創建真實的來源。
客戶數據平臺(CDP):是專門用于集中客戶信息并啟用市場營銷、銷售、客戶服務和其他客戶互動的工具。
預計會有升級和新的數據質量工具,以改善對非結構化數據源的支持,并增加針對GenAI用例的數據質量能力。
Matillion的首席信息安全官Graeme Cantu-Park的另一個建議集中在數據血統的重要性上。“人工智能將需要一種完全不同的方式來審視治理優先級和實踐,以便更好地了解為AI應用程序和模型提供數據的數據管道和數據血統。”
數據血統有助于揭示數據的生命周期,并回答關于數據何時、何地、由誰、為何以及如何更改的問題。由于人工智能擴大了數據的范圍和使用案例,了解數據血統對于組織中的更多人來說變得更加重要,包括安全和其他風險管理職能的人員。
3.審查數據管理和管道體系結構
除了政策和數據質量之外,數據治理領導者還必須將其影響力擴展到數據管理和體系結構功能中。主動數據治理提供了一系列功能,使更多的員工能夠利用數據、分析——現在還有人工智能——來完成工作并做出更明智的決策。數據的存儲、訪問、產品化、編目和文檔化方式都是組織將數據擴展到GenAI用例中的快速、輕松和安全的因素。Teradata首席產品官Hillary Ashton提出了以下方法來實現最令人興奮的人工智能用例:
創建可重復使用的數據產品,或精心組織的已知良好數據集,以幫助組織更好地控制和灌輸對其數據的信任。
尊重數據的重要性,使更多人能夠訪問信息,而無需在不同的環境中移動數據。
考慮到可擴展性的人工智能試點計劃,包括具有強大治理的人工智能/ML數據管道,也可以實現開放和互聯的生態系統。
數據團隊的一個關鍵是確定易于使用并支持多個用例的框架和平臺。Ensono總經理兼副總裁Sean Mahoney表示,“治理框架開始變得更加靈活,使團隊能夠更快地響應技術進步的步伐。”他建議數據治理領導者也要審查并參與這些工具:
- 用于將數據管理委托給創建數據的人的數據網格。
- 用于處理生成人工智能和LLM固有的可擴展性和復雜性的矢量數據庫。
- 實時監控工具,可將數據治理擴展到更多系統。
另一個需要考慮的問題是,數據治理、管理和體系結構需要了解有關數據存儲的全球法規。EDB的de Vries建議,“企業應實施全球分布式數據庫,通過在其區域內保持高度監管的數據來提升其數據治理實踐,同時在全球范圍內分發限制較少的數據,以提高向人工智能平臺提供數據時的靈活性。”
4. 將數據治理擴展到GenAI工作流
數據治理職能部門還必須考慮,使用GenAI工具和LLM的使用政策和最佳實踐。
例如,在本文的開頭,我明確引用了ChatGPT,以便讀者知道響應來自GenAI來源。良好的數據治理要求教育員工提高透明度的程序、允許他們使用的工具以及最大限度地減少數據隱私問題的做法。Forethink首席執行官Deon Nicholas表示:“我看到的最重要的事情是,在保持隱私和真實性的同時,準確利用、共享和學習數據的方法正在興起。”
“例如,像Perplexity這樣基于LLM的搜索引擎總是引用它們的來源,或者像Private AI這樣的數據編輯技術,這些技術使你能夠在接收或向LLMS發送數據之前清除和編輯PIl。”
數據治理領導者應該考慮的積極措施是創建即時庫,員工可以在其中記錄他們的即時用例并在組織中共享。該規程擴展了許多數據治理團隊已經圍繞維護數據目錄和數據字典所做的知識管理實踐。RelationalAI研究ML副總裁Nikolaos Vasiloglou表示,“LLM的訓練語料包括通常存儲在知識圖譜中的簡潔和精心處理的內容,以及通常以提示庫形式存在的專家知識。雖然我們對知識圖有良好的治理實踐,但如何治理后者并不明顯。”
我喜歡蜘蛛俠電影中流行的一句話,“有大的權力就有大的責任。”我們看到了GenAI能力的快速發展,問題是數據治理團隊是否會站在他們一邊。