數據治理能解決AI疲勞問題嗎？

作者：Vidhi Chugh 2024-01-18 16:19:31

大數據人工智能

這篇文章強調了AI疲勞開始的兩個階段，并介紹了數據質量報告等數據治理措施如何能夠推動構建值得信賴和健壯的模型。

數據治理和AI疲勞聽起來像是兩個不同的概念，但兩者之間有著內在的聯系。為了更好地理解它，讓我們從它們的定義開始。

數據治理

長期以來，它一直是數據行業的核心焦點。

Google說得很好——“數據治理是你為確保數據安全、私有、準確、可用和可用所做的一切，它涉及制定適用于如何收集、存儲、處理和處置數據的內部標準——數據政策。”

正如這一定義所強調的那樣，數據治理是關于管理數據——準確地說，是驅動AI模型的引擎。

既然數據治理和AI之間的聯系的初步跡象已經開始顯現，讓我們將其與AI疲勞聯系起來。盡管這個名字暴露了它，但強調導致這種疲憊的原因確保了這個術語在整個帖子中的一致使用。

AI疲勞

由于公司、開發人員或團隊面臨的挫折和挑戰，AI疲勞開始出現，經常導致AI系統的價值實現或實施失敗。

它主要始于對AI能力的不切實際的期望。對于AI等復雜技術，關鍵利益攸關方不僅需要與AI的能力和可能性保持一致，還需要與其局限性和風險保持一致。

談到風險，道德通常被認為是事后的想法，導致放棄不符合規定的AI倡議。

你一定想知道數據治理在導致AI疲勞方面的作用——這是本文的前提。

這就是我們接下來要去的地方。

AI疲勞大致可分為部署前和部署后。讓我們首先關注部署前的工作。

部署前

將概念驗證(PoC)升級到部署的因素有很多，例如：

我們在努力解決什么問題?
為什么現在就確定優先順序會成為一個緊迫的問題?
有哪些數據可用?
它首先是ML——可解的嗎?
數據有規律嗎?
這種現象可以重演嗎?
哪些額外數據會提升模型的性能?

一旦我們評估了使用ML算法可以最好地解決問題，數據科學團隊就會執行探索性的數據分析。在這個階段揭示了許多底層數據模式，突出了給定數據是否包含豐富的信號，它還有助于創建工程特征，以加快算法的學習過程。

接下來，團隊構建第一個基線模型，通常會發現它的性能沒有達到可接受的水平。一款輸出像擲硬幣一樣好的車型不會增加任何價值，這是構建ML模型時的首批挫折之一，也就是經驗教訓。

公司可能會從一個業務問題轉移到另一個業務問題，從而導致疲勞。盡管如此，如果底層數據沒有攜帶豐富的信號，任何AI算法都無法建立在它的基礎上，該模型必須從訓練數據中學習統計關聯，以對看不見的數據進行概括。

部署后

盡管經過訓練的模型在驗證集上顯示了有希望的結果，但根據合格的業務標準，例如70%的精度，如果模型在生產環境中不能充分發揮作用，仍然可能會出現疲勞。

這種類型的AI疲勞被稱為部署后階段。

無數原因可能會導致性能下降，而糟糕的數據質量是困擾該模型的最常見問題，它限制了模型在缺少關鍵屬性的情況下準確預測目標反應的能力。

考慮在訓練數據中只有10%缺失的基本特征之一，現在生產數據中50%的時間變為空，從而導致錯誤預測，這樣的迭代和確保模型一致執行的努力會讓數據科學家和業務團隊感到疲憊，從而削弱人們對數據管道的信心，并使項目投資面臨風險。

數據治理是關鍵

穩健的數據治理措施對于解決這兩種類型的AI疲勞至關重要。鑒于數據是ML模型的核心，信號豐富、無錯誤和高質量的數據是ML項目成功的必要條件。解決AI疲勞問題需要高度關注數據治理。因此，我們必須嚴格工作，確保正確的數據質量，為構建最先進的模型和提供值得信賴的業務見解奠定基礎。

數據質量

數據質量是蓬勃發展的數據治理的關鍵，也是機器學習算法成功的關鍵因素。公司必須在數據質量方面進行投資，例如向數據消費者發布報告。在數據科學項目中，想想當質量不佳的數據進入模型時會發生什么，這可能會導致性能不佳。

只有在錯誤分析期間，團隊才能識別數據質量問題，當這些問題被發送到上游修復時，最終會導致團隊之間的疲勞。

顯然，這不僅僅是花費的努力，而且在正確的數據開始輸入之前，還會損失大量的時間。

因此，始終建議從源頭修復數據問題，以防止此類耗時的迭代。最終，發布的數據質量報告暗示數據科學團隊(或任何其他下游用戶和數據消費者)了解傳入數據的可接受質量。

如果沒有數據質量和治理措施，數據科學家將因數據問題而不堪重負，從而導致導致AI疲勞的不成功模型。

結束語

這篇文章強調了AI疲勞開始的兩個階段，并介紹了數據質量報告等數據治理措施如何能夠推動構建值得信賴和健壯的模型。

通過數據治理建立堅實的基礎，公司可以構建成功和無縫的AI開發和采用的路線圖，灌輸熱情。

為了確保這篇文章全面概述了應對AI疲勞的各種方法，我還強調了組織文化的作用，組織文化與數據治理等其他最佳實踐相結合，將使數據科學團隊能夠更快、更快地建立有意義的AI貢獻。

責任編輯：姜華來源：企業網D1Net

數據治理 AI疲勞數據安全

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據治理能解決AI疲勞問題嗎？

數據治理

AI疲勞

部署前

部署后

數據治理是關鍵

數據質量

結束語