事實表明糟糕的數據將會扼殺優秀的人工智能
數據科學家指出,數據準備對于任何一個人工智能系統的成功都至關重要。即使是最好、最復雜的分析技術采用低質量、集成度低、設計草率或基本上不相關的數據,最終的結果也是不可靠的。
分析和探討人工智能和機器學習用途的文章有很多,但關于人工智能系統基礎——高質量的數據的文章則很少。以下介紹有助于確保企業的人工智能系統不會由于數據質量問題而受到阻礙的五個規則。
規則1.少即是多
有些企業很難知道哪些數據對其業務重要,所以使用盡可能多的數據構建人工智能系統,人們會發現重要的見解隱藏在其中。但是,企業的人工智能系統采用大量無關或糟糕的數據,最終將面臨失敗。一篇名為《機器學習系統中隱藏的技術債務》的文章指出,未充分利用的數據、提供很少或沒有增量收益的數據,將使人工智能系統受到不利的影響,其后果有時是災難性的。剔除無關數據使人工智能系統更易于測試、運行、擴展和維護。
企業遇到的問題是——哪些數據子集是包含所有或幾乎所有信號的精簡數據集?這可能不容易確定。有一些數據科學技術可以確定特定數據功能的重要性,但它們不一定能說明全部情況。雖然有些數據可能非常重要,但僅限于某些情況。或者一些數據可能只有在與其他數據結合使用時才重要。弄清楚使用哪些數據以及要消除哪些數據是一個棘手但關鍵的步驟,在企業急于實現人工智能的過程中,這一步常常被忽略。
規則2.仔細尋找數據來源
在設計人工智能解決方案的原型或創建實驗時,數據通常有著不同的來源。數據集成和準備可能是臨時的,只要人工智能系統做好了準備,企業就可以利用適合其目的的所有自動化和控制來實現特定的流程工業實力。
在某些情況下,人工智能開發人員從更加簡單便捷的來源獲取數據,但這不一定是最好的來源。例如在一個案例中,開發了一個來自未經協調和處理的數據模型,其結果證明該模型與公布的財務數據完全不一致。對于概念證明,這樣的錯誤可能是可以接受的。但在實施之前,其數據應該來自支持良好的平臺,這些平臺需要具有控制能力強、可靠性和可用性高的特點。
通常情況下,必須將來自不同來源的數據匯集在一起,然后為采用人工智能的目的進行整合和組合。考慮這些組合來自不同系統的客戶數據、產品數據和交易數據。將這些數據放在一起進行建模是一個重要的步驟。這可能會以快速的方式進行實驗,但在實施之前,需要對流程進行適當的設計和測試。
然而在設計良好的人工智能系統之前,允許使用實驗人工智能系統的誘惑是強烈的,必須加以抵制。當然,只是定期使用的人工智能(例如用于月度報告)可能需要更少的數據,以便在業務運營中持續使用。人工智能的高風險使用(例如損失預測、信貸批準、欺詐檢測)比低風險使用(例如營銷活動、客戶細分、潛在客戶優先級)要求更嚴格。
規則3.確定數據良好的程度
在商業環境中,完美的數據是罕見的。因此,不可避免地存在需要修補數據中的漏洞、需要清理的數據中的錯誤或需要在使用前解決不一致的問題。
數據達到100%準確率的成本可能很高,有時甚至無法實現。但在某些情況下則要求完全準確,例如使用人工智能來預測貸款損失,那么其記錄貸款損失的歷史數據最好是100%完整的。但對于欺詐檢測模型來說,如果額外的2%的數據會阻礙模型的實施,那么達到98%的準確率就足夠了,這將為企業減少大量欺詐損失。對于市場營銷而言,85%的準確率已經足夠了。
企業需要決定數據質量良好的程度。但需記住的是,這是一把雙刃劍。建立在低質量數據上的人工智能系統最終在使用中變得不可靠,但也看到模型風險管理阻礙了人工智能模型的實施,因為數據質量問題影響人工智能的價值的情況令人擔憂。
每個用例都有所不同,在確定數據良好的過程中必須有一些步驟明確聲明數據質量級別。并且需要實施控制措施(例如數據質量指標),以證明已達到閾值或在低于某些最低質量標準時發出警告。
規則4.管理變化
更多的模型由于數據變更管理不善而失敗,而不是其他原因。數據中的某些意外變化或數據在某處中斷,將導致人工智能會產生不可靠的結果,有時甚至非常糟糕。
大多數企業都制定了數據變更管理流程。這一流程旨在傳達和分析數據更改的影響。但人工智能系統的應用讓這變得更加困難。人工智能和數據管理交織在一起;數據可以影響人工智能,人工智能也可以影響數據。在通常情況下,數據變更管理由企業首席數據官負責,人工智能變更管理由首席分析官負責,或者模型風險管理由首席風險官負責,而這些部門并沒有充分或有效地溝通。
數據變更管理和模型變更管理必須緊密聯系在一起。必須分析數據更改對人工智能的潛在影響,并且必須分析人工智能更改對其數據輸出的消費者的潛在影響。這兩者都不能孤立地進行管理。
還有兩種方法可以處理這個問題:一種選擇是將數據變更管理和模型變更管理合并在一起,但這對大多數企業來說難以做到。第二種選擇是制定正確的政策和程序,例如在實施之前分析數據更改對人工智能的潛在影響。
為此,必須有一個完整的人工智能注冊表,其中包括人工智能使用的數據信息(模型元數據)。否則幾乎不可能確定哪個人工智能受到數據更改的影響。同樣,模型風險應該是一個因素,與只影響低風險模型的數據更改相比,高風險模型將得到更嚴格的潛在影響分析。
規則5.建立警報系統
數據的質量問題可能并不明顯,而且數據流從表面上看似乎都在正常運行。如果沒有設計良好的警報系統,數據問題可能會被忽視。例如一家銀行的信用模型運行了數周時間,但在任何人意識到出現問題之前就已經丟失了關鍵數據。
即使是細微但出乎意料的數據變化也可能導致模型性能下降。更糟糕的是由于流程故障而突然丟失數據,這樣的事件很常見。
被忽視的數據問題比快速發現的數據問題造成的損害更大。例如,證券定價錯誤可以通過多個系統蔓延,并且持續的時間越長,修復起來就越困難,成本也越高。建立正確的警報系統,可以發現數據問題并采取行動,降低因數據處理中斷而導致人工智能系統故障的風險。
這需要采用正確的工具。現有的應用程序監控系統通常不足以監控數據流。它們甚至可能提供虛假的安全感,表明一切正常,而實際上企業的數據中存在重大漏洞或高度異常的情況。企業可以從簡單的數據質量指標開始,例如完整性檢查(是否獲得了所有數據?)和一致性檢查(是否與總賬或基礎貸款或存款系統等記錄系統相匹配?)。
當出現問題時,企業需要制定故障轉移計劃,例如在研究和糾正錯誤時暫時讓人工智能離線運行。
結語
數據是優秀人工智能系統的重要基礎。數據科學家通常不會獨自承擔上述所有任務。他們需要來自數據治理、數據工程和IT團隊的正確支持。采用正確的控制措施,可以幫助企業避免在人工智能系統由于無法預見或未被發現的數據問題而出現的嚴重錯誤。