?譯者 | 崔皓
審校 | 孫淑娟
開篇
當今社會,人工智能的發展成為全球企業和政府關注的重點。然而,與人工智能息息相關的另一個問題卻被忽視:數據質量差。
人工智能算法依賴可靠的數據來產生最佳結果——如果數據有偏差、不完整、不充分、甚至是不準確,會導致毀滅性的后果。
識別患者疾病的人工智能系統便是一個很好的例子,由于數據質量不高而導致不良后果。當數據不足時,這些系統會產生錯誤的診斷和不準確的預測,從而導致誤診和延誤治療。例如,劍橋大學對用于診斷 Covid-19 的 400 多種工具進行的一項研究發現,由于使用了缺陷數據集導致 AI 生成的報告完全無法使用。
換句話說,如果數據不夠好,AI 計劃將對現實世界產生毀滅性的后果。
“足夠好”的數據意味著什么?
關于什么是“足夠好”的數據,人們一直存在巨大的爭論。有人說不存在足夠好的數據。另外一些人表示“太好”的數據會導致分析癱瘓(譯者:應該是指過擬合)——而 HBR 則直截了當地指出,如果糟糕的信息會導致機器學習工具無法工作。
在 WinPure,將足夠好的數據定義為“完整、準確、有效,可以放心地用于具有風險的業務流程中,數據水平取決于個人目標和業務環境。”
大多數公司在數據質量和治理方面飽受折磨,盡管他們都不會承認。這種折磨不斷增加項目的緊張感,讓他們不堪重負,可以想象他們正在承受著部署人工智能計劃以保持競爭優勢的巨大壓力。可悲的是,像臟數據這類問題都不可能成為董事會討論的議題,直到它導致項目失敗時才有人會關注。
糟糕的數據如何影響人工智能系統?
當算法以訓練數據為基礎來學習時,數據質量問題出現在流程的開始階段。例如,如果向 AI 算法提供未經過濾的社交媒體數據,它會抽取濫用、種族主義評論和厭惡女性的言論,如 Microsoft 的 AI 機器人所表現的那樣。最近,人工智能無法檢測深色皮膚的人也被認為是訓練數據問題導致的。
這與數據質量有何關系?
缺乏數據治理、數據質量意識淡薄和孤立的數據視圖才是數據質量不佳的罪魁禍首。
該怎么辦?
當企業意識到數據質量出現問題時,他們會對招聘感到恐慌。通過盲目聘請顧問、工程師和分析師來診斷、清理數據,希望盡快解決問題。不幸的是,幾個月過去了,盡管花費了數百萬美元,但問題似乎并沒有消失。對數據質量問題采取下意識的方法幾乎沒有幫助。
真正的改變從基層開始。
如果您希望您的 AI/ML 項目朝著正確的方向發展,請采取以下三個關鍵步驟。
認識并承認數據質量問題
首先,通過建立數據素養文化來評估數據質量。Bill Schmarzo 是這方面的有力代言人,他建議使用設計思維來創建一種文化,讓每個人都能理解并為組織的數據目標和挑戰做出貢獻。
在當今的業務環境中,數據和數據質量不再是 IT 或數據團隊的唯一責任。業務用戶必須意識到臟數據問題以及不一致和重復的數據等問題。
因此,首先要讓數據質量培訓成為受到重視的組織工作,并使團隊能夠識別不良數據屬性。
通過下面的清單,您可以使用它來跟蹤數據質量。
數據健康檢查表
- 如何捕獲、存儲和管理數據?
- 有多少數據源連接到您的中央數據庫,數據的傳播情況如何?
- 您的數據管理得如何?您是否實施了數據治理標準?有多少數據是結構化、半結構化或非結構化的?
- 與自動化數據管理相比,您在手動修復數據上花費了多少?在訪問和處理數據時,您的團隊如何相互協調?IT和業務用戶之間是否經常發生內部沖突?
- 您的數據質量狀況如何?您的數據是否及時、完整、準確、獨特并遵循標準化規則?
制定滿足質量指標的計劃
關于數據質量問題,企業經常犯錯誤。例如聘請數據分析師來完成日常的數據清理任務,而不是專注于計劃和戰略工作。一些企業在沒有計劃的情況下使用數據管理工具來清理、重復數據刪除、合并和清除數據。不幸的是,工具和人才不能孤立地解決問題。滿足數據質量維度的策略才是解決問題的根本。
該策略必須解決數據收集、標記、處理以及數與AI/ML 項目匹配的問題。例如,如果人工智能招聘計劃只選擇男性候選人擔任技術職位,那么該項目的培訓數據顯然是有偏見的、不完整的(沒有收集足夠的女性候選人數據)和不準確的。因此,這些數據不符合人工智能項目的真正目的。
對數據質量的要求已經超出了清理和修復數據的日常任務。所以,需要在開始項目之前設置數據完整性和治理標準。它使項目免于陷入失敗的境地!
提出正確的問題并設置問責制度
對于“足夠好的數據或數據質量水平”沒有通用標準。相反,這一切都取決于企業的信息管理系統、數據治理指南,以及團隊和業務目標的知識,甚至許多其他因素。
不過在啟動項目之前,有幾個問題要問團隊:
- 我們信息的來源是什么,數據收集的方法是什么?
- 哪些問題會影響數據收集過程并威脅積極成果?
- 數據傳遞什么信息?它是否符合數據質量標準(即信息準確、完全可靠和恒定)?
- 指定人員是否意識到數據質量和低質量的重要性?
- 是否定義了角色和職責?例如,誰需要維護定期數據清理計劃?誰負責創建主記錄?
- 數據是否符合目的?
提出正確的問題、分配正確的角色、實施數據質量標準并幫助團隊在問題出現之前應對挑戰!
總結
數據質量不僅僅是修復錯別字或錯誤那么簡單。它確保人工智能系統沒有歧視性、誤導性或不準確性。在啟動 AI 項目之前,有必要解決數據中的缺陷從而應對數據質量的挑戰。此外,啟動組織范圍內的數據素養計劃,將每個團隊與總體目標聯系起來。
譯者介紹
崔皓,51CTO社區編輯,資深架構師,擁有18年的軟件開發和架構經驗,10年分布式架構經驗。
原文標題:??Is Your Data Good Enough for Your Machine Learning/AI Plans???,作者:Farah Kim?