數據管理的重要性:CIO們面臨的AI部署挑戰
盡管至少六年前就已經發出警告,但根據一些數據管理供應商的說法,許多CIO未能收集和企業其企業不斷生成的大量數據。數據管理領域的IT領導者表示,在啟動AI項目之前,只有不到一半的企業有一個連貫的數據管理流程。Databricks和Astera Software的IT領導者均表示,只有大約20%的企業的數據策略足夠成熟,能夠充分利用大多數AI工具。Databricks是一家在成功AI項目中屢次出現的數據管理供應商,其AI副總裁Naveen Rao估計,一些小型AI項目可以基于有限的公司數據或外部數據工作,但許多成功的AI部署需要全面的內部數據。
“我們今天與客戶談論GenAI時,實際上很多是在設定什么是可能的,”他補充道,“如果他們的數據沒有整理好,他們就不會有預期的影響。”
啟動的壓力
與此同時,Astera Software的首席運營官Jay Mishra補充說,支持任何AI部署的數據策略不到一半的企業已經到位。一些企業對數據管理幾乎沒有概念,但仍在啟動AI項目。
“來自投資者和市場的壓力很大,要求進入AI領域,”他說,“他們開始做一些事情,花了幾個月后才意識到沒有達到預期的結果。”
如果IT基礎設施和計算能力是AI的引擎,那么數據就是燃料,戴爾科技的首席AI官Jeff Boudreau補充道。“即使是最復雜的AI應用也依賴于高質量的數據來運行,”他說,“數據是區別的關鍵。糟糕的數據等于糟糕的AI。”
Rao和Mishra的數據成熟度觀察在某些方面與Gartner最近的一項調查結果相符。接受調查的首席數據和分析官(CDAO)中有61%同意ChatGPT和其他技術市場的顛覆迫使他們發展或重新思考他們的數據和分析策略。
然而,78%的CDAO表示,他們的數據和分析策略在2023年發展到足以支持創新,然而,擁有CDAO或首席數據官角色的公司可能在數據管理方面領先一步。
常見的數據問題
數據管理挑戰主要集中在四個方面:
首先,數據存在于孤島中。營銷團隊的數據可能位于與工程團隊數據不同的位置,并且具有不同的訪問規則。
其次,大多數企業已經生成了大量數據,而且他們每天都在創建更多數據。如果沒有數據管理計劃和系統,舊數據會被埋在舊服務器的角落里,而新數據沒有被分類和企業。
數據不完整、不準確、不一致。
最后,大量數據是非結構化的,因此不容易企業。關鍵數據存在于每天發送和接收的數百封電子郵件中、電子表格中、PowerPoint演示文稿中、視頻中、圖片中、帶有圖表的報告中、文本文檔中、網頁中、采購訂單中、公用事業賬單中和PDF中。
文本文檔通常存儲在企業的多個位置,往往包含大量信息。Astera的Mishra說,一個重要的數據點可能埋在一份20頁文檔的第5頁的圖表上,或者在一份100頁的華爾街分析報告中。
“許多由常規應用程序或業務用戶生成的數據都保存在文檔中,而文檔仍然是最大的交流形式,”他說,“這些數據是自由流動的,并不集中在一個地方,這既是巨大的挑戰,也是巨大的機會。”
更多的數據不一定能產生更好的AI
Mishra補充說,關于公司持有的數據量的一個誤解是,向AI模型提供更多數據會產生更好的AI結果。雖然一些AI工具確實需要大量數據,但質量更為重要。
“未經整理的數據將成為錯誤結果的基礎,”他說,“數據的質量決定了一切。”
但AI用戶不應低估大型語言模型AI對數據的需求,cBEYONData(為美國政府機構提供專業服務的供應商)的CTO Bryan Eckle說。
“AI非常非常需要數據,”Eckle說,他為客戶評估AI工具。“數據需要準確、及時、快速,而且需要很多。”
除了數據管理的四大問題外,企業還面臨數據單一可信來源的挑戰,Eckle說。企業中流傳的五個版本的產品規范PDF哪個是正確的?你的客戶支持聊天機器人是否可以訪問所有五個版本?
關注質量和標準化
對于那些努力清理數據的企業,Dell的Boudreau建議關注數據管理流程和治理,包括隱私、標準化、質量和集成。
在企業開始清理和整理數據之前,Eckle建議他們首先考慮數據的目標。
“你可以先退一步,問問自己,‘我們想要回答什么樣的問題?’”他說,“然后,從那里出發,‘我們需要哪些基本數據元素來回答這些問題?’然后從那里,‘什么是可信來源?’”
Eckle補充說,在AI項目中,清理數據往往被忽略,因為它不是閃光點,但AI項目的一個巨大部分,80%或更多,是清理數據。
“這有點像苦差事,”他說,“這些項目的大部分時間都花在確保你有正確的訓練數據來輸入這些知道如何識別數據中存在的模式的機器學習模型中。”
AI用戶還必須認識到,清理數據不是一次性的項目,Eckle補充道。如果你在三年前整理了內部數據,那么你現在已經過時了,而且數據不僅來自內部用戶,大多數企業不斷從合作伙伴、供應商和其他來源接收數據。
“這是一段旅程,對吧?”他說,“你總是會引入額外的數據源,這些數據源可以提供見解,而且你總是會希望監控數據管道的健康狀況。”
小步前進
Mishra建議企業在推出AI項目時從小處著手,或許可以專注于一個業務部門的一個AI用例。企業一個業務部門的數據比整合整個企業的數太字節數據要容易得多。
“找到一種特定類型的數據,并在一次迭代中清理數據,”他說,“看看你整理的一個數據子集,然后在此基礎上開始你的AI工作。與引入所有數據相比,這不需要那么多的努力。”