CIO如何為AI優化數據管理
一項成功的AI計劃在很大程度上取決于底層數據的質量,IT領導者們正在提升他們的數據湖、數據倉庫和數據湖倉策略,以提供堅實的基礎。
優質數據對于任何IT計劃的成功都至關重要,對于AI項目來說更是如此。糟糕的數據總是會產生糟糕的結果,對于AI來說,風險尤其高,因為不良數據可能導致嚴重的財務損失、監管罰款和聲譽損害。如果數據質量高,能夠推動計劃成功,那么它可能會帶來顯著且可能改變游戲規則的戰略優勢。
“在AI的世界里,是‘垃圾進,垃圾出’”無線網絡半導體制造商Skyworks Solutions的副總裁兼CIO Satya Jayadev說,“任何好的AI系統的秘訣都在于你如何構建數據層,重要的是構建架構和基礎設施——理解數據來源、生成數據,并構建一個統一的數據平臺。”Jayadev說。
對于Jayadev和其他人來說,這意味著要加大對數據湖、數據倉庫或數據湖倉實現的投入,將其作為AI的單一真實來源,無論是傳統機器學習、GenAI還是自主式AI。
十多年前,當大數據開始嶄露頭角時,數據湖應運而生,以容納非結構化數據作為分析洞察的來源。數據湖倉(有時稱為查詢加速器)包含像數據湖一樣的非結構化數據,但增加了像數據倉庫一樣的結構層,以更快、更經濟地提供洞察。
CIO們正在采用這些和其他數據技術,以確保數據管道的穩健性,并達到實現AI戰略變革價值所需的數據質量水平。
更好的數據=更好的AI
那些已經采取措施更好地組織數據的企業更有可能具備數據成熟度,這是成功應用AI的公司的關鍵屬性。研究公司IDC將數據成熟度定義為使用先進的數據質量、目錄編制和元數據以及數據治理流程,該公司的首席數據官辦公室調查發現,具備數據成熟度的公司遠比其他組織更有可能在生產環境中部署GenAI解決方案。
“企業正在優先考慮數據質量,以提高數據工作者的工作效率,并增強AI生成結果的準確性和相關性。”IDC的數據智能和集成軟件服務副總裁Stewart Bond說。
此外,IDC的同一項研究還揭示,準備數據以產生最佳的AI結果對業務有顯著的底線效應,能夠帶來客戶保留率五倍的提升,以及在利潤、效率和收入方面的強勁增長。
對于Skyworks Solutions的Jayadev來說,使用Databricks技術構建的數據湖倉是數據質量工作的重點。
“數據湖倉在某種程度上就像摩天大樓的基礎,我們收集每一份數據,然后進行分類和分組,以構建銅質、銀質和金質的數據質量層,”這位副總裁兼CIO解釋道,“我們在數據湖倉中存儲了PB級的數據,每天還有TB級的數據從我們的工廠和其他來源流入。”
Gallo收獲經典數據
Jayadev和Skyworks Solutions并非孤例,葡萄酒和其他飲料巨頭Gallo已經實施了數據倉庫和數據湖倉,以從中獲取AI洞察,其CIO Robert Barrios說。該公司已經構建了一個SAP S/4HANA數據倉庫,該倉庫被劃分為消費者、財務和采購數據的獨立數據集市。此外,Gallo還為非SAP數據實施了一個AWS Redshift數據湖倉,并應用元數據來賦予其結構。
Gallo還在使用GenAI來通過識別與標準字符串的偏差并填補數據空白來提高數據質量,Barrios說。例如,當客戶數據條目的某個屬性超出正常范圍時,GenAI可以識別出正確的屬性,并替換錯誤的屬性。同樣的情況也適用于葡萄酒特性。例如,一款葡萄酒可能被描述為“spicy”(辛辣的),而接受的術語是“peppery”(胡椒味的)。因為GenAI理解上下文,所以它會將錯誤的術語更改為正確的術語。
對于GenAI,Gallo正在使用AWS Bedrock。通過Bedrock,Gallo可以與其自己的大型語言模型(LLM)合作,而不是公有LLM,以確保其數據不會被公開暴露。
Gallo的下一步是記錄公司如何做出決策,然后將這些信息提供給能夠自主做出決策的智能體,這是自主式AI的一種實現。“這與體育或房地產代理沒什么不同。你告訴智能體你想要什么,智能體就會為你找到它。”Barrios說。
制藥數據在湖倉中找到歸宿
Servier Pharmaceuticals將其數據集中存儲在Google Cloud Platform(GCP)Big Query數據湖倉中,該湖倉為從研發到產品團隊再到企業公關的六個企業IT組合提供了一個共同的數據平臺,每個組合都在一定程度上實施了AI。根據Servier Pharmaceuticals的CIO Mark Yunger的說法,該湖倉及其元數據標簽還帶來了打破數據孤島的額外好處,否則這些數據孤島會將不同團隊使用的數據分隔開來。
“我們圍繞所有這些分散的數據創建了一個合理的分類法和數據命名法,以便我們可以將其用于AI算法,確保我們輸入的是優質數據,這有助于確保我們的輸出是正確的。”Yunger說,并補充說AI分析對于銷售和營銷分析以及洞察特別有益。
在制藥行業,專利極其重要,這意味著Servier必須謹慎保護自己的專利,同時防止侵犯其他公司的專利。
“我們必須注意我們放入公共數據集中的內容。”Yunger說。考慮到這一謹慎態度,Servier已經在Microsoft Azure上構建了一個私有版本的ChatGPT,以確保團隊在受益于AI工具的同時保護專有信息并保持機密性。Yunger說,GenAI的實施用于加速內部文檔和電子郵件的創建。
此外,在制藥試驗中可能出現的個人數據必須得到極其謹慎的處理,以遵守禁止組織在未經個人同意的情況下主動監控個人的歐盟AI法案。
“風險很高。‘如果存在合規問題,那可能會導致巨額罰款。你必須確保遵守規則。”Yunger說。
AES從源頭獲取能源數據
專注于可持續能源的發電公司AES已經構建了CEDAR,這是一個在GCP中為AI構建的數據平臺,用于聚合和管理其清潔能源站點的運營數據,AES的首席數字官Alejandro Reyes說。
“CEDAR在數據收集和定義方面創造了和諧。它使我們的整個產品線數據保持一致。”Reyes說。他解釋說,CEDAR使用Atlan(一個數據目錄編制工具)和Qualytics(一個基于機器學習的數據質量工具)將標準應用于數據,以便它可以作為AI的單一來源,無論是由財務、工程、維護還是其他企業部門使用。
AES的Farseer(該平臺為公司贏得了2024年CIO 100獎)是一個基于AI的平臺,它利用CEDAR的數據使AES能夠了解市場需求、預期天氣條件、能源容量和預期收入,這些信息使AES能夠決定在市場上投放多少能源以及如何定價,Reyes解釋說。此外,AES正在使用Google Gemini和Microsoft Copilot,并正在探索自主式AI以處理后臺流程。
一切皆以數據為基礎
雖然數據倉庫、湖和湖倉遠非新事物,但AI推動從業務中獲取價值的努力正在為它們帶來顯著的關注——這要求具備頂級的數據治理能力。
“AI不是傳統的IT,而是一種變革性工具——每個人都想使用它。挑戰在于建立治理,以便我們可以為業務開放數據和AI平臺,以構建其所有用例。”Skyworks Solutions的Jayadev說。
根據Servier的Yunger的說法,僅僅希望如此并不會使它成為現實——需要熟練的IT專業人員。在他開始數據治理項目的18個月里,Yunger說,填補人才差距是他面臨的最大障礙。“這是一個結合了人才——能力和技能集——以及流程的問題。你需要找到合適的人才來幫助推動和加速這些步驟。”他說。
為了實現他所說的“可持續AI”,AES的Reyes建議需要達成一種微妙的平衡:實施數據治理,但要以一種不會擾亂工作模式的方式進行。他建議確保公司的每個人都理解數據必須被視為一種有價值的資產:在AI的高風險下,有充分的理由必須準確地對數據進行分類和管理。
Gallo的Barrios強化了單一、強大的數據基礎的理念。“如果你有一堆不同的基礎,它可能會變成一座紙牌屋。”他說,但僅僅有基礎是不夠的,讓業務部門參與進來是至關重要的,Barrios斷言道。
“與業務部門合作,確保他們擁有能夠顯示你工作進展的指標,”他建議道,“你可以擁有最好的數據湖倉,但人們必須使用它。”