確保貴企業的數據為生成式AI做好準備的七個方法
譯文譯者 | 布加迪
審校 | 重樓
大家都想利用生成式AI和大語言模型的力量,但這里有一個難題。讓AI滿足很高的期望需要高質量的實用數據,這正是許多組織的不足之處。
麥肯錫最近一份由Joe Caserta和Kayvaun Rowshankish共同撰寫的報告指出,許多組織要求用生成式AI做點什么。然而,這種壓力伴隨著其他問題:如果貴企業的數據還沒有為生成式AI做好準備,貴企業也就沒有為生成式AI做好準備。
報告作者建議,IT和數據管理員需要對生成式AI的數據含義有一個清晰的認識。數據可能通過應用編程接口或企業自己的模型借助原先存在的服務來使用,這不僅需要更大筆的投入,還需要復雜的數據標記和標注策略。
Caserta及其團隊認為,也許最具挑戰性的是生成式AI處理非結構化數據的能力,比如聊天、視頻和代碼。數據型組織歷來只能處理結構化數據,比如表中的數據。
這種數據方面的轉變意味著組織需要重新考慮支持生成式AI項目的整體數據架構。雖然這聽起來像是舊新聞,但以前企業可以逃避的系統漏洞將成為生成式AI的大問題。如果沒有強大的數據基礎,生成式AI的許多優點根本不可能實現。
在整個行業,越來越多的領導者對企業處理可以應對生成式AI等新興挑戰所需的大量流入數據的能力表示了擔憂。Faction Inc.的技術和運營副總裁Jeff Heller表示:“在不斷創新和技術進步的推動下,數字化轉型意味著組織的運作方式要有所轉變。”
此外,AI并不是促使企業需要更有效、響應更迅即的數據架構的唯一因素。Interzoid創始人兼首席執行官Bob Brauer表示:“客戶將繼續期待量身定制的服務和溝通,這當然在很大程度上依賴準確的數據。”
傳達出來的訊息很明確——企業是制定戰略并采用先進技術的時候了,以確保數據仍然是寶貴的資產,而不是沉重的負擔。
專家們建議,為了讓數據為快速崛起的AI時代做好準備,需要考慮以下幾個因素:
1. 制定數據治理策略:有了合適的優先事項、員工、治理、工具和管理層要求,企業可以將數據質量挑戰由負擔變為重大的競爭優勢。為了讓AI及其他計劃背后的數據獲得組織支持,一個步驟可能是創建一個工作組,以研究如何運用生成式AI的新興創新、大語言模型及基于AI的其他新技術以獲得競爭優勢。
2. 制定數據存儲策略:找到一個存放所有數據的地方,并使數據能夠易于發現和訪問,這是一項必要的工作。昆騰首席開發官Brian Pawlowski表示,最近的行業調查發現,一半以上(60%)的存儲數據處于非活躍狀態,這意味著這些數據很少或從未被訪問過。即便如此,企業也不想丟棄這些數據,因為它們明白,這些數據可能會在未來幾年提供寶貴的解決方案和商業價值,尤其是在生成式AI廣泛應用的情況下。這個難題需要重新評估現有能力,以建立現代化、自動化的存儲架構,以便人們能夠在整個生命周期內輕松訪問和處理活躍數據和非活躍數據。
3. 確保擁有數據質量策略:準備好數據架構以處理AI帶來的新需求,需要從確保很高的數據質量成為戰略優先事項入手。一個好的開端是任命首席數據官或類似職位,專門為數據質量項目提供預算和資源。
4. 確保評估進度:領導力優先事項應該包括面向整個企業的數據評估,并制定衡量成功的指標和目標。
5. 確保擁有處理非結構化數據的能力:與傳統的機器學習模型相比,生成式AI模型方面的數據質量問題變得更明顯,因為有太多的數據,而且其中大部分是非結構化數據,因而很難使用現有的跟蹤工具。將來,非結構化數據約占所生成的數據總量的90%,未來五年全球存儲容量的年復合增長率將達到25%。這些非結構化數據存儲在文件和對象中:高分辨率視頻和圖像、復雜的醫療數據、基因組測序、機器學習模型的輸入、捕獲的有關自然界的科學數據(如繪制油氣田地圖)以及現實模擬,包括特效、動畫和增強現實。組織部署解決方案,以自動化方式管理數據的生命周期,并利用AI等尖端技術幫助提取更高的商業價值,這一點至關重要。
6. 將支持廣泛用例的功能融入到數據架構中:將相關的功能(比如矢量數據庫和數據預處理及后處理管道)融入到現有的數據架構中,特別是支持非結構化數據方面的功能。
7. 利用AI幫助構建AI:使用生成式AI幫助您管理自己的數據。生成式AI可以加快現有任務,并改善整條數據價值鏈上從數據工程到數據治理和數據分析的各種任務處理方式。
原文標題:7 ways to make sure your data is ready for generative AI,作者:Joe McKendrick