現代數據堆棧需要徹底改革
組織需要仔細審視其整個數據堆棧,并確定所有解決方案是否都提供功能、效率和準確性,或者是否有空間整合為單一的可定制系統。
現代數據堆棧已崩潰。從全球范圍來看,平均每個組織使用130種不同的軟件應用程序。由于有如此多的技術可用,數據管理很快就會變得復雜。內部構建數據管理工具可能成本高昂且耗時,并使組織偏離其最初的使命。外包通常更容易,但隨著組織規(guī)模的擴大,其數據也在不斷擴大。企業(yè)領導者突然發(fā)現自己擁有大量軟件解決方案,解決了數據管理的不同方面。但并非所有解決方案都能無縫協作。
數據管理專業(yè)人士是時候開始質疑現狀,并尋求不同的數據管理方法了。當今的組織需要一種可以輕松表示任何數據類型的通用數據結構,以及一套統一、一致的工具,以高效準確地與這些數據進行交互。
數據管理簡史
自20世紀60年代以來,數據管理一直是企業(yè)必不可少的一部分,盡管當時它是一項簡單得多的工作。最初的數據管理方法包括在大型機上運行的本地解決方案,在接下來的40年里,只有少數幾家主要參與者占據了市場,如Oracle、IBM 和 Microsoft。
到本世紀初,云端數據管理逐漸流行起來,同時也暴露出本地數據堆棧的缺點,包括維護成本上升、能夠訪問數據的用戶數量太少以及處理能力不足。在2000年代和2010年代,組織經歷了數據源的多樣化和數量快速增長,以及對數據進行更多管理、分析和組織的需求。
進入現代數據堆棧:如今,企業(yè)通常擁有多個基于云的數據庫和管理工具來容納不斷擴大的數據集。無論他們需要擴展、提高速度還是致力于提高數據支持的洞察力的質量,組織都可以訪問數百種解決方案來解決其想要的任何問題。隨著企業(yè)尋求更多解決方案來添加到其技術堆棧,2023年在數據即服務工具上的支出超過100 億美元。
為什么現代數據堆棧不再起作用
如今,世界正在進入數據管理的新時代。大型技術堆棧已不再有效——為了提高工作效率和數據質量而不斷增加堆棧的成本越來越高,也越來越復雜。
現代數據堆棧過于復雜,需要使用多種工具和平臺。從編目到治理再到訪問控制,每個季度都會有幾種“新”工具進入市場,這些工具都是重新發(fā)明輪子的工具。此外,堆棧中添加的每個新工具都會增加總擁有成本,包括更多的許可費用以及雇用或重新培訓數據工程師以使用每個新解決方案。
堆棧中的每個新添加都旨在使一切模塊化,但這導致了一個脫節(jié)的系統,進一步使數據孤島化。結果,數據科學家、分析師和產品所有者之間的合作受到抑制。他們通常不在同一個平臺上工作,團隊之間也有不同的流程,交接缺乏背景,溝通急轉直下。如今,龐大的數據工程師和專業(yè)人員組織正在監(jiān)督企業(yè)組織中的數據計劃,但這些計劃需要數月時間,業(yè)務用戶和決策者并沒有看到所承諾的影響或突破性見解的速度。
此外,還有安全和治理問題。隨著設備的增多,團隊和孤島之間的數據傳輸也越來越多。幾乎不可能知道誰有權訪問不同的數據集,以及是否應該訪問。
過去幾年,人工智能 (AI)、機器學習 (ML) 以及生成式人工智能和大型語言模型 (LLM) 的進步不斷涌現,這些模型依賴于大量所謂的非結構化數據集,例如文本、文件和圖像。遺憾的是,傳統的數據架構并非為處理LLM、AI和ML而設計的,因此需要投資于專業(yè)的多模式數據管理解決方案,而這些解決方案不僅僅局限于簡單的表格和表格數據庫。
表格無法提供正確構建非傳統數據所需的靈活性,如圖像和ML嵌入。然而,一個意想不到的結果是,組織紛紛采用定制解決方案——一種用于圖像,另一種用于矢量,這樣的例子不勝枚舉。他們會為狹隘的性能基準和優(yōu)化而沾沾自喜,但卻忽視了組織中還有另一個數據孤島,而增加的復雜性現在才是真正的阻礙。
隨著時間的推移,更多的解決方案被添加到堆棧中,分別解決特定問題,進一步孤立數據,需要更多管理監(jiān)督,以及額外的治理和合規(guī)執(zhí)行。除了構建和維護內部基礎設施的巨額成本外,招聘和留住人才本身也是一項挑戰(zhàn)。
數據庫供應商是時候重新想象數據庫系統的構建方式,并努力按照戰(zhàn)略意圖進行構建了。
解決方案:統一的數據模型
修復現代數據堆棧的解決方案有兩個方面:采用靈活、統一的數據模型來應對當今架構的挑戰(zhàn),以及在單一解決方案中統一所有數據、計算和代碼平臺的單一平臺。
可以圍繞多維數組構建一個可行的統一數據模型,這可以為組織提供一個單一系統來容納所有數據,并只需一次即可集成首選分類、資源配置、治理等,而無需考慮用例。
其次,需要統一的數據平臺。例如,為了避免重建用于編碼和存儲數據的單獨基礎設施,組織有機會使用相同的系統進行編碼和存儲,這也將重復使用相同的治理和合規(guī)模型。最終,這種合并將帶來成本效益和更高的性能,因為工程師不必再為將相同的數據復制和預處理到多個系統中而陷入困境。
在2024年及以后,組織需要認真審視其整個數據堆棧,并確定所有這些解決方案是否都提供了功能、效率和準確性,或者是否有空間整合成一個可定制的單一系統。然而,這個問題不應該落在終端用戶的肩上,而應該落在有能力為客戶創(chuàng)建統一解決方案的軟件供應商的肩上。
對于希望削減成本、提高生產力和簡化運營的組織來說,數據基礎設施不必太復雜,而且現有的數據管理解決方案可以讓工作變得更輕松。