2025年數據分析趨勢預測
世界涌現了各種數據庫及分析模式:數據湖、數據倉庫、內存分析和嵌入式分析。但開源編排平臺開發商Kestra的首席執行官兼聯合創始人Emmanuel Darras表示,到2025年,分析的標準將是數據湖屋(lakehouse)。
Darras說:“到2025年,由于成本節約和靈活性,預計超過一半的分析工作負載將在lakehouse架構上運行。”“目前,公司正在從云數據倉庫轉向lakehouse,這不僅是為了節省資金,也是為了簡化數據訪問模式,減少對重復數據存儲的需求。大型組織報告稱節省了50%以上,這對那些有巨大數據處理需求的組織來說是一個重大勝利。
數據湖屋的一大驅動力是開放數據格式的標準化。Confluent技術戰略組首席技術專家Adam Bellemare預測,這一趨勢將在2025年繼續發展。
Bellemare說:“明年,我們將看到開放數據格式的廣泛標準化,如Apache Iceberg、Delta Lake和Apache Hudi。”“這將是由對互操作性的更大需求推動的,企業希望跨不同平臺、合作伙伴和供應商無縫組合數據。隨著企業優先考慮訪問及時、高質量的數據,開放數據格式將不再是可選的,而是企業成功的必要條件。那些不接受這些開放標準的人有失去競爭優勢的風險,而采用這些標準的人將能夠提供高質量的產品和實時、跨平臺的數據洞察。”
lakehouse最大的兩個支持者是Snowflake和Rancher。但在2025年,人們將厭倦Snowflake和Databricks的戰爭,并尋求聯合IT來發展數據架構,Dremio的技術布道者、新罕布什爾州南部和大峽谷大學的數據和分析教授Andrew Madson說。
Madson說:“中央IT團隊將繼續將職責下放給業務部門,創建更多的聯合運營模式。”“與此同時,Snowflake和Databricks等主要供應商的單一架構將集成旨在提高成本效益和性能的其他工具,創建平衡創新和實用性的混合生態系統。”
多年來,數據建模一直處于相對模糊的狀態。Confluent的宣傳和開發人員體驗工程總監Adi Polak表示,到2025年,這種做法將迎來輝煌時刻。
Polak說:“數據建模長期以來一直是DBA(數據庫管理員)的領域,但隨著Apache Iceberg等開放表格式的日益普及,數據建模是更多工程師需要掌握的技能。”“對于應用程序開發,工程師越來越多地負責創建可重用的數據產品,支持實時和批處理工作負載,同時預測下游消費模式。“為了有效地構建這些數據產品,工程師必須了解如何使用數據,并在早期設計適合消費的正確結構或模型。這就是為什么數據建模將是工程師在未來一年掌握的一項基本技能。
2025年有一個話題是無法避免的:人工智能。Altair分析和物聯網高級副總裁Christian Buckner表示,人工智能的影響將無處不在,包括數據分析堆棧。
Buckner說:“如今,許多商業領袖都很難知道該向他們的數據提出什么問題,或者在哪里找到答案。”“人工智能代理正在通過自動提供見解和建議來改變這一現狀,而無需任何人詢問。這種自動化水平對于幫助組織解鎖其數據中的更深層次的理解和聯系,并使其能夠為業務優勢做出更具戰略性的決策至關重要。企業建立護欄來控制人工智能驅動的建議并保持對結果的信任非常重要。”
當你說“分析”時,它常常讓人聯想到有人啟動桌面BI工具來處理倉庫中的一部分數據,但如今時代變了。Sisense首席執行官Ariel Katz表示,2025年將導致傳統BI的消亡,在每個應用程序中,傳統BI將被API-first和GenAI集成分析所取代。
Katz表示:“到2025年,隨著API-first架構和GenAI將實時分析無縫嵌入每個應用程序,傳統的BI工具將變得過時。”“數據洞察將直接流入CRM、生產力平臺和客戶工具,使各級員工能夠立即做出數據驅動的決策,而不需要技術專長。接受這一轉變的公司將釋放前所未有的生產力和客戶體驗,使靜態儀表板和孤立的系統黯然失色。”
Amplitude的首席產品官Francois Ajenstat預測,到2025年,大數據運動將開啟一個新的篇章,迎來一個被稱為小數據的"親戚"。
Ajenstat說:“過去幾年數據量有所增加,但2025年將把重點從‘大數據’轉向‘小數據’。”“我們已經看到這種思維方式的轉變,大型語言模型會讓位于小型語言模型。組織意識到,他們不需要攜帶所有數據來解決問題或完成一項計劃,他們需要攜帶正確的數據。大量的數據,通常被稱為‘數據沼澤’,使得提取有意義的見解變得更加困難。通過專注于更有針對性、更高質量的數據或‘數據池’,組織可以確保數據的信任和準確性。這種向更小、更相關的數據的轉變將有助于加快分析時間,讓更多的人使用數據,并從數據投資中獲得更大的投資回報率。”
擁有高質量的數據總是很難。但DataPelago的首席執行官兼聯合創始人Rajan Goyal表示,到2025年,擁有高質量的數據將成為企業的當務之急。
Goyal說:“我們看到越來越多的報道稱,LLM提供商正在努力應對模型放緩,人工智能的擴展規律越來越受到質疑。”“隨著這一趨勢的持續,明年人們將普遍認識到,開發、訓練和微調更有效的人工智能模型的關鍵不再是更多的數據,而是更好的數據。特別是,與模型預期用例相一致的高質量上下文數據將是關鍵。除了模型開發人員之外,這一趨勢將使擁有大部分數據的最終客戶承擔更大的責任,使他們的數據管理架構現代化,以滿足當今的人工智能需求,從而有效地微調模型并推動檢索增強生成(RAG)工作負載。”
數據孤島就像蘑菇:它們在沒有任何人為輸入的情況下自然出現。但Hammerspace全球營銷高級副總裁Molly Presley表示,到2025年,企業若想取得成功,就需要應對數據孤島的增長。
Presley寫道:“到2025年,打破數據孤島將成為數據工程師和人工智能架構師的一個關鍵架構問題。聚合和統一跨組織的不同數據集的能力對于推動高級分析、人工智能和機器學習計劃至關重要。隨著數據源的數量和多樣性的不斷增長,克服這些孤島對于實現現代人工智能系統所需的整體見解和決策至關重要。”
管理用戶對數據的訪問有時感覺就像是同時處理所有地方的所有事情。Arcitecta首席執行官Jason Lohrey預測,到2025年,團隊將學習如何更有效地利用流數據等工具來提高自己的生產力,而不是對抗工人和數據的蔓延。
Lohrey說:“遠程工作和地理分布團隊的興起改變了企業的運營方式。”“實時數據流允許組織記錄事件并在全球范圍內共享實時饋送,使員工能夠在不需要親自在場的情況下就連續的數據流進行協作。隨著越來越多的公司采用促進無縫廣播和數據分發的工具,這一趨勢可能會在2025年加速。通過在分布式員工中實現實時協作,企業可以降低差旅成本,提高效率,并做出更快、更明智的決策。數據流技術的全球影響力將擴大,使組織能夠利用更廣泛的人才庫,并創建更動態、更靈活的運營結構。”