2022 年下半年數據和人工智能技術預測
根據我們在 2022 年到目前為止的情況,Datanami 有信心在今年余下的時間里做出這五個預測。
數據可觀察性繼續運行
今年上半年對于數據可觀察性來說意義重大,這讓客戶可以更好地了解數據流的情況并制定相關指標。隨著數據對于決策制定變得越來越重要,該數據的健康和可用性也變得越來越重要。
我們看到許多數據可觀察性初創公司獲得了數億美元的風險投資,其中包括Cribl(價值 1.5 億美元的 D 輪融資);蒙特卡洛(D 系列價值 1.35 億美元);Coralogix(D 系列價值 1.42 億美元);和別的。其他制造新聞的公司包括推出元數據指標的Bigeye;StreamSets,被Software AG以 5.8 億美元收購;IBM上個月收購了可觀察性初創公司 Databand 。
這種勢頭將在 2022 年下半年繼續,因為越來越多的數據可觀察性初創公司走出困境,現有的初創公司尋求鞏固其在這個新興市場中的地位。
實時數據彈出
實時數據多年來一直處于次要地位,服務于一些小眾用例,但實際上并未在常規企業中得到廣泛使用。但是,由于過去幾年的新冠疫情和相關的商業計劃重組,實時數據進入主流科技圈的條件現在已經成熟。
“我認為流媒體終于發生了,” Databricks首席執行官 Ali Ghodsi 在最近的 Data + AI 峰會上表示,并指出該公司基于云的數據平臺上的流媒體工作負載增長了 2.5 倍。“他們有越來越多的 AI 用例需要實時。”
內存數據庫和內存數據網格也準備從實時復興中受益(如果是這樣的話)。RocksDB是一個快速分析數據庫,它增強了 Kafka 等基于事件的系統,現在有一個名為 Speedb 的替代品。SingleStore在一個單一的關系框架中結合了 OLTP 和 OLAP 功能,在上個月的一輪融資中達到了 13 億美元的估值。
還有StarRocks ,它最近獲得了基于 Apache Doris的快速新 OLAP 數據庫的資助;Imply于 5 月完成了 1 億美元的 D 輪融資,以繼續其基于 Apache Druid 的實時分析業務;DataStax將 Apache Pulsar 添加到其 Apache Cassandra 工具包中,籌集了 1.15 億美元用于推動實時應用程序開發。Datanami預計這種對實時數據分析的關注將繼續下去。
監管增長
GDPR生效已經四年了,讓大數據用戶受到關注,并加速了數據治理作為負責任數據計劃的必要組成部分的興起。在美國,監管數據訪問的任務已經落到各州身上,加利福尼亞州在 CCPA 方面處于領先地位,它在許多方面模仿了 GPDR。但更多的州可能會效仿,這使美國公司的數據隱私等式變得復雜。
但 GDPR 和 CCPA 只是法規的開始。我們也處于第三方 cookie 的消亡之中,這使得公司更難跟蹤用戶的在線行為。谷歌決定將其平臺上第三方 cookie 的終止時間推遲到 2023 年 1 月 1 日,這給了營銷人員一些額外的時間來適應,但來自 cookie 的信息將難以復制。
除了數據法規之外,我們還處于關于使用人工智能的新法規的風口浪尖。歐盟于 2021 年推出了人工智能法案,專家預測它可能會在 2022 年底或 2023 年初成為法律。
數據表格式之戰
一場經典的技術大戰正在形成新的數據表格式,這將決定數據如何存儲在大數據系統中,誰可以訪問它,以及用戶可以用它做什么。
最近幾個月, Apache Iceberg作為數據表格式的潛在新標準獲得了熱潮。云數據倉庫巨頭Snowflake和AWS今年年初出來支持 Iceberg,后者提供交易和其他數據控制,并從 Netflix 和 Apple 的工作中脫穎而出。前 Hadoop 分銷商Cloudera在 6 月份也支持了 Iceberg。
但是 Databricks 的人們提供了 Delta Lake 表格式的替代方案,它提供了與 Iceberg 類似的功能。Apache Spark 支持者最初以專有方式開發了 Delta Lake 表格式,這導致指責 Databricks 為客戶設置鎖定。但在 6 月的數據 + AI 峰會上,該公司宣布將把整個格式都開源,從而讓任何人都可以使用它。
在洗牌中迷失的是Apache Hudi,它還提供了數據的一致性,因為它位于大數據存儲庫中并且可以被各種計算引擎訪問。Onehouse是一家由 Apache Hudi 的創建者支持的企業,今年早些時候推出了一個基于 Hudi 的 Lakehouse 平臺。
大數據生態系統喜歡競爭,因此在 2022 年剩余時間里觀察這些格式的演變和競爭將會很有趣。
語言 AI 繼續令人驚嘆
人工智能的前沿逐月變得越來越鋒利,而今天,人工智能的矛頭是大語言模型,它越來越好。事實上,大型語言模型已經變得如此出色,以至于 6 月份的一位Google工程師聲稱該公司的 LaMDA 會話系統已經變得有感知力。
人工智能還沒有感知能力,但這并不意味著它們對企業沒有用處。提醒我們,Salesforce有一個名為 CodeGen 的大型語言模型 (LLM) 項目,該項目旨在理解源代碼,甚至以不同的編程語言生成自己的代碼。
上個月,Meta(Facebook 的母公司)推出了一個可以翻譯 200 種語言的大型語言模型。我們還看到了通過 BigScience 大型開放科學開放訪問多語言語言模型或BLOOM等項目使 AI 民主化的努力。