2021年超酷的 10 個大數據工具!你知道幾個?
管理不斷增長的數據量仍然是企業和組織面臨的挑戰。這里有 10 個很酷的大數據管理工具和平臺,引起了我們的注意。
大數據管理的大挑戰
全球 COVID-19 大流行并沒有減緩數據的指數增長:IDC 最近計算出,2020 年全球創建、消費和存儲了 64.2 澤字節的數據。市場研究人員預測,全球數據創建和復制將經歷 23% 2020 年至 2025 年的復合年增長率。
好消息是創新的 IT 供應商,無論是老牌公司還是初創公司,都在繼續為一系列數據管理任務開發下一代平臺和工具,包括數據操作、數據集成、數據準備、數據科學、數據治理、數據發現和數據沿襲跟蹤。
以下是一些很酷的大數據管理工具,它們在 2021 年年中引起了我們的注意。
Airbyte
早期創業公司 Airbyte(成立于 2020 年 1 月)開發了一個開源數據集成平臺,用于將來自不同來源的數據復制和整合到數據庫、數據倉庫和數據湖中。組織可以使用該平臺在數據源之間構建管道,包括 Salesforce 和 Facebook Ads 等運營應用程序,以及 Snowflake 和 AWS Redshift 等云數據倉庫。
雖然 Airbyte 正在與眾多成熟的 ETL(提取、轉換和加載)工具供應商競爭,但該公司鼓吹其軟件的簡單性,并堅持認為即使是非技術業務分析師也可以使用它來復制數據。這家初創公司的開源方法創造了一個活躍的用戶社區,該社區正在為該平臺快速開發其他連接器。
今年 1 月至 5 月期間,Airbyte 的客戶群增長了八倍,達到 2,000 多個。這家總部位于舊金山的公司于 5 月在 A 輪融資中籌集了 2600 萬美元。
Alation Cloud Service
Alation 已將其原始數據目錄軟件擴展為用于一系列企業數據智能任務的平臺,包括數據搜索和發現、數據治理、數據管理、分析和數字轉換。
4 月,該公司通過其新的 Alation 云服務將這些功能擴展到云,這是一個基于云的綜合數據智能平臺,可以通過云原生連接器連接到云中或本地的任何數據源。
該公司總部位于加利福尼亞州雷德伍德城,該公司表示,新的云產品及其持續集成和部署選項提供了一種簡單的方法,可以在組織的混合架構中推動數據智能,同時降低維護和管理開銷并縮短交付時間。價值。
AtScale CloudStart
AtScale 的旗艦產品智能數據虛擬化平臺使用語義層技術為分布式數據提供基于云的 OLAP(在線分析處理)分析——無論它位于何處。
這家總部位于波士頓的公司于 5 月推出的全新 AtScale CloudStart 通過將 AtScale 的語義層與云數據管理系統(包括 Snowflake、Microsoft Azure Synapse SQL、Google BigQuery、Amazon Redshift 和 DataBricks)集成,提供了一種在云數據平臺上構建分析基礎設施的方法。
CloudStart 可以更輕松地將 Tableau、Power BI 和 Looker 等業務分析工具連接到多個云數據源。
CockroachDB 21.1
位于紐約的 Cockroach Labs 開發了 CockroachDB,這是一種云原生分布式 SQL 數據庫,旨在處理具有大量事務數據的工作負載。
Cockroach 在 5 月推出了 CockroachDB 21.1,使用單一數據庫將數據關聯到世界任何地方的特定位置變得更加簡單——這是一項重大挑戰,因為越來越多的國家和地區要求將數據保留在其境內。
新的數據庫版本提供了獨特的架構和內置功能,可使用少量 SQL 語句管理世界任何地方數據的地理位置——無需架構更改或手動分片——為用戶提供近乎即時的數據訪問,同時確保本地合規性。
該版本通過將數據放置在靠近最終用戶的物理位置來最大限度地減少事務延遲,通過使用在區域或云故障中幸存下來的冗余來消除中斷,并支持本地數據隱私要求。
Databricks Delta Sharing
Databricks 在 5 月份啟動了 Delta Sharing 計劃,旨在創建一個開源數據共享協議,用于跨組織實時安全地共享數據,獨立于數據所在的平臺。
Delta 共享包含在開源 Delta Lake 1.0 項目中,它建立了一個通用標準,用于共享所有數據類型(結構化和非結構化),其開放協議可用于 SQL、可視化分析工具和編程語言(如 Python 和R. 大規模數據集也可以實時共享 Apache Parquet 和 Delta Lake 格式,無需復制。
據 Databricks 稱,Delta Sharing 計劃已經吸引了包括納斯達克、標準普爾和 Factset 在內的許多數據提供商以及包括亞馬遜網絡服務、微軟和谷歌云在內的領先 IT 供應商的支持。
Delta Sharing 是 Databricks 的最新開源計劃,Databricks 是最受關注的大數據初創公司之一。由 Apache Spark 分析引擎的開發人員創立,總部位于舊金山的 Databricks 銷售其旗艦統一數據分析平臺 Databricks Lakehouse 平臺。
Dremio Dart Initiative
6 月,數據湖引擎開發商 Dremio 推出了 Dremio Dart 計劃,這家總部位于加利福尼亞州圣克拉拉的公司大膽宣稱這是“在淘汰云數據倉庫方面向前邁出的重要一步”。
Dremio 的軟件提供了一種直接分析數據湖(大量無組織數據存儲)中的數據的方法,而無需將數據復制并移動到數據倉庫系統中。Dart Initiative 通過使直接在數據湖上運行所有關鍵任務 SQL 工作負載成為可能,將其提升到一個新的水平。
最初的 Dart Initiative 功能內置于最新的 Dremio 版本中,包括更快的查詢執行和優化查詢計劃、增強的查詢加速自動化管理、對更廣泛的 SQL 工作負載的支持以及改進的分布式和實時元數據管理以支持更大的數據集。
Nexla Nexsets
Nexla 開發了一個統一的數據操作平臺——公司稱之為“融合數據結構”——用于在整個組織中創建可擴展、可重復和可預測的數據流。該軟件用于集成、自動化和監控數據用例的傳入和傳出數據,包括數據科學和業務分析。
Nexsets 是 Nexla 最新加入其技術組合的產品,可自動執行耗時的手動數據工程任務,從而更輕松地訪問、集成和轉換可能分散在不同系統中的數據。Nexsets 無需復制或復制數據即可創建數據的邏輯視圖,為業務用戶提供對精選數據視圖的訪問權限,他們可用于創建報告和儀表板、將數據移動到應用程序或將數據存儲在云中。
Octopai Data Lineage XD
Octopai 總部位于以色列特拉維夫,開發自動化元數據管理和分析的軟件工具,幫助組織定位和理解他們的數據,以改進運營、數據質量和數據治理。
Octopai 于 5 月 10 日推出了 Data Lineage XD,這是一個先進的多維數據血緣平臺,該公司表示將數據血緣提升到一個新的水平。Data Lineage XD 使用可視化表示來顯示從源到目的地的數據流,讓用戶更全面地了解數據來源、發生的事情以及數據在數據環境中的分布位置。
此類功能用于跟蹤數據錯誤、實施流程變更、管理系統遷移和提高業務分析效率。
Splunk Observability Cloud and Splunk Security Cloud
Splunk 一直在擴展其產品組合,以利用其“數據到一切”Splunk Enterprise 和 Splunk Cloud 平臺的功能在可搜索存儲庫中捕獲、索引和關聯機器數據。
IT 系統和應用程序監控是 Splunk 平臺最常見的用途之一。Splunk 總部位于舊金山,通過為 IT 和 DevOps 團隊開發 Splunk Observability Cloud,這是一個 Splunk 軟件包,包括 Splunk Log Observer、Splunk Real User Monitoring、Splunk Infrastructure Monitoring、Splunk APM 和 Splunk On-Call .
面向 IT 和 DevOps 團隊的 Observability Cloud 于 2020 年 10 月首次推出測試版,并于 5 月全面上市。
用于網絡安全任務的系統監控和數據收集是 Splunk 平臺的另一個主要應用。6 月,Splunk 推出了 Splunk Security Cloud,這是一個以數據為中心的安全運營平臺,利用其“數據到一切”技術提供高級安全分析、自動化安全運營和集成威脅情報功能。
YugabyteDB
Yugabyte 位于加利福尼亞州桑尼維爾,是新一代數據庫開發商之一,提供旨在超越和超越傳統數據庫系統的技術。YugabyteDB 是一個高性能的分布式 SQL 數據庫,用于構建全球互聯網規模的應用程序。
5 月,Yugabyte 發布了 YugabyteDB 2.7,其中包含一套全面的部署選項,適用于希望使用 Red Hat OpenShift 和 VMware Tanzu 等 Kubernetes 平臺跨混合云環境擴展分布式 SQL 的組織。
該公司表示,YugabyteDB 對公共和云原生環境的支持使企業和組織能夠貫徹其戰略 Kubernetes、分布式 SQL 和微服務計劃,同時避免云鎖定。
YugabyteDB 2.7 版本可以回滾意外更改并將數據庫恢復到更早的時間點。它還支持表空間,以細粒度控制跨區域和可用區的數據分布。