25個熱門新數據工具
"等等,工具X和工具Y是否一起工作? 我認為他們具有競爭力。"
當今快速發展的數據生態系統中有數十種新工具。 他們一起以令人興奮,高效且通常令人驚訝的方式重塑數據工作。 下十年的數據前景已經播下,并且正在瘋狂增長。
事實證明,培育一個新的生態系統很麻煩。
混亂
混亂的一個癥狀是,即使其中的一些工具不具競爭力,它們中的許多工具也被認為具有競爭力。
虛假競爭的感覺不足為奇,因為:
- 工具之間有很多重疊的功能。 部分原因是工具和產品需要"保留"基本功能-有時是在不是主要重點的領域;
- 增長軌跡和類別邊界仍然不確定;
- 甚至在給定的利基市場中,還沒有一種工具無處不在。
- 鼓勵企業家在推介風投和銷售產品時都講"大故事"。
因此,混亂是自然的。
這也很糟糕。 這對試圖集中精力的工具制造者不利,對試圖評估市場的投資者不利,尤其對于試圖利用優秀新工具選項來構建生產性數據堆棧的數據科學家和工程師尤其不利。
清晰的時間
這篇博客文章是Sarah Catanzaro(Amplify Partners的合伙人),Abe Gong(Superduct / Great Expectations的聯合創始人)和我本人(Data Council&Data Community Fund的創始人)之間的合作,旨在消除混亂和糾結。 它源于創業社區中厭倦了"等待,您不是競爭對手?"之類的人之間的對話。
我們已經遇到足夠多的問題來識別模式了。 我們已經看到了它們對采用和協作造成的不幸影響。 現在該采取措施了。
您的工具不能做什么?
為了解決這個問題,我們聯系了數據生態系統中的數十位企業家和開源維護者,并提出了兩個問題:
1.您最擅長的工具是什么?
2.您的工具不能做什么?
我們的搜索范圍僅限于開源項目和B系列之前的公司。 回答簡短簡短,并進行了編輯以保持清晰。
下面列出了所有參與工具,并按其響應順序列出了這些工具。
生態系統的混亂不會在一夜之間消除,但我們希望這篇文章是一個好的開始。
工具與答案
- Great Expectations/Superconductive:Great Expectations特別擅長測試數據系統并從這些測試創建文檔。 寄予厚望的同時也進行數據分析。 寄予厚望是高度可插入和可擴展的,并且是完全開源的。 它不是管道執行框架或數據版本控制工具。
- Databand:Databand是DataOps解決方案,其獨特的優勢在于可以監視生產管道并在工作流代碼,數據或系統級別檢測問題,并幫助工程師對問題進行根本原因分析。 數據帶不是管道編排,數據質量測試或數據版本控制的解決方案。
- Dolt / Liquidata:Dolt是具有Git版本控制的SQL數據庫。 您可以像在Git中一樣對SQL數據庫進行提交,比較,克隆,提取,分支和合并。 Dolt是用于共享數據的獨特好格式。 Dolt不是為特定的數據用例(例如功能存儲或數據轉換)設計的。 Dolt是可以在這些用例中應用的通用數據庫。
- Bayes:Bayes是一種可視化的探索性數據分析工具。 它會指導您進行建議的可視化操作,并通過基于交互式敘事的報告實現輕松,可解釋的見解共享。 Bayes不是商業智能儀表板,也不是供程序員使用的基于代碼的筆記本。
- Hex:Hex是一個計算筆記本平臺,擅長共享。 用戶可以連接到數據,進行分析,然后輕松構建組織中任何人都可以使用的完全交互式,精美的應用程序。 Hex不是ML工程平臺或圖表工具。
- Sisu數據:Sisu是一個主動分析平臺,非常適合快速探索復雜的企業數據并幫助分析師解釋關鍵業務指標為何在變化。 Sisu可以在幾秒鐘內測試數億個假設,并引導用戶找到影響很大的變革驅動力。 Sisu既不是預測工具或模型構建工具,也不是描述性儀表板。
- Ascend:Ascend獨特地擅長以更少的代碼構建,運行和優化僅云數據管道。 Ascend將數據鏈接到生成它的代碼,從而通過自動維護,數據概要分析,沿襲跟蹤,成本優化以及易于集成到數據庫,倉庫,筆記本和BI工具的方式來建立聲明性數據管道。 Ascend不是通用的Spark解決方案,而是位于最上面的數據工程平臺。
- Dataform:數據形式獨特地擅長于幫助您管理數據倉庫中的數百個數據集。 Dataform幫助團隊將原始數據轉換為一組定義明確,經過測試和記錄在案的數據集以進行分析。 數據格式不是提取工具。
- DataKitchen:DataKitchen是一個DataOps處理工具,獨特地擅長將連續部署,可觀察性,測試和環境管理帶入復雜的數據科學和分析領域。 DataKitchen自動執行分析創建/部署工作流,管道執行,代碼/數據測試以及管道監視/維護。 DataKitchen不是數據科學,ETL或專用編排工具。
- Snorkel:Snorkel是用于以編程方式構建訓練數據集的平臺。 在Snorkel中,用戶可以編寫標簽功能,而無需手工標記數據,Snorkel使用理論上扎實的建模技術將其結合在一起。 呼吸管與無監督學習無關。 它是一個在環人員平臺,致力于從根本上加速用戶如何將其領域知識注入ML模型。
- Transform (stealth):Transform正在構建度量標準存儲庫,以確保企業可以以標準化,格式合理且有組織的方式捕獲度量標準定義,以簡化分析并以信心和速度進行決策。 轉換不是數據流水線框架或商業智能工具。
- Materialize:Materialize非常擅長在流數據之上執行和維護PostgreSQL查詢(包括聯接),使這些查詢在高吞吐量下以毫秒級的延遲保持最新狀態。 Materialize不是時間序列數據庫或其他流式微服務平臺。
- Data Hub/ LinkedIn:DataHub是一個由元數據提供支持的搜索和發現應用程序,旨在提高AI和數據科學的生產率。 它具有獨特的流優先的分布式元數據體系結構,已使其在LinkedIn的人員和大數據規模上獲得成功。 它不是數據集成或處理工具,也不是用于運行數據質量檢查的協調器。
- Prefect:Prefect是一種工作流程編排工具,可讓您使用純Python API定義任務流,并使用現代的可擴展基礎結構輕松部署它們。 Prefect為您提供了建立健壯管道所需的語義,例如重試,日志記錄,緩存,狀態轉換回調,故障通知等,而又不會妨礙代碼。 Prefect不是非代碼工具或基礎結構提供程序。
- Mara / Project A:Mara擅長將SQL,Bash和Python腳本組合到管道中。 從命令行或通過Web UI運行管道。 本地執行,沒有隊列,沒有工人,沒有魔術。 Mara不是計劃,數據移動或依賴關系檢測工具。
- dbt / Fishtown Analytics:dbt擅長在數據倉庫中創建,維護和記錄基于SQL的業務邏輯DAG。 dbt不是通用的工作編排器。
- Watchful:Watchful獨特地擅長于快速,大規模地創建高質量,帶有概率標記的訓練數據,而無需大批人工貼標簽。 通過Watchful,您可以通過反饋快速構建,測試和原型化模型。 它不是托管標簽服務或分析工具。
- Preset:Preset是Apache Superset的制造商基于SaaS的數據探索和可視化平臺。 預設與可視化和數據消耗有關,它不是計算或編排平臺。
- Kedro:Kedro展示了數據和ML管道的軟件工程優秀實踐。 Kedro使用可重現的分析工作流程,I / O抽象和管道建模,實現了從實驗到生產的無縫過渡。 Kedro不是工作流程協調器或實驗跟蹤框架。
- Toro數據:Toro獨特地擅長于幫助團隊在其數據上部署監視,建議監視哪些內容并使其易于執行而無需編寫和部署代碼。 Toro不會清理或轉換數據,也不會原生控制管道/工作流程。
- Tecton:Tecton擅長策劃和提供功能。 Tecton不是數據處理引擎(例如Spark)或模型管理工具。 相反,它利用現有的數據處理引擎來處理原始批處理/流/實時數據,將其轉換為功能,并部署這些功能以進行培訓和提供服務。
- Dagster / Elementl:Dagster是一個數據協調器,擅長為本地開發,測試,部署和操作構建數據應用程序。 Dagster管道組件可以使用任何語言或框架進行創作,并通過通用的元數據和工具組合在一起以形成統一的數據應用程序。 Dagster不是處理引擎,也不是數據倉庫/對象存儲。
- Select Star:Select Star是解決數據發現問題的數據目錄和管理工具。 它在幫助您理解數據方面具有獨特的優勢,即您擁有的數據,數據的存放位置,結構和使用方式。 Select Star不提供SQL客戶端或ETL處理。
- Monte Carlo (stealth):Monte Carlo是一個數據可靠性平臺,其中包括數據監視,故障排除和事件管理。 蒙特卡洛不是測試框架,管道或版本控制工具。
- Flyte / Lyft:Flyte獨特地擅長迭代開發可伸縮的,容器本機的和可重復的管道,這些管道連接不同的分布式系統,同時使數據流處于中心位置。 Flyte不是機器學習平臺,但可以成為其中的核心組件。
開始對話
我們編制這份清單的愿望是雙重的。 一方面,我們想贊揚這些驚人的工具,創始人和OSS領導者,以推動我們的數據工具生態系統的發展。 另一方面,我們希望圍繞社區清楚地了解這些工具的故意局限性展開有益的對話。 沒有人能比所有人做得更好。 甚至是創新者!
我們希望本文能夠為我們現代的數據工具生態系統野生花園提供有益的啟示。 祝愿它在我們有意培育的過程中繼續蓬勃發展。