11個開源免費的數據分析與可視化工具
參與大數據、人工智能相關的項目的技術人員,掌握一些數據工具對項目建設至關重要。本文推薦一些優秀的開源數據分析與可視化工具,可以在從數據清洗到可視化等過程提高工作效率。
1.Apache Superset
https://github.com/apache/superset
Apache Superset是一個開源數據挖掘以及數據可視化平臺,用戶不需要編程知識就可以創建交互式儀表盤。平臺支持各種數據源,提供豐富的可視化組件,并允許自定義儀和共享表盤。
平臺在功能性方面,它集成了各種數據庫和數據倉庫,并提供了一個強大的SQL編輯器。在安全性方面,平臺可通過基于角色的訪問控制和身份驗證。在可擴展性方面,它允許添加自定義功能,并且也有一個大型的、活躍的開源社區。
2.Metabase
https://github.com/metabase/metabase
Metabase是一個開源的商業智能工具,具有友好的用戶界面、強大的數據可視化功能和交互式儀表板。它支持與各種數據源集成,支持實時查詢,并提供自動報告。
Metabase還提供數據探索和發現工具,通過基于角色的訪問控制以確保安全。它可以私有化部署,為項目提供了較為靈活的方案。
3.OpenRefine
https://github.com/OpenRefine/OpenRefine
OpenRefine是一個基于Java的數據管理和分析工具。支持用戶使用Web端實現數據加工、可視化和功能擴展。
OpenRefine的主要功能包括挖掘、集群、協調、無限撤銷/重做、隱私和Wiki。
4.Insights
https://github.com/mariusandra/insights
Insights是一個用于可視化地挖掘PostgreSQL數據庫的工具,在圖形的生成具有較強優勢。
它支持PostgreSQL連接,自動檢測發現數據庫,允許連接到多個數據庫,并允許模式編輯和添加自定義SQL字段。
它還提供數據挖掘、過濾器、基于時間的圖形、鍵盤導航、保存的視圖和固定的字段等功能。
安裝如下:
npm install -g insightsinsights initinsights startbr
br
5.Retentioneering
https://github.com/retentioneering/retentioneering-tools
Retentioneering是一個Python庫,它主要用于分析點擊流、用戶軌跡和事件日志變等,并產生比漏斗分析,以便更廣泛和更深入理解用戶行為。
使用Retentioneering來探索用戶行為,細分用戶,并形成關于是什么驅使用戶采取期望的行動或遠離產品的假設。
Retentioneering使用點擊流數據來構建行為細分,突出顯示影響您的轉化率,保留和收入的用戶行為中的事件和模式。Retentioneering庫是專門為數據分析師、營銷分析師、產品所有者、經理以及任何負責提高產品質量的人創建的。
Retentioneering作為Cyberter環境的組成部分,它擴展了pandas、NetworkX、scikit-learn庫的功能,以更有效地處理順序事件數據。Retentioneering優化工具是交互式的,專為分析研究而量身定制,因此,非Python專家也可使用它。只需幾行代碼,就可以處理數據,探索用戶行為地圖,并進行可視化。
6.FlyFish
飛魚(FlyFish)是一個數據可視化編碼平臺。通過簡易的方式快速創建數據模型,通過拖拉拽的形式,快速生成一套數據可視化解決方案。
功能包括:
- 項目管理:項目用于代表具體的業務需求場景,是多個應用、組件的集合。
- 應用開發:支持開發大屏應用,可開發單頁面或是多頁面路由的大屏應用。
- 組件開發:組件為最小粒度的項目基礎,通過創建和開發組件拼湊出最終的可視化大屏展示。
- 模板庫:可將開發完成的應用/組件分別上傳到對應的模板庫中,可在已有模板的基礎上快速創建新的項目。
- 數據源管理:可接入 MySQL、Http 等多個數據庫數據生成對應數據源,供創建項目時組件對數據進行調用。
- 數據查詢:支持根據數據表進行 SQL 查詢,精準定位數據源中具體數據并封裝保存,也可將查詢到的數據重新組合,供組件直接調用。
7.AKShare
https://github.com/akfamily/akshare
AKShare是一個開源財經數據Python接口庫,旨在簡化獲取財務數據的過程。它需要Python(64 bit)3.8或更高版本。
8.Alluxio
https://github.com/Alluxio/alluxio
Alluxio,最初稱為Tachyon,是一個虛擬分布式存儲系統,將計算應用程序連接到各種存儲系統。它起源于加州大學伯克利分校的一個研究項目,現在被許多領先的公司用來管理PB級的數據,最大支持超過3000個部署節點。
9.Flyte
https://github.com/flyteorg/flyte
Flyte是一個開源數據編排器,有助于構建生產級數據和ML管道。它是為可擴展性和可重復性而構建的,利用Kubernetes作為其底層平臺。通過Flyte,用戶團隊可以使用Python SDK構建管道,并將其無縫部署在云和本地環境中,從而實現分布式處理和高效的資源利用。
該平臺提供了一個強大的類型引擎,支持用Python或任何其他語言編寫代碼。此外,Flyte提供了在本地或遠程集群上執行模型的能力,提供了高度的可擴展性和易于部署性。
10.Danfo
https://github.com/javascriptdata/danfojs
Danfo是一個受Pandas庫啟發的JavaScript包,旨在輕松直觀地處理關系數據或標記數據。它支持TensorFlow.js ,處理丟失的數據,允許從DataFrame插入/刪除列的大小可變性,并提供對象的自動和顯式對齊。
特征:
- 支持快速處理Tensorflow.js張量
- 易于處理丟失數據(表示為NaN)
- 大小可變性:可以從DataFrame插入/刪除列
- 自動和顯式對齊
- 強大、靈活的分組功能
- 從數組、JSON、列表或對象、張量輕松轉換為DataFrame對象
- 基于標簽的智能切片、花式索引和查詢
- 直觀的合并和連接數據集
- 用于從平面文件(CSV、Json、Excel)加載數據的強大IO工具
- 用于交互式繪圖的強大、靈活和直觀的API
- 特定于時間序列的功能:日期范圍生成以及日期和時間屬性
- 強大的數據預處理功能,如OneHotEncoders、LabelEncoders、StandardScaler和MinMaxScaler
11.Elementary
https://github.com/elementary-data/elementary
Elementary是一個專為數據和分析工程師設計的首選dbt原生數據可觀察性解決方案。可獲得分鐘級的即時可視化,能夠快速檢測數據問題,發送可操作的警報,并全面了解可能產生的影響和根本原因。Elementary重點提供了兩個產品:一個創新的開源軟件包和一個上級管理平臺。
主要特征:
- 異常檢測測試,收集數據質量指標并檢測異常作為本機dbt測試。
- 自動化監視器,開箱即用的云監視器,用于檢測新鮮度、卷和模式問題。
- 端到端數據沿襲,獲取包含最新測試結果的豐富數據,以分析數據問題的影響和根本原因。Elementary Cloud提供列級血統和BI集成。
- 數據質量儀表板,一個單一的界面,用于所有數據監控和測試結果。
- 模型性能-監視模型和作業隨時間的運行結果和性能。
- 基本配置在dbt代碼中進行管理。
- 警報,發送可操作的警報,包括自定義頻道和所有者標簽。
- 數據目錄,瀏覽數據集信息-描述、列、數據集健康狀況等。
- dbt工件上傳,保存元數據和運行結果的一部分,您的dbt運行。