成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

手把手教學:使用Elastic search和Kibana進行數據探索(Python語言)

大數據
探索性數據分析(EDA)幫助我們認識底層的數據基結構及其動力學,以此來最大限度發掘出數據的可能性。EDA是提取重要變量和檢測異常值的關鍵。盡管存在著很多種機器學習算法,但EDA仍被視為理解和推動業務的最關鍵算法之一。

[[198483]]

探索性數據分析(EDA)幫助我們認識底層的數據基結構及其動力學,以此來最大限度發掘出數據的可能性。EDA是提取重要變量和檢測異常值的關鍵。盡管存在著很多種機器學習算法,但EDA仍被視為理解和推動業務的最關鍵算法之一。

其實有很多種方式都能夠執行實現EDA,例如Python的matplotlib、seaborn庫,R語言的ggplot2,而且網絡上有很多很好的資源,例如John W. Tukey的“探索性數據分析”, Roger D. Peng 的“用R進行探索性數據分析”等,不勝枚舉。

在本文中,我主要講解下如何使用Elastic search和Kibana實現EDA。

[[198484]]

目錄:

1. Elastic search

2. Kibana

3. 創建數據表

  • 數據索引
  • 鏈接Kibana
  • 可視化

4. 搜索欄

1. Elastic Search (ES)

Elastic Search是一個開放源碼,RESTful分布式和可擴展的搜索引擎。由于其簡單的設計和分布式特性,Elastic Search從大量級數據(PB)中進行簡單或復雜的查詢、提取結果都非常迅速。另外相較于傳統數據庫被模式、表所約束,Elastic Search工作起來也更加容易。

Elastic Search提供了一個具有HTTP Web界面和無模式JSON文檔的分布式、多租戶的全文搜索引擎。

ES安裝

安裝和初始化是相對簡單的,如下所示:

  • 下載并解壓Elasticsearch包
  • 改變目錄到Elasticsearch文件夾
  • 運行bin/ Elasticsearch(或在Windows上運行bin \elasticsearch.bat)

Elasticsearch實例在默認配置的瀏覽器中進行本地運行http://localhost:9200

2.Kibana

Kibana是一個基于Elasticsearch的開源數據挖掘和可視化工具,它可以幫助用戶更好地理解數據。它在Elasticsearch集群索引的內容之上提供可視化功能。

安裝

安裝和初始化的過程與Elasticsearch類似:

  • 下載并解壓Kibana包
  • 用編輯器打開config/ Kibana.yml,配置elasticsearch.url指向本地ElasticSearch實例所在位置
  • 更改目錄到Kibana文件夾
  • 運行bin/ Kibana(或在Windows上運行bin \ kibana.bat)

Kibana實例在默認配置的瀏覽器中進行本地運行http://localhost:5601.

將運行Kibana的終端保持打開狀態,可以保證實例不斷的運行。你也可以使用nohup模式在后臺運行實例。

3. 創建數據表

使用ES和Kibana創建儀表板主要有三個步驟。接下來我將會用貸款預測的實際問題的數據來示例如何創建一個儀表板。請注冊該問題,以便能夠下載數據。請檢查數據字典以獲得更多詳細信息。

注:在本文中,我將使用python讀取數據并將數據插入到Elasticsearch中,并通過Kibana進行可視化。

讀取數據

  1. import pandas as pd 
  2. train_data_path = '../loan_prediction_data/train_u6lujuX_CVtuZ9i.csv' 
  3. test_data_path = '../loan_prediction_data/test_Y3wMUE5_7gLdaTN.csv' 
  4. train = pd.read_csv(train_data_path); print(train.shape) 
  5. test = pd.read_csv(test_data_path); print(test.shape) 

結果:

  1. (614, 13) 
  2. (367, 12) 

 

3.1 數據索引

Elasticsearch將數據索引到其內部數據格式,并將其存儲在類似于JSON對象的基本數據結構中。請找到下面的Python代碼,將數據插入到ES當中。

請如下所示安裝pyelasticsearch庫以便通過Python索引。

  1. pip install pyelasticsearch 
  1. from time import time 
  2. from pyelasticsearch import ElasticSearch 
  3.  
  4. CHUNKSIZE=100 
  5.  
  6. index_name_train = "loan_prediction_train" 
  7. doc_type_train = "av-lp_train" 
  8.  
  9. index_name_test = "loan_prediction_test" 
  10. doc_type_test = "av-lp_test" 
  1. def index_data(data_path, chunksize, index_name, doc_type): 
  2.     f = open(data_path) 
  3.     csvfile = pd.read_csv(f, iterator=True, chunksize=chunksize)  
  4.     es = ElasticSearch('http://localhost:9200/'
  5.     try : 
  6.         es.delete_index(index_name) 
  7.     except : 
  8.         pass 
  9.     es.create_index(index_name) 
  10.     for i,df in enumerate(csvfile):  
  11.         records=df.where(pd.notnull(df), None).T.to_dict() 
  12.         list_records=[records[it] for it in records] 
  13.         try : 
  14.             es.bulk_index(index_name, doc_type, list_records) 
  15.         except : 
  16.             print("error!, skiping chunk!"
  17.             pass 
  1. index_data(train_data_path, CHUNKSIZE, index_name_train, doc_type_train) # Indexing train data 
  1. index_data(test_data_path, CHUNKSIZE, index_name_test, doc_type_test) # Indexing test data 
  1. DELETE /loan_prediction_train [status:404 request:0.010s] 
  2. DELETE /loan_prediction_test [status:404 request:0.009s] 

3.2 鏈接Kibana

  • 在瀏覽器上訪問 http://localhost:5601
  • 去管理模塊中選取索引模式,點擊添加。
  • 如果你的索引數據中包含時間戳,則選復選框。否則,取消選中該框。
  • 將之前用于數據索引到ElasticSearch中的索引輸入。 (例如:loan_prediction_train)。
  • 點擊新建。

對loan_prediction_test重復上述4個步驟。 現在kibana已經與訓練數據鏈接,并測試數據是否已經存在于elastic search中。

3.3可視化

  • 單擊 可視化>創建可視化>選擇可視化類型>選擇索引(訓練或測試)>構建

例一

選擇垂直條形圖,并選擇繪制Loan_status分布的訓練索引。

將y軸作為計數,x軸代表貸款狀態

  • 保存可視化
  • 添加儀表板>選擇索引>添加只保存的可視化。

Voila!! Dashboard 生成啦!

例二

  • 單擊可視化>創建可視化>選擇可視化類型>選擇索引(訓練或測試)>構建
  • 選擇垂直條形圖,并選擇訓練索引繪制已婚分布。
  • 選擇y軸為計數,x軸為已婚

  • 保存可視化。
  • 重復上述步驟進行索引測試。
  • 打開已創建的儀表板添加這些可視化

例三

類似的性別分布。這一次我們將使用餅圖。

  • 單擊可視化>創建可視化>選擇可視化類型>選擇索引(訓練或測試)>構建
  • 選擇餅圖并選擇列車索引繪制已婚分布。
  • 按“已分隔”列選擇切片大小作為計數和分割片段

  • 保存可視化。
  • 重復上述步驟進行索引測試。
  • 打開已創建的儀表板添加這些可視化

最后,創建所有可視化的儀表板將如下所示!

是不是很漂亮!

剩下將由你來探索更多的elasticsearch和Kibana了,并創建多種多樣的可視化效果。

4.搜索欄

搜索欄允許用戶通過字符串來搜索來數據,這便有助于我們理解數據中的更改,并在一個特定屬性中進行更改,這對于可視化來說是不容易的。

舉例

  • 轉到發現>添加Loan_Status和Credit_History
  • 使用搜索欄僅選擇Credit_History為0.(Credit_History:0)
  • 現在可以查看Loan_Status列中的更改記錄。

觀點:大多數信用記錄為0的客戶沒有收到貸款(貸款狀態為N = 92.1%)

以上為全文。

責任編輯:武曉燕 來源: 36大數據
相關推薦

2021-06-16 09:02:43

Pythonjieba分詞Python基礎

2020-12-17 09:40:01

Matplotlib數據可視化命令

2025-05-07 00:31:30

2021-07-14 09:00:00

JavaFX開發應用

2023-03-29 10:02:36

2021-07-01 09:31:50

MySQL SQL 語句數據庫

2022-12-07 08:42:35

2009-08-28 17:00:50

C# for

2020-10-12 08:19:43

Python爬蟲網頁數據

2020-12-08 10:32:15

Python郵件tcp

2021-08-02 07:35:19

Nacos配置中心namespace

2020-11-10 09:00:00

JavaMule ESB開發

2020-08-12 09:07:53

Python開發爬蟲

2021-06-05 10:31:53

動態排序圖可視化

2021-09-30 18:27:38

數據倉庫ETL

2021-12-29 20:20:25

結構化數據Pandas

2016-04-20 16:32:53

粒子引擎bugly騰訊

2011-01-10 14:41:26

2011-05-03 15:59:00

黑盒打印機

2022-07-22 12:45:39

GNU
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美a级成人淫片免费看 | 亚洲成人一区 | 最新国产福利在线 | 三级欧美 | 国偷自产av一区二区三区 | 春色av| www.狠狠干| 一区二区三区av | 中文字幕中文字幕 | 中文字幕 在线观看 | 国产精品日韩一区二区 | 天天操夜夜操免费视频 | 亚洲网站在线观看 | 亚洲精品1区 | 黄色中文字幕 | 日韩精品一区二区三区在线播放 | 玖玖玖av| 亚洲欧美激情国产综合久久久 | 在线三级网址 | 91豆花视频 | 天天夜夜人人 | 久久小视频| 亚洲 欧美 综合 | 欧美爱爱视频 | 在线免费观看色 | 精品婷婷 | 亚洲综合资源 | 久久com| 国产综合久久 | 天天玩夜夜操 | 精品中文在线 | 视频一区中文字幕 | 99在线免费观看 | 国产亚洲网站 | 亚洲在线视频 | 久久蜜桃精品 | 亚洲精品1区 | 国产一区二区在线视频 | 欧美日韩视频在线播放 | 久久久999成人 | 精品国产一区二区三区久久久蜜月 |