如何利用Tableau對Amazon Redshift數據進行可視化
譯文【51CTO.com快譯】作為數據分析師,相信大家對于Tableau與AWS Redshift不會陌生。而且很明顯,將Reshift列式數據庫的成熟度與速度優勢與Tableau的功能豐富性與交互能力相結合,會帶來極為出色的實際體驗。
在今天的文章中,我們將共同了解二者的整合過程,而最終目標則是建立展示頁面以查看訪問者數量對性能造成的影響。
備注:在本文中,我們使用Tableau桌面版10.0,大家可以免費進行下載。下載并安裝完成后,大家可以通過下文內容將其接入Redshift。當然,您需要確保擁有自己的Redshift信息(包括主機名稱、數據庫名稱、用戶名及密碼)。
連接
在Tableau桌面版的啟動頁中,于Coonect下選擇Amazon Redshift選項。
輸入您的Redshift信息,而后點擊Sign In。
在上圖所示的數據源頁面執行以下操作:
點擊頁面頂部的數據源名稱,而后輸入Tableau所將使用的惟一數據源名稱。***按照數據源命名約定選擇名稱,以幫助其他用戶了解Tableau當前接入了哪個數據源。
在Schema下拉菜單中選擇schema,或者使用搜索schema名稱后出現的文本框亦可。
在Table下選擇table,或者使用搜索table名稱后出現的文本框亦可。
將該表拖入操作區,而后點擊sheet tab以開始分析。
現在Tableau已經接入我們的Redshift數據庫,接下來開始對數據進行可視化。
可視化
在Tableau桌面版的菜單欄中選擇Data,而后在彈出菜單下方的數據源列表中選擇一個table。在本示例中,我們希望基于clientid表創建報告與圖表(如下圖)。
接下來,在該菜單欄中選擇Dashboard > New Dashboard。
當前顯示的圖像會返回Timestamp、PagePath以及Clientid進行的頁面訪問數字:
如上一階段所示,到這里我們已經可以嘗試利用Tableau的簡單UI與過濾器根據實際業務需求進行數據可視化了:
在menu欄中選擇Worksheet > New worksheet。
接下來在menu欄中選擇Data > Users。
在左側的Dimensions and Measures部分,大家可以選擇相關列與行進行工作表調整。
舉例來說,以下截屏按日期顯示出哪些頁面曾被查看及具體查看次數。
另外,如果大家希望查看某一特定Clientid(通用版本尚不支持現成的此信息查看),則可為其創建類似的圖像:
特定clientid截至目前的特定頁面訪問次數
或者,大家也可以對數據排列進行簡單更改,從而為同一示例創建不同的可視化方式:
由特定clientid按timestamp對特定頁面進行的訪問次數
如大家所見,利用Tableau桌面版能夠輕松完成Redshift數據的可視化處理。
高級用例:使用Panoply
雖然Tableau與Redshift能夠很好地實現整合,但由于期間需要配合大量準備步驟,因此相關工作可能繁瑣、冗長且難以維護。在高級用例當中,數據庫通常會保存大量表,且需要連續處理以實現可視化。
正因為如此,我們應當利用Panoply.io解決相關難題:
Panoply.io可視化插件
Panoply.io提供一套數據倉庫解決方案,可實現從數據源提取到加載再到轉換的整個流程。除了能夠直接與Tableau相集成外,Panoply服務還可與Chart.io、Looker及PowerBI等外部商業智能工具進行對接。
這套自動化數據管理解決方案利用Redshift基礎設施并通過消除日常管理流程對其進行增強,這種強化能力同時涵蓋底層基礎設施與數據庫層。大家可以將Panoply視為一款自動化數據工程機器人,用以處理大部分數據工程技術任務及數據庫管理操作。
原文標題:How to Visualize Your Amazon Redshift Data Using Tableau,原文作者:Alon Brody
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】