大數據應用新的工具 可視化大數據
而這便促成了數據可視化工具的應運而生。這通常能夠提供:新的數據集的迅速整合能力;去除限制性的元數據層;一項業務,而不是一項技術或工具(即直觀的最小編碼要求);以及高性能。
這些特性都為較大的供應商所提供的更傳統的可視化工具帶來了挑戰。因此,在過去的四到五年,他們已經開始逐步獲得一定的市場份額了。他們的成功都來自他們能夠幫助企業在短短一個星期的時間內就能夠提供很強的業務洞察能力。
由于這些工具的靈活性,這些工具現在也正在為企業提供一個直接與大數據整合的平臺,如Hadoop和Cassandra(一個混合型的非關系的數據庫)。然而,現在我們看到,老的供應商也開始在以新產品打入市場的堆棧來解決這一差距,并希望在未來一兩年內再次洗牌,重新鞏固市場。
在大數據領域,高性能是一項特別的挑戰。大數據量的特質和查詢速度使得數據將通過倉庫工具Hive進行整合,這意味著直接針對數據的查詢將抑制工具的動態性能。
這些工具的關鍵用例是快速的發現而非創造標準的報告。這意味著所需的數據在本質上是暫時性的——需要支持一種假設,然后丟棄。這導致了實現高性能的領先方案是創建特定的數據集,例如,通過引導圖減少工作量,以及捕捉可視化工具中的內存。
可視化工具的一個關鍵性的好處是,他們改變了項目交付的方法。因為他們允許通過原型快速實現價值可視化,他們能夠在被納入一個工業化的平臺之前,在低成本點證明價值。作為這一進程的一部分,可視化工具提供了一個共同的語言,通過它,企業的IT部門和業務部門可以進行溝通。這就創造了一個對于需求的清晰的認識,有助于設置什么能夠被交付的期望。
雖然能夠實現數據的快速可視化有很多好處,我們也看到創建Excel電子表格或者Access數據庫進行數據庫訪問所存在的一些老的內在危險問題。鑒于此,支持大數據可視化必須采用一個強大的數據管理方法已經是一個不爭的事實。
這將創建一個混合環境的需要。在實踐中,這意味著數據首先是在大數據環境下進行探索;然后,如果這些探索揭示了某些數據報道所需要的價值,此時數據才被推廣到傳統的關系型數據庫,無論是MPP或內存中的。
不容忽視的最后一個方面是,這些工具對于業務部門和IT部門之間的關系所產生的影響。可視化工具將授權業務,從而幫助企業業務部門實現快速的見解,并驅動更高價值的數據資產。因此,IT部門將需要以一套更加靈活的方式來提供數據。
這將創建一個二分法。一方面,必須迅速提供信息,在更傳統的過程以外驅動價值。另一方面,一旦解決方案需要工業化,還需要通過更傳統的項目進行剛性的治理。未能達到適當的平衡,會導致挫折和價值的明顯減少。
兩個部門都有其自己的責任:業務部門需要建立適當的洞察見解,并確保以企業正常的運作方式驅動變革,而IT部門需要提供一套適當治理水平的數據服務。
鑒于整個行業仍在不斷發展,我們可以期待看到更高的智能可視化工具將如何能夠索引結果。這些工具將在用戶開始發出請求之前預測用戶的數據需求,并創建個性化的內存緩存,從而有助于解決性能挑戰。
當前趨勢指向出現了一個自助服務分析環境,使企業用戶可以從幾乎無窮無盡的信息來源設置參數,調查范圍只受他們創造力的限制。但是傳統上,更結構化的方法和強大的數據治理將始終發揮著至關重要的作用。他們不應該是使用可視化和大數據的一個障礙,而應該是眾多的解決方案的一部分。