谷歌更新BigQuery 允許在其中加入大型數據集
據Gigaom報道,谷歌日前對BigQuery進行了更新,加入新的聚合功能。
以下為文章全文:
BigQuery的產品經理Ju-kay Kwek在一篇博客中公布了BigQuery的***更新,他表示用戶現在可以加入大型表、導入和查詢時間戳數據,以及使大量非重復數據的集合進行聚合。
BigQuery是一個讓用戶使用類似SQL的查詢來分析TB大小的數據集的云服務。它基于谷歌的Dremel查詢系統,可以在其所處的位置(即Google File System或BigTable)上分析數據,并可在谷歌內部使用,分析各種不同的數據集。谷歌聲稱在BigQuery運行交互式查詢速度,對實時性和復雜性的要求完全是MapReduce(上一代處理大型數據集的工具)所不能達到的。當然,對于批處理,BigQuery同樣勝任,而且費用更低。
因此,從一些類似Dremel和其商業發行版BigQuery上可獲得潛在好處——不輸于Hadoop生態系統,Hadoop本身已依賴MapReduce進行處理很多年。在過去一年,我們已經看到許多初創公司和大型廠商為坐落在HDFS上數據發布自己的類Dremel(或類MPP)技術。
撇開這個背景不談,在BigQuery中加入連接大型數據集的能力可能是最重要的新功能。連接是大多數環境中數據分析的一個重要方面,因為彼此相關的數據并不總是駐留在同一個表,甚至在同一個集群中。(王旭東/編譯 仲浩/審校)

連接到BigQuery的方法
Kwek說明了為什么加入新的聚合功能是重要的:
當我們的App Engine團隊需要調和應用程序計費和使用信息時,Big JOIN可以讓團隊在60秒內合并 2TB的使用數據和10 GB的配置數據。使用集成的Tableau客戶端的團隊可以快速的發現一些意想不到的趨勢。