BigQuery谷歌企業級大數據分析平臺初體驗
作者將在本文中介紹一些BigQuery的基本情況,并結合Paras Doshi最近撰寫的關于BigQuery的一些使用體會,對BigQuery來一個深入了解。
什么是BigQuery ?
BigQuery是真正為大數據而生的企業級云計算產品,其核心是云平臺的一項基礎服務(PaaS),用于對TB級別的大數據進行實時的分析處理。
單純從技術上來看,BigQuery就是一個在云端的SQL服務(類SQL),提供對海量數據的實時分析;據Google工程師所說,其處理5個TB數據,15秒即可返回結果。
另外,BigQuery是一項付費服務,旨在企業需要大規模數據分析,又無需承擔硬件設備的投資的情況下開展大數據業務。每月每1GB數據的存儲費用是12美分;實時分析服務每月每處理1GB數據收費3.5美分,每月前100GB的實時數據分析免費。
Google BigQuery價格表
詳細價格表請參考:https://developers.google.com/bigquery/docs/pricing
BigQuery初體驗——快!
Paras Doshi在博客中寫到他對BigQuery做了一個簡單的測試,在一個具有115000000行數據的實例中分別使用max、mean、avg等進行查詢(或計算),BigQuery都會在幾秒內返回結果;并且其中一些包含相對比較復雜的查詢,比如where、joins或group by。
事實上,查詢所返回結果的效率還取決于查詢的類型和SQL語句的效率,但無論如何,結果總是以超乎想象的速度返回。
關于數據源支持——悲催!
BigQuery很快,但還有一個問題,如何將TB級的大數據上傳到Google云存儲上面。當然,不只是Google,這也是每個基于大數據的云存儲服務所面臨的問題。
更現實的問題是,如果已經有數據在Amazon S3或微軟的云存儲上,這些數據是否可以供BigQuery調用來進行分析?
答案是,呃,還不行(這點Google做的沒微軟好,微軟Azure上的Hadoop允許Amazon S3上的數據作為數據源)。甚至,如果你有數據在GAE上,你也需要單獨的將數據上傳到BigQuery,至少目前是這樣。
另外一個悲催的地方在于,BigQuery也無法支持Hadoop高級安裝(比如Hadoop on Azure或Amazon elastic MapReduce)。
還有就是,BigQuery只支持CSV格式。當我們談論大數據時,我們總是把Variability(數據多樣化)當成最重要的一點來討論,很顯然,BigQuery所支持的數據類型還不夠多樣,或者說,非常單一。
總結
從篇幅上看,貌似BigQuery的缺點多于優點。但從大數據的處理能力上來看,其TB級數據查詢結果秒出的效率還是讓人驚嘆的。
另外,更重要的一點是,低門檻和低成本。使用類SQL語言進行數據分析,花上幾美元就得到Google服務器集群的性能,這些都大大降低了大數據業務的成本。至少你有一種廉價的方案來回答《關于大數據 CEO們需要了解的五個問題》一文中老板們關于大數據成本的擔憂。
還有一點是關于數據上傳這個老大難問題。Paras Doshi在測試中使用了350GB的CSV數據文件(分成10GB每個)上傳到BigQuery,用時幾個小時(感嘆米國的大水管),這說明從本地集群到Google云進行數據的遷移也不需要多少耐心,我們已經習慣在下班時間上傳大數據,不是嘛?
原文鏈接:http://inbigdata.com/google-bigquery-first-look-and-try/