不同Hadoop上的SQL數據庫引擎如何適配BI工作

作者：Optimus Prime 2016-03-28 10:32:36

Hadoop上的SQL引擎Impala是一種新型查詢系統(tǒng)基準，發(fā)現Spark和Hive在BI的工作負載中有自己的優(yōu)勢與弱勢。根據最新的基準，三個主要的SQL-on-Hadoop引擎，Apache Impala 2.3, Apache Spark 1.6 和Apache Hive 1.2，都有各自獨特的優(yōu)勢和劣勢，這令他們能很好的適應一些BI用例，而不是其他智能。

注：Impala是Cloudera公司主導開發(fā)的新型查詢系統(tǒng),它提供SQL語義,能查詢存儲在Hadoop的HDFS和HBase中的PB級大數據。

Hadoop上的SQL引擎Impala是一種新型查詢系統(tǒng)基準，發(fā)現Spark和Hive在BI的工作負載中有自己的優(yōu)勢與弱勢。

根據***的基準，三個主要的SQL-on-Hadoop引擎，Apache Impala 2.3, Apache Spark 1.6 和Apache Hive 1.2，都有各自獨特的優(yōu)勢和劣勢，這令他們能很好的適應一些BI用例，而不是其他智能。

“一個引擎是無法滿足所有需求的”，Dave Mariani，大規(guī)模AtScale的CEO和創(chuàng)始人，AtScale是一個專門在hadoop上實現BI的創(chuàng)新企業(yè)。“我們已經完成了布置，對于我們的客戶而言這是多個引擎的補充。”

關于在Hadoop基礎上的商業(yè)智能，AtScale幫助技術評估者選擇***的SQL –on-Hadoop技術，以幫助他們完成BI用例。AtScale測試團隊使用星型架構基準(SSB)數據集，基于廣泛使用的TPC-H數據(TPC- H是事務處理性能委員會公布的一套針對數據庫決策支持能力的測試基準)，將其進行修改使之更加精確的表現一個面向BI的數據布局。數據集允許數據團隊測試大型表的查詢：在線訂購表含有接近6百萬行，大型客戶表含有超過十億行。

SQL-on-Hadoop引擎有不同的“甜區(qū)”工作負載

Mariani解釋AtScale根據三個關鍵要求評價SQL-on-Hadoop引擎，以及它們的適應度是否能滿足BI工作負載。

在大數據上執(zhí)行。SQL-on-Hadoop引擎必須能夠連續(xù)不斷的分析十億百億行數據，并且沒有生成錯誤，對命令的反應時間是10s或者是100s。

在小數據上速度快。引擎需要傳遞相互表現到已知查詢模式，因此，

SQL-on-Hadoop引擎在處理小數據時，不超過幾秒鐘就能將結果返回。(小數據是指有著成千上百萬的命令行的數據)。

對用戶來說是穩(wěn)定的。企業(yè)級BI用戶的基礎是由成百上千的數據工作人員組成。SQL-on-Hadoop引擎必須在高度并行分析的工作負載中運行可靠。

Mariani領導團隊為雅虎的BI創(chuàng)建了可能是世界上***的在線分層分析!他相信這三個標準是基本要求的代表，是企業(yè)在Hadoop上實現BI時都會遇到的。這個標準，是測試團隊和大量行業(yè)企業(yè)合作得出的，包括金融服務，醫(yī)療，零售，電信等。

“我們使用了真實世界的的經驗去形成文檔，每一個技術評估者可以將其作為是評估流程的一部分”。Josh Klahr補充，AtScale.生產部門副總裁。

測試團隊發(fā)現三個引擎都通過了測試，足夠穩(wěn)定去支持BI工作負載，但是一個引擎不能滿足所有需求。每個引擎都有自己的“甜區(qū)”，企業(yè)有可能去尋找所有引擎的混合用法，他們相信這有可能最適合他們的目標。

當Hive在逐漸思考SQL-on-Hadoop的默認值時，它將基準中引擎運行最慢的情況放置一邊，令其不能很好的配合相互查詢。

“如果你使用Hive Tez作為你的相互查詢引擎，你能做到的***是2.4秒”。Mariani 說。

但是它可能緩慢，Hive也是三個引擎中最穩(wěn)定的，在多個查詢類型中有著***的連貫性。

“Hive Tez就像烏龜。”. Mariani 說，“它總是能完成競賽，但是不是在壯觀，迅速的時尚下。但是它是最可靠的。”

Impala和Spark，從利益方面來說，在處理小數據集時，他們是***的。Impala會在大量的工作負載中覆蓋了Spark，但是 Mariani提到Spark1.6相比Spark1.5有了巨大的性能改變，他希望Spark能繼續(xù)保持這樣的發(fā)展趨勢，因為Spark已經劃出一塊大的開源社區(qū)，關注著它的發(fā)展。數據管理公司云紀元公司(Cloudera)最近計劃捐贈Impala給Apache軟件基金會，這可以為其發(fā)展增加勢頭。

現在，Impala是用例的王者，它需要大量的用戶

“Impala在并發(fā)上真的很棒，” Mariani 說，“如果你打算擁有一大堆用戶，讓他們去使用小的快速的查詢，Impala相比Spark是更好的選擇。”

“如果速度不是最重要的，但是穩(wěn)定性和可靠性很重要，我會選擇使用Hive Tez作為我的數據管線引擎”，他補充道，“對于那些需要大批處理的工作負載，我會選擇Hive Tez。如果我想要我的BI用戶接入我的數據倉庫，我會使用Spark或者Impala。”

Mariani 提到，雖然團隊不能把其他引擎作為基準，如Apache Drill或者 Apache Presto,但是他們會在下次嘗試。

他說，“你永遠不知道引擎與引擎之間，誰將是可以作為賭注的更好的馬。”

責任編輯：Ophira 來源： 36大數據

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

不同Hadoop上的SQL數據庫引擎如何適配BI工作