成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ClickHouse 挺快,esProc SPL 更快

數(shù)據(jù)庫
CH 計算某些簡單場景(比如單表遍歷)確實很快,和 SPL 的性能差不多。但是,高性能計算不能只看簡單情況快不快,還要權(quán)衡各種場景。

開源分析數(shù)據(jù)庫 ClickHouse 以快著稱,真的如此嗎?我們通過對比測試來驗證一下。

ClickHouse vs Oracle

先用 ClickHouse(簡稱 CH)、Oracle 數(shù)據(jù)庫(簡稱 ORA)一起在相同的軟硬件環(huán)境下做對比測試。測試基準(zhǔn)使用國際廣泛認(rèn)可的 TPC-H,針對 8 張表,完成 22 條 SQL 語句定義的計算需求(Q1 到 Q22)。測試采用單機 12 線程,數(shù)據(jù)總規(guī)模 100G。TPC-H 對應(yīng)的 SQL 都比較長,這里就不詳細(xì)列出了。

Q1 是簡單的單表遍歷計算分組匯總,對比測試結(jié)果如下:

CH 計算 Q1 的表現(xiàn)要好于 ORA,說明 CH 的列式存儲做得不錯,單表遍歷速度很快。而 ORA 主要吃虧在使用了行式存儲,明顯要慢得多了。

但是,如果我們加大計算復(fù)雜度,CH 的表現(xiàn)怎么樣呢?繼續(xù)看 TPC-H 的 Q2、Q3、Q7,測試結(jié)果如下:

計算變得復(fù)雜之后,CH 性能出現(xiàn)了明顯的下降。Q2 涉及數(shù)據(jù)量較少,列存作用不大,CH 性能和 ORA 幾乎一樣。Q3 數(shù)據(jù)量較大,CH 占了列存的便宜后超過了 ORA。Q7 數(shù)據(jù)也較大,但是計算復(fù)雜,CH 性能還不如 ORA。

做復(fù)雜計算快不快,主要看性能優(yōu)化引擎做的好不好。CH 的列存占據(jù)了巨大的存儲優(yōu)勢,但竟然被 ORA 用行式存儲趕上,這說明 CH 的算法優(yōu)化能力遠(yuǎn)不如 ORA。

TPC-H 的 Q8 是更復(fù)雜一些的計算,子查詢中有多表連接,CH 跑了 2000 多秒還沒有出結(jié)果,應(yīng)該是卡死了,ORA 跑了 192 秒。Q9 在 Q8 的子查詢中增加了 like,CH 直接報內(nèi)存不足的錯誤了,ORA 跑了 234 秒。其它還有些復(fù)雜運算是 CH 跑不出來的,就沒法做個總體比較了。

CH 和 ORA 都基于 SQL 語言,但是 ORA 能優(yōu)化出來的語句,CH 卻跑不出來,更證明 CH 的優(yōu)化引擎能力比較差。

坊間傳說,CH 只擅長做單表遍歷運算,有關(guān)聯(lián)運算時甚至跑不過 MySQL,看來并非虛妄胡說。想用 CH 的同學(xué)要掂量一下了,這種場景到底能有多大的適應(yīng)面?

esProc SPL 登場

開源 esProc SPL 也是以高性能作為宣傳點,那么我們再來比較一下。

仍然是跑 TPC-H 來看 :

Q2、Q3、Q7 這些較復(fù)雜的運算,SPL 比 CH 和 ORA 跑的都快。CH 跑不出結(jié)果的 Q8、Q9,SPL 分別跑了 37 秒和 68 秒,也比 ORA 快。原因在于 SPL 可以采用更優(yōu)的算法,其計算復(fù)雜度低于被 ORA 優(yōu)化過的 SQL,更遠(yuǎn)低于 CH 執(zhí)行的 SQL,再加上列存,最終是用 Java 開發(fā)的 SPL 跑贏了 C++ 實現(xiàn)的 CH 和 ORA。

大概可以得到結(jié)論,esProc SPL 無論做簡單計算,還是復(fù)雜計算性能都非常好。

不過,Q1 這種簡單運算,CH 比 SPL 還是略勝了一籌。似乎可以進一步證明前面的結(jié)論,即 CH 特別擅長簡單遍歷運算。

且慢,SPL 還有秘密武器。

SPL 的企業(yè)版中提供了列式游標(biāo)機制,我們再來對比測試一下:在 8 億條數(shù)據(jù)量下,做最簡單的分組匯總計算,對比 SPL(使用列式游標(biāo))和 CH 的性能。(采用的機器配置比前面做 TPC-H 測試時略低,因此測出的結(jié)果不同,不過這里主要看相對值。)

簡單分組匯總對應(yīng) CH 的 SQL 語句是:

SQL1:

SELECT mod(id, 100) AS Aid, max(amount) AS Amax
FROM test.t
GROUP BY mod(id, 100)

這個測試的結(jié)果是下圖這樣:

SPL 使用列式游標(biāo)機制之后,簡單遍歷分組計算的性能也和 CH 一樣了。如果在 TPC-H 的 Q1 測試中也使用列式游標(biāo),SPL 也會達(dá)到和 CH 同樣的性能。

測試過程中發(fā)現(xiàn),8 億條數(shù)據(jù)存成文本格式占用磁盤 15G,在 CH 中占用 5.4G,SPL 占用 8G。說明 CH 和 SPL 都采用了壓縮存儲,CH 的壓縮比更高些,也進一步證明 CH 的存儲引擎做得確實不錯。不過,SPL 也可以達(dá)到和 CH 同樣的性能,這說明 SPL 存儲引擎和算法優(yōu)化做得都比較好,高性能計算能力更加均衡。

當(dāng)前版本的 SPL 是用 Java 寫的,Java 讀數(shù)后生成用于計算的對象的速度很慢,而用 C++ 開發(fā)的 CH 則沒有這個問題。對于復(fù)雜的運算,讀數(shù)時間占比不高,Java 生成對象慢造成的拖累還不明顯;而對于簡單的遍歷運算,讀數(shù)時間占比很高,所以前面測試中 SPL 就會比 CH 更慢。列式游標(biāo)優(yōu)化了讀數(shù)方案,不再生成一個個小對象,使對象生成次數(shù)大幅降低,這時候就能把差距拉回來了。單純從存儲本身看,SPL 和 CH 相比并沒有明顯的優(yōu)劣之分。

接下來再看常規(guī) TopN 的對比測試,CH 的 SQL 是:

SQL2:

SELECT * FROM test.t ORDER BY amount DESC LIMIT 100

對比測試結(jié)果是這樣的:

單看 CH 的 SQL2,常規(guī) TopN 的計算方法是全排序后取出前 N 條數(shù)據(jù)。數(shù)據(jù)量很大時,如果真地做全排序,性能會非常差。SQL2 的測試結(jié)果說明,CH 應(yīng)該和 SPL 一樣做了優(yōu)化,沒有全排序,所以兩者性能都很快,SPL 稍快一些。

也就是說,無論簡單運算還是復(fù)雜運算,esProc SPL 都能更勝一籌。

進一步的差距

差距還不止于此。

正如前面所說,CH 和 ORA 使用 SQL 語言,都是基于關(guān)系模型的,所以都面臨 SQL 優(yōu)化的問題。TPC-H 測試證明,ORA 能優(yōu)化的一些場景 CH 卻優(yōu)化不了,甚至跑不出結(jié)果。那么,如果面對一些 ORA 也不會優(yōu)化的計算,CH 就更不會優(yōu)化了。比如說我們將 SQL1 的簡單分組匯總,改為兩種分組匯總結(jié)果再連接,CH 的 SQL 寫出來大致是這樣:

SQL3:

SELECT *
FROM (
SELECT mod(id, 100) AS Aid, max(amount) AS Amax
FROM test.t
GROUP BY mod(id, 100)
) A
JOIN (
SELECT floor(id / 200000) AS Bid, min(amount) AS Bmin
FROM test.t
GROUP BY floor(id / 200000)
) B
ON A.Aid = B.Bid

這種情況下,對比測試的結(jié)果是 CH 的計算時間翻倍,SPL 則不變:

這是因為 SPL 不僅使用了列式游標(biāo),還使用了遍歷復(fù)用機制,能在一次遍歷過程中計算出多種分組結(jié)果,可以減少很多硬盤訪問量。CH 使用的 SQL 無法寫出這樣的運算,只能靠 CH 自身的優(yōu)化能力了。而 CH 算法優(yōu)化能力又很差,其優(yōu)化引擎在這個測試中沒有起作用,只能遍歷兩次,所以性能下降了一倍。

SPL 實現(xiàn)遍歷復(fù)用的代碼很簡單,大致是這樣:

A

B

1

=file("topn.ctx").open().cursor@mv(id,amount)

2

cursor A1

=A2.groups(id%100:Aid;max(amount):Amax)

3

cursor

=A3.groups(id\200000:Bid;min(amount):Bmin)

4

=A2.join@i(Aid,A3:Bid,Bid,Bmin)

再將 SQL2 常規(guī) TopN 計算,調(diào)整為分組后求組內(nèi) TopN。對應(yīng) SQL 是:

SQL4:

SELECT
gid,
groupArray(100)(amount) AS amount
FROM
(
SELECT
mod(id, 10) AS gid,
amount
FROM test.topn
ORDER BY
gid ASC,
amount DESC
) AS a
GROUP BY gid

這個分組 TopN 測試的對比結(jié)果是下面這樣的:

CH 做分組 TopN 計算比常規(guī) TopN 慢了 42 倍,說明 CH 在這種情況下很可能做了排序動作。也就是說,情況復(fù)雜化之后,CH 的優(yōu)化引擎又不起作用了。與 SQL 不同,SPL 把 TopN 看成是一種聚合運算,和 sum、count 這類運算的計算邏輯是一樣的,都只需要對原數(shù)據(jù)遍歷一次。這樣,分組求組內(nèi) TopN 就和分組求和、計數(shù)一樣了,可以避免排序計算。因此,SPL 計算分組 TopN 比 CH 快了 22 倍。

而且,SPL 計算分組 TopN 的代碼也不復(fù)雜:

?

A


1


=file("topn.ctx").open().cursor@mv(id,amount)

2

=A1.groups(id%10:gid;top(10;-amount)).news(#2;gid,~.amount)

不只是跑得快

再來看看電商系統(tǒng)中常見的漏斗運算。SPL 的代碼依然很簡潔:


A

B

1

=["etype1","etype2","etype3"]

=file("event.ctx").open()

2

=B1.cursor(id,etime,etype;etime>=date("2021-01-10") && etime<date("2021-01-25") && A1.contain(etype) && …)

3

=A2.group(id).(~.sort(etime))

=A3.new(~.select@1(etype==A1(1)):first,~:all).select(first)

4

=B3.(A1.(t=if(#==1,t1=first.etime,if(t,all.select@1(etype==A1.~ && etime>t && etime<t1+7).etime, null))))

5

=A4.groups(;count(~(1)):STEP1,count(~(2)):STEP2,count(~(3)):STEP3)

CH 的 SQL 無法實現(xiàn)這樣的計算,我們以 ORA 為例看看三步漏斗的 SQL 寫法:

with e1 as (  
select gid,1 as step1,min(etime) as t1
from T
where etime>= to_date('2021-01-10', 'yyyy-MM-dd') and etime<to_date('2021-01-25', 'yyyy-MM-dd')
and eventtype='eventtype1' and
group by 1
),
with e2 as (
select gid,1 as step2,min(e1.t1) as t1,min(e2.etime) as t2
from T as e2
inner join e1 on e2.gid = e1.gid
where e2.etime>= to_date('2021-01-10', 'yyyy-MM-dd') and e2.etime<to_date('2021-01-25', 'yyyy-MM-dd')
and e2.etime > t1
and e2.etime < t1 + 7
and eventtype='eventtype2' and
group by 1
),
with e3 as (
select gid,1 as step3,min(e2.t1) as t1,min(e3.etime) as t3
from T as e3
inner join e2 on e3.gid = e2.gid
where e3.etime>= to_date('2021-01-10', 'yyyy-MM-dd') and e3.etime<to_date('2021-01-25', 'yyyy-MM-dd')
and e3.etime > t2
and e3.etime < t1 + 7
and eventtype='eventtype3' and
group by 1
)
select
sum(step1) as step1,
sum(step2) as step2,
sum(step3) as step3
from
e1
left join e2 on e1.gid = e2.gid
left join e3 on e2.gid = e3.gid

ORA 的 SQL 寫出來要三十多行,理解起來有相當(dāng)?shù)碾y度。而且這段代碼和漏斗的步驟數(shù)量相關(guān),每增加一步數(shù)就要再增加一段子查詢。相比之下,SPL 就簡單得多,處理任意步驟數(shù)都是這段代碼。

這種復(fù)雜的 SQL,寫出來都很費勁,性能優(yōu)化更無從談起。

而 CH 的 SQL 還遠(yuǎn)不如 ORA,基本上寫不出這么復(fù)雜的邏輯,只能在外部寫 C++ 代碼實現(xiàn)。也就是說,這種情況下只能利用 CH 的存儲引擎。雖然用 C++ 在外部計算有可能獲得很好的性能,但開發(fā)成本非常高。類似的例子還有很多,CH 都無法直接實現(xiàn)。

總結(jié)一下:CH 計算某些簡單場景(比如單表遍歷)確實很快,和 SPL 的性能差不多。但是,高性能計算不能只看簡單情況快不快,還要權(quán)衡各種場景。對于復(fù)雜運算而言,SPL 不僅性能遠(yuǎn)超 CH,代碼編寫也簡單很多。SPL 能覆蓋高性能數(shù)據(jù)計算的全場景,可以說是完勝 CH。

責(zé)任編輯:龐桂玉 來源: 碼農(nóng)翻身
相關(guān)推薦

2024-08-14 08:18:18

2012-01-18 10:47:38

ibmdw

2017-09-04 17:50:12

2022-05-05 09:31:58

JOIN數(shù)據(jù)庫

2014-12-02 14:05:09

OneAPM阿里云

2012-05-17 14:37:33

SAPHANA邁凱輪

2012-06-13 01:53:23

Java代碼

2009-08-31 17:15:37

LinuxWindowsLinux操作系統(tǒng)

2021-03-01 21:32:49

HTTP2 QUIC

2024-06-06 11:54:35

2021-12-29 10:51:19

JavaSPL架構(gòu)

2010-05-24 17:33:43

MySQL數(shù)據(jù)庫

2015-07-02 14:21:04

2021-01-13 10:51:08

PromissetTimeout(函數(shù)

2009-12-30 10:46:01

Ubuntu目標(biāo)

2010-02-06 10:54:38

Android進程

2022-10-09 10:02:09

Python3.12

2017-10-13 22:25:15

戴爾

2018-06-20 09:49:11

數(shù)據(jù)儲存pickle
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 在线中文字幕亚洲 | 四虎精品在线 | 久久婷婷香蕉热狠狠综合 | 国产99久久久国产精品下药 | 国产日韩视频 | 一区二区在线 | 国产精品精品久久久 | 男女一区二区三区 | 国产成人小视频 | 欧美成人一区二区三区 | 大乳boobs巨大吃奶挤奶 | 日韩精品专区在线影院重磅 | 亚洲精品乱码久久久久久按摩观 | 7799精品视频天天看 | 国产999精品久久久久久 | 久久久涩 | 久久久国产一区 | 亚洲欧美日韩一区 | 国产99在线 | 欧美 | 久久精品国产亚洲 | 国产91 在线播放 | 中文字幕免费在线 | 一级黄色日本片 | a免费视频 | 久久亚洲一区二区三区四区 | 成人亚洲视频 | 9久久精品 | 日韩av在线不卡 | 亚洲黄色av| 午夜精品久久久久久久99黑人 | 精品三级在线观看 | 在线日韩不卡 | 欧美精品第一区 | 激情六月丁香 | 亚洲一区二区三区在线视频 | 国产精品日日摸夜夜添夜夜av | 给我免费的视频在线观看 | 亚洲成人免费视频在线观看 | 毛片久久久| 午夜理伦三级理论三级在线观看 | 黄色免费看 |