成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

BigQuery vs Snowflake終極指南

譯文 精選
云計(jì)算 云原生
本文將介紹BigQuery和Snowflake在架構(gòu)、定價(jià)、安全性、合規(guī)性、數(shù)據(jù)保護(hù)、性能等方面的主要區(qū)別。

譯者 | 李睿

審校 | 梁策 孫淑娟

云計(jì)算數(shù)據(jù)倉(cāng)庫(kù)是所有現(xiàn)代數(shù)據(jù)堆棧的中心。缺少基于云計(jì)算的數(shù)據(jù)倉(cāng)庫(kù),很難從數(shù)據(jù)中獲得見(jiàn)解。數(shù)據(jù)倉(cāng)庫(kù)的核心是一個(gè)分析平臺(tái),存儲(chǔ)分析來(lái)自各種數(shù)據(jù)源的信息,在企業(yè)進(jìn)行高級(jí)決策以及回答緊迫的業(yè)務(wù)查詢時(shí),這些數(shù)據(jù)就會(huì)派上用場(chǎng)。如今,數(shù)據(jù)倉(cāng)庫(kù)要么已被企業(yè)采用,要么正被逐步部署,其領(lǐng)域內(nèi)主要代表亦有許多,本文則將只關(guān)注BigQuery和Snowflake。

Snowflake是什么?

Snowflake是一種基于軟件即服務(wù)(SaaS)的倉(cāng)庫(kù)解決方案,可在主流的云平臺(tái)(AWS、Azure、GCP)上運(yùn)行。它專門(mén)為云計(jì)算而構(gòu)建,其中一些關(guān)鍵組件使它從其他云計(jì)算數(shù)據(jù)倉(cāng)庫(kù)中脫穎而出。Snowflake于2014年公開(kāi)發(fā)行,此后在數(shù)據(jù)倉(cāng)庫(kù)行業(yè)中占有重要一席。截至2021年10月,其市場(chǎng)估值已達(dá)903.5億美元。

Snowflake在云中開(kāi)發(fā),旨在提供云計(jì)算服務(wù),這意味它幾乎沒(méi)有管理或運(yùn)營(yíng)開(kāi)銷。作為一種原生的SaaS服務(wù),Snowflake可以處理所有后端基礎(chǔ)設(shè)施,從而可以讓人們把重點(diǎn)放在從數(shù)據(jù)獲取見(jiàn)解上。Snowflake具有高度的可擴(kuò)展性,支持近乎無(wú)限的并發(fā)查詢。

BigQuery是什么?

作為谷歌云平臺(tái)的一部分,Google BigQuery于2010年首次推出,是市場(chǎng)上最早的數(shù)據(jù)倉(cāng)庫(kù)解決方案之一。雖然在當(dāng)時(shí)它在很大程度上被認(rèn)為是一個(gè)復(fù)雜的查詢引擎,但自此之后,Google BigQuery的進(jìn)步可圈可點(diǎn),面目一新。

使用BigQuery與Snowflake類似,企業(yè)無(wú)需設(shè)置或維護(hù)自己的內(nèi)部部署基礎(chǔ)設(shè)施,從而可以專注使用標(biāo)準(zhǔn)SQL發(fā)現(xiàn)有意義的見(jiàn)解。Google BigQuery是谷歌的完全原生版本,不在任何其他云平臺(tái)上運(yùn)行。

架構(gòu)

  • Snowflake

Snowflake基于ANSI SQL,是一個(gè)完全無(wú)服務(wù)器的解決方案,存儲(chǔ)與計(jì)算完全分離。它的架構(gòu)基于各種傳統(tǒng)的共享磁盤(pán)和無(wú)共享架構(gòu),對(duì)用戶來(lái)說(shuō)可謂一舉兩得。通過(guò)使用持久數(shù)據(jù)的中央存儲(chǔ)庫(kù),數(shù)據(jù)可用于平臺(tái)中的所有計(jì)算節(jié)點(diǎn)。

Snowflake利用大規(guī)模并行處理(MPP)來(lái)處理所有查詢。這意味著每個(gè)單獨(dú)的計(jì)算集群(虛擬機(jī)或服務(wù)器)在本地存儲(chǔ)。在存儲(chǔ)方面,Snowflake將其數(shù)據(jù)組織到單獨(dú)的微分區(qū)中,然后在內(nèi)部?jī)?yōu)化并壓縮到列存儲(chǔ)中。

事實(shí)上,加載到Snowflake中的所有數(shù)據(jù)都經(jīng)過(guò)重新組織、優(yōu)化和壓縮成列格式,以便可以保存在云存儲(chǔ)中。Snowflake對(duì)數(shù)據(jù)存儲(chǔ)的所有方面進(jìn)行自動(dòng)處理,涉及文件大小、結(jié)構(gòu)、壓縮、元數(shù)據(jù)、統(tǒng)計(jì)信息以及其他不能直接可見(jiàn)而只能通過(guò)SQL查詢?cè)L問(wèn)的數(shù)據(jù)對(duì)象。

Snowflake中的處理是使用“虛擬倉(cāng)庫(kù)”或計(jì)算資源集群完成的。每個(gè)倉(cāng)庫(kù)都是一個(gè)由多個(gè)節(jié)點(diǎn)組成的MPP。Snowflake的云服務(wù)層協(xié)調(diào)Snowflake中的所有活動(dòng),處理從用戶請(qǐng)求、身份驗(yàn)證、基礎(chǔ)設(shè)施管理、元數(shù)據(jù)管理、查詢解析和優(yōu)化、訪問(wèn)控制等所有內(nèi)容。

  • Google BigQuery

Google BigQuery與Snowflake非常相似,也是無(wú)服務(wù)器、存儲(chǔ)與計(jì)算分離并基于ANSI SQL,但它的架構(gòu)完全不同。BigQuery使用一套龐大的多租戶服務(wù),驅(qū)動(dòng)該服務(wù)的特定谷歌基礎(chǔ)設(shè)施技術(shù)包括Dremel、Colossus、Jupiter和Borg等。Google BigQuery中的計(jì)算由Dremel完成,它是一個(gè)大型多租戶計(jì)算集群,并用于執(zhí)行SQL查詢。

Dremel將SQL查詢轉(zhuǎn)換為執(zhí)行樹(shù)來(lái)完成繁重的工作。BigQuery中的葉稱為“插槽” (slots)它們從存儲(chǔ)中讀取數(shù)據(jù)并進(jìn)行必要的計(jì)算。執(zhí)行樹(shù)的分支稱為“混合器”(Mixers),,用于處理所有聚合。團(tuán)隊(duì)中的單個(gè)用戶可以根據(jù)需要利用數(shù)千個(gè)插槽來(lái)執(zhí)行查詢。

與Snowflake類似,BigQuery將數(shù)據(jù)壓縮成列格式,將數(shù)據(jù)存儲(chǔ)在谷歌的全球存儲(chǔ)系統(tǒng)Colossus中。Colossus管理數(shù)據(jù)復(fù)制、恢復(fù)和分布式管理,因此不會(huì)受單點(diǎn)故障影響。BigQuery使用谷歌公司的Jupiter網(wǎng)絡(luò)將數(shù)據(jù)從一個(gè)位置快速移動(dòng)到另一個(gè)位置,其所有硬件資源分配和編排都通過(guò)Borg完成(谷歌公司推出的Kubernetes前身)。

可擴(kuò)展性

Snowflake提供自動(dòng)擴(kuò)展和自動(dòng)掛起功能,使集群能夠在繁忙或空閑期間停止或啟動(dòng)。用戶使用Snowflake無(wú)法調(diào)整節(jié)點(diǎn)大小,但可以通過(guò)單擊調(diào)整集群大小。此外,Snowflake讓用戶能夠自動(dòng)擴(kuò)展多達(dá)10個(gè)數(shù)據(jù)倉(cāng)庫(kù),單個(gè)表中每個(gè)隊(duì)列的DML限制為20個(gè)。

同樣,BigQuery會(huì)根據(jù)需要自動(dòng)配置額外計(jì)算資源,并在幕后處理一切。但是,BigQuery默認(rèn)限制為100個(gè)并發(fā)用戶。這兩個(gè)平臺(tái)都允許企業(yè)根據(jù)需求自動(dòng)擴(kuò)展和縮減。此外,Snowflake讓用戶能夠在不同數(shù)據(jù)倉(cāng)庫(kù)中隔離跨業(yè)務(wù)的工作負(fù)載,以便不同的團(tuán)隊(duì)可以獨(dú)立操作而不會(huì)出現(xiàn)并發(fā)問(wèn)題。

安全與合規(guī)性

Snowflake自動(dòng)為靜態(tài)數(shù)據(jù)提供加密。不過(guò),它不為列提供細(xì)粒度的權(quán)限,而為模式、表、視圖、過(guò)程和其他對(duì)象提供權(quán)限。與其相反,BigQuery提供列級(jí)安全性以及對(duì)數(shù)據(jù)集、表格、視圖和圖表訪問(wèn)控制的權(quán)限。

由于BigQuery是谷歌公司的原生產(chǎn)品,所以人們還可以利用其他具有BigQuery內(nèi)置安全性和身份驗(yàn)證功能的谷歌云服務(wù),從而使集成變得更加容易。Snowflake不提供任何內(nèi)置的虛擬專用網(wǎng)絡(luò)。但是,如果Snowflake托管在AWS云平臺(tái)中,采用AWS PrivateLink可以解決這一問(wèn)題。

另一方面,采用BigQuery能夠利用谷歌公司的虛擬私有云。BigQuery和Snowflake都符合HIPAA、ISO 27001、PCI DSS、SOC1TYPE II和SOC2TYPE II等認(rèn)證標(biāo)準(zhǔn)。

數(shù)據(jù)支持

這兩個(gè)平臺(tái)都支持結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)(Avro、Parquet、Orc、CSV、JSON),自2021年9月20日起,Snowflake宣布支持非結(jié)構(gòu)化數(shù)據(jù),并已在公共預(yù)覽版中提供。

管理

使用BigQuery和Snowflake能夠管理用戶角色、權(quán)限和數(shù)據(jù)安全。所有性能調(diào)整都為自動(dòng)進(jìn)行,且隨著數(shù)據(jù)量的增長(zhǎng)和查詢變得更加復(fù)雜,兩個(gè)平臺(tái)都會(huì)在后臺(tái)自動(dòng)擴(kuò)展以滿足需求。

此外,由于兩個(gè)解決方案都是作為SaaS服務(wù)提供的,因此所有底層維護(hù)和基礎(chǔ)設(shè)施都會(huì)進(jìn)行處理。BigQuery自動(dòng)處理所有事情,而Snowflake讓管理員可以獨(dú)立擴(kuò)展計(jì)算和存儲(chǔ)層。這意味著可以隔離工作負(fù)載,而無(wú)需處理與Snowflake中的虛擬倉(cāng)庫(kù)相關(guān)的大小調(diào)整和許可工作。

數(shù)據(jù)保護(hù)

BigQuery和Snowflake在保護(hù)數(shù)據(jù)方面都做得非常出色。Snowflake可以采用時(shí)間旅行(Time Travel)和故障保護(hù)(Fail-safe)這兩個(gè)功能幫助解決這個(gè)問(wèn)題。借助時(shí)間旅行,Snowflake會(huì)在數(shù)據(jù)更新之前保留數(shù)據(jù)狀態(tài)。時(shí)間旅行的標(biāo)準(zhǔn)保留期為一天(企業(yè)客戶可以指定最多90天的期限),可以應(yīng)用于數(shù)據(jù)庫(kù)、模板和表。

使用故障保護(hù),Snowflake可以恢復(fù)歷史數(shù)據(jù)。其時(shí)間段不可配置,并在時(shí)間旅行保留期結(jié)束后立即開(kāi)始。盡管啟動(dòng)恢復(fù)必須請(qǐng)求Snowflake,但任何可能由于極端操作故障而損壞或丟失的數(shù)據(jù),Snowflake都能通過(guò)這一功能恢復(fù)。

BigQuery中的管理員可以輕松還原更改,而無(wú)需處理恢復(fù)的麻煩。BigQuery對(duì)其表中的所有更改保留完整的七天歷史記錄。但是,為了將表數(shù)據(jù)保留七天以上,BigQuery提供了一種稱為表快照的功能(快照用于在特定時(shí)間點(diǎn)保留表的內(nèi)容)。

定價(jià)

Snowflake的定價(jià)模式是按每個(gè)數(shù)據(jù)倉(cāng)庫(kù)的使用情況收費(fèi),因此成本主要取決于其整體使用情況。Snowflake有幾種大小不同(X-Small、Small、Medium、Large、X-Large等)的數(shù)據(jù)倉(cāng)庫(kù),其收費(fèi)和服務(wù)器/集群數(shù)量都有很大差異。不過(guò),Snowflake的X-Small倉(cāng)庫(kù)的基本定價(jià)則為每秒0.00056美元。

數(shù)據(jù)倉(cāng)庫(kù)規(guī)模每增加一倍,價(jià)格就會(huì)翻一番。Snowflake有幾個(gè)收費(fèi)方案允許用戶預(yù)先購(gòu)買(mǎi)積分以支付使用費(fèi)用。預(yù)購(gòu)容量方案的前期成本費(fèi)率更低,因而優(yōu)于按需付費(fèi)方案。

BigQuery則按掃描或讀取的字節(jié)數(shù)收費(fèi)。BigQuery提供按需定價(jià)和固定費(fèi)率定價(jià)。按需定價(jià)為按給定查詢中處理的字節(jié)數(shù)按5美元/TB收費(fèi)。固定費(fèi)率定價(jià)模式則是為運(yùn)行查詢購(gòu)買(mǎi)插槽(虛擬CPU)或?qū)S觅Y源。100個(gè)插槽的每月費(fèi)用約為2,000美元(如果年付可降至1700美元)。

Snowflake和BigQuery的存儲(chǔ)費(fèi)用都相對(duì)較低。Snowflake對(duì)按需客戶每月每TB收費(fèi)40美元,對(duì)預(yù)付客戶每月收取23美元。BigQuery對(duì)活動(dòng)存儲(chǔ)每月每TB收費(fèi)20美元,對(duì)非活動(dòng)存儲(chǔ)每TB收費(fèi)10美元。

云計(jì)算基礎(chǔ)設(shè)施

作為原生SaaS產(chǎn)品,Snowflake可在任何主要的云平臺(tái)(AWS、GCP、Azure)上運(yùn)行。BigQuery是原生谷歌云產(chǎn)品,所以僅在谷歌云平臺(tái)上可用。

性能

Snowflake無(wú)需微調(diào),可實(shí)現(xiàn)開(kāi)箱即用,因而性能表現(xiàn)和執(zhí)行更迅速,在查詢時(shí)間上往往優(yōu)于包括BigQuery在內(nèi)的其他數(shù)據(jù)倉(cāng)庫(kù)。相比不同之處,Snowflake和BigQuery的相似之處可能更多。

如果空閑時(shí)間較長(zhǎng),運(yùn)行大量查詢只是偶爾需要,BigQuery可能會(huì)更高效且計(jì)算成本更低。另一方面,如果使用更可預(yù)測(cè)更可持續(xù),那么使用Snowflake可能成本效益更好。

Snowflake和BigQuery的主要區(qū)別

Snowflake和BigQuery之間有幾個(gè)主要區(qū)別需要注意。首先,Snowflake中的擴(kuò)展和縮放并不是完全自動(dòng)的,它需要提供一些輸入,而B(niǎo)igQuery則會(huì)自動(dòng)處理一切。

其次,Snowflake可以在任何一個(gè)主流云平臺(tái)上運(yùn)行,而B(niǎo)igQuery只能在谷歌云平臺(tái)上運(yùn)行。Snowflake是一個(gè)完整的SaaS解決方案,BigQuery是一個(gè)PaaS解決方案。此外,Snowflake具有一項(xiàng)稱為安全數(shù)據(jù)共享的獨(dú)特功能,它能夠與其他Snowflake帳戶共享數(shù)據(jù)庫(kù)中的選定對(duì)象。使用安全數(shù)據(jù)共享實(shí)際上不會(huì)在帳戶之間復(fù)制或傳輸任何數(shù)據(jù),因?yàn)橐磺卸及l(fā)生在Snowflake獨(dú)特的服務(wù)層和元數(shù)據(jù)存儲(chǔ)中。

BigQuery沒(méi)有數(shù)據(jù)共享功能。但是,BigQuery能夠創(chuàng)建授權(quán)視圖以與特定用戶或組共享查詢執(zhí)行結(jié)果,而無(wú)需授予他們對(duì)基礎(chǔ)表的訪問(wèn)權(quán)限。BigQuery還具有一項(xiàng)名為BigQuery ML的功能,可以創(chuàng)建和執(zhí)行機(jī)器學(xué)習(xí)模型,從而顯著改善查詢性能。

在機(jī)器學(xué)習(xí)和實(shí)時(shí)流工作負(fù)載方面,BigQuery絕對(duì)比Snowflake更有優(yōu)勢(shì)。總之,在選擇新的云數(shù)據(jù)平臺(tái)時(shí),試圖解決的用例應(yīng)是做決定的首要考慮因素。

Snowflake和BigQuery的后續(xù)展望

之所以采用現(xiàn)代云數(shù)據(jù)倉(cāng)庫(kù),目的是將數(shù)據(jù)倉(cāng)庫(kù)整合到一個(gè)集中的數(shù)據(jù)存儲(chǔ)庫(kù)中,以便分析師可以利用商業(yè)智能工具進(jìn)行分析和報(bào)告,從而創(chuàng)建可信單一數(shù)據(jù)源。在實(shí)際環(huán)境中,數(shù)據(jù)倉(cāng)庫(kù)只是為企業(yè)的團(tuán)隊(duì)創(chuàng)建了一個(gè)更大的數(shù)據(jù)倉(cāng)庫(kù)。

數(shù)據(jù)倉(cāng)庫(kù)使企業(yè)的團(tuán)隊(duì)能夠在同一位置訪問(wèn)其所有數(shù)據(jù),并為主要利益相關(guān)者創(chuàng)建高級(jí)儀表板和報(bào)告,而這些信息對(duì)于其他業(yè)務(wù)團(tuán)隊(duì)來(lái)說(shuō)則不適用。畢竟,數(shù)據(jù)只有在報(bào)表中才價(jià)值突顯。

這正是反向ETL解決的問(wèn)題。反向ETL這一過(guò)程是將數(shù)據(jù)從中央數(shù)據(jù)倉(cāng)庫(kù)復(fù)制到記錄操作系統(tǒng),該類系統(tǒng)包括但不限于用于增長(zhǎng)、營(yíng)銷、銷售和支持等內(nèi)容的SaaS工具。

原文標(biāo)題:BigQuery vs Snowflake: The Definitive Guide,作者:Luke Kline

責(zé)任編輯:華軒 來(lái)源: 51CTO
相關(guān)推薦

2023-05-05 17:20:04

2012-08-21 06:53:00

測(cè)試軟件測(cè)試

2025-03-11 00:54:42

2015-07-20 09:39:41

Java日志終極指南

2017-03-27 21:14:32

Linux日志指南

2021-07-19 09:00:00

數(shù)據(jù)庫(kù)數(shù)據(jù)分析技術(shù)

2015-03-05 11:28:51

Linux桌面環(huán)境終極指南

2015-11-08 14:44:48

2013-12-18 09:36:08

企業(yè)移動(dòng)指南

2022-07-22 13:14:57

TypeScript指南

2024-05-17 10:59:25

云計(jì)算谷歌云

2024-12-16 08:00:00

Snowflake數(shù)據(jù)平臺(tái)

2024-09-13 12:25:43

2022-03-28 09:52:42

JavaScript語(yǔ)言

2020-07-19 08:15:41

PythonDebug

2025-01-14 00:00:00

2015-08-10 09:21:23

2024-07-10 09:07:09

2024-01-31 15:28:38

物聯(lián)網(wǎng)IOT連接技術(shù)

2023-11-21 07:37:22

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 色网站视频 | 国产成人精品午夜 | 久久精品中文字幕 | 免费日韩网站 | 日韩精品一区二区三区四区视频 | 日本欧美国产在线 | 欧美国产日韩在线观看 | 亚洲v日韩v综合v精品v | 欧美aⅴ | 日韩在线观看中文字幕 | 国产亚洲成av人在线观看导航 | а√中文在线8 | 蜜桃臀av一区二区三区 | 日本五月婷婷 | 有码在线 | 国产999精品久久久久久 | 午夜视频一区二区 | 91精品国产综合久久久动漫日韩 | 自拍偷拍亚洲欧美 | 亚洲精品欧美精品 | 日韩欧美一区二区三区免费观看 | 一区二区三区四区电影视频在线观看 | 久久天天综合 | 久久区二区| 福利网站在线观看 | 久草久草久草 | 一级做a | 亚洲第一成人影院 | 日韩一区二区三区在线观看视频 | av黄在线观看 | 在线观看日韩av | 亚洲一级淫片 | 亚洲精品成人 | 成人欧美一区二区三区视频xxx | 老司机67194精品线观看 | 欧美日韩美女 | 欧美日韩亚 | 欧美久久国产精品 | 亚洲精品久久久一区二区三区 | 精品久久亚洲 | jvid精品资源在线观看 |