數(shù)據(jù)倉(cāng)庫(kù)即服務(wù)(DWaaS):定義、主要功能和解決方案提供商
譯文?譯者 | 布加迪
審校 | 孫淑娟
數(shù)據(jù)倉(cāng)庫(kù)即服務(wù)(DWaaS)簡(jiǎn)介
隨著企業(yè)數(shù)據(jù)量以驚人的速度增長(zhǎng)(比如IDC預(yù)計(jì)到2025年,年復(fù)合增長(zhǎng)率為23%,達(dá)到175 ZB),采用現(xiàn)代數(shù)據(jù)基礎(chǔ)架構(gòu)已不可避免。各行各業(yè)大大小小的公司都不可避免地采用更有效的數(shù)據(jù)解決方案。
這些組織需要整合來(lái)自多個(gè)數(shù)據(jù)源系統(tǒng)的業(yè)務(wù)數(shù)據(jù),用于歷史分析和趨勢(shì)分析。這時(shí)候數(shù)據(jù)倉(cāng)庫(kù)有了用武之地,它使公司能夠?qū)⒂薪M織、干凈的業(yè)務(wù)數(shù)據(jù)匯總起來(lái)(主要是適合行和列的“結(jié)構(gòu)化數(shù)據(jù)”)。
需要為預(yù)定義的業(yè)務(wù)目的處理結(jié)構(gòu)化數(shù)據(jù)時(shí),數(shù)據(jù)倉(cāng)庫(kù)被視為首選。然而,構(gòu)建和維護(hù)數(shù)據(jù)倉(cāng)庫(kù)是一項(xiàng)艱巨的任務(wù)。隨著數(shù)據(jù)量不斷增長(zhǎng),組織必須相應(yīng)地?cái)U(kuò)展其本地倉(cāng)庫(kù)的存儲(chǔ)和計(jì)算資源。這不僅需要大量投資,還會(huì)帶來(lái)管理開(kāi)銷(xiāo)——團(tuán)隊(duì)始終密切關(guān)注整套基礎(chǔ)架構(gòu),以保持正常運(yùn)行,同時(shí)確保安全和合規(guī)。
這個(gè)挑戰(zhàn)是小公司面臨的主要障礙,正在通過(guò)基于云的數(shù)據(jù)倉(cāng)庫(kù)即服務(wù)(DWaaS)模型來(lái)解決。服務(wù)提供商負(fù)責(zé)設(shè)置、維護(hù)、保護(hù)和升級(jí)數(shù)據(jù)倉(cāng)庫(kù),并負(fù)責(zé)處理所有相關(guān)軟硬件堆棧的工作??蛻糁恍枰?fù)責(zé)插入想要連接到倉(cāng)庫(kù)的數(shù)據(jù)源,并為托管服務(wù)付費(fèi)。
DWaaS產(chǎn)品的關(guān)鍵功能
當(dāng)企業(yè)選擇數(shù)據(jù)倉(cāng)庫(kù)即服務(wù)產(chǎn)品時(shí),它將從提供商那里獲得幾項(xiàng)關(guān)鍵服務(wù)。然而,它也可能會(huì)選擇更具包容性的服務(wù)?;痉?wù)清單包括以下內(nèi)容:
- 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與開(kāi)發(fā)
一家提供DWaaS服務(wù)的公司先查看客戶獨(dú)特的業(yè)務(wù)需求、現(xiàn)有的數(shù)據(jù)管理策略、數(shù)據(jù)源和質(zhì)量實(shí)踐,為客戶配置自定義數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)。一旦自定義框架準(zhǔn)備就緒并面向未來(lái)(比如針對(duì)可擴(kuò)展性等方面),就可以通過(guò)選擇最合適的軟硬件系統(tǒng)和流程來(lái)實(shí)現(xiàn)它。
- 與數(shù)據(jù)源集成
配置自定義數(shù)據(jù)倉(cāng)庫(kù)后,提供商致力于將其與所有現(xiàn)有數(shù)據(jù)源集成,比如客戶的交易系統(tǒng)。視具體情況而定,供應(yīng)商可以利用領(lǐng)先的管道技術(shù)或自定義代碼來(lái)確保將數(shù)據(jù)以高完整性傳輸?shù)絺}(cāng)庫(kù)。一些供應(yīng)商還將倉(cāng)庫(kù)與現(xiàn)有的分析解決方案集成起來(lái),供內(nèi)部分析。
- 數(shù)據(jù)清洗和遷移
集成后,來(lái)自相連數(shù)據(jù)源的信息將被合并、清理、強(qiáng)化,并定期測(cè)試,以確保準(zhǔn)確性、完整性以及符合核心數(shù)據(jù)模型。清理后的信息被傳輸?shù)娇蛻暨x擇的云平臺(tái),但一些提供商也支持混合策略,即一些數(shù)據(jù)保存在客戶的地方,一些數(shù)據(jù)保存在云端。
- 支持
倉(cāng)庫(kù)啟動(dòng)并運(yùn)行后,服務(wù)提供商啟動(dòng)維護(hù)數(shù)據(jù)質(zhì)量、添加和刪除數(shù)據(jù)源、檢查性能以及不時(shí)確保提取、轉(zhuǎn)換和加載(ETL)正確性的內(nèi)務(wù)管理工作。提供商確保從數(shù)據(jù)模型到基礎(chǔ)架構(gòu)的整個(gè)服務(wù)都符合隱私、安全和治理等方面的標(biāo)準(zhǔn)。
- 不斷進(jìn)化
在維護(hù)數(shù)據(jù)倉(cāng)庫(kù)的同時(shí),提供商密切關(guān)注不斷變化的業(yè)務(wù)需求和數(shù)據(jù)源,以確保整個(gè)數(shù)據(jù)環(huán)境得到定期升級(jí),無(wú)論在軟件、計(jì)算還是在存儲(chǔ)方面。
2022年主流數(shù)據(jù)倉(cāng)庫(kù)即服務(wù)解決方案提供商
借助DWaaS解決方案,許多供應(yīng)商提供了數(shù)據(jù)倉(cāng)庫(kù)的好處,無(wú)需客戶承擔(dān)設(shè)置和維護(hù)的重任。然而,根據(jù)G2和Gartner獲得的客戶反饋,只有少數(shù)提供商取得的成績(jī)足以被歸類(lèi)為領(lǐng)導(dǎo)者。
- Snowflake Data Cloud
Snowflake Data Cloud跨多個(gè)云(包括AWS和Azure)運(yùn)行,提供倉(cāng)儲(chǔ)功能,并為結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)提供完整的關(guān)系數(shù)據(jù)庫(kù)支持。它將存儲(chǔ)、計(jì)算和云服務(wù)分成不同的層,允許它們獨(dú)立變更和擴(kuò)展。它還自動(dòng)管理維護(hù)的關(guān)鍵方面,比如查詢(xún)緩存、規(guī)劃、解析和優(yōu)化以及更新處理等方面。全球有5000余家公司使用Snowflake Data Cloud處理數(shù)據(jù),供人工智能和分析所用。
據(jù)客戶評(píng)價(jià)顯示,該平臺(tái)滿足用戶需求,并在易部署性、管理、支持質(zhì)量、可擴(kuò)展性、集成和定價(jià)靈活性等所有方面均脫穎而出。
- Amazon Redshift
作為一款A(yù)WS產(chǎn)品,Amazon Redshift提供了完全托管且可擴(kuò)展的云數(shù)據(jù)倉(cāng)庫(kù),允許企業(yè)對(duì)存儲(chǔ)在S3存儲(chǔ)桶中的TB到PB級(jí)數(shù)據(jù)執(zhí)行復(fù)雜的分析查詢(xún)。它通過(guò)配置節(jié)點(diǎn)集群來(lái)運(yùn)行,每個(gè)節(jié)點(diǎn)為一個(gè)或多個(gè)數(shù)據(jù)庫(kù)提供CPU、RAM和存儲(chǔ)。隨著倉(cāng)儲(chǔ)需求不斷變化,集群可以在Redshift中手動(dòng)配置或取消配置,相應(yīng)地?cái)U(kuò)大或縮小規(guī)模。
根據(jù)Gartner的用戶反饋,Redshift幾乎與Snowflake相提并論,但在最終用戶培訓(xùn)質(zhì)量和第三方資源可用性等方面落后。
- Google BigQuery
BigQuery是谷歌提供的完全托管的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品。它帶有無(wú)服務(wù)器架構(gòu),由自動(dòng)配置提供支持,擁有流數(shù)據(jù)支持、機(jī)器學(xué)習(xí)和地理空間分析等內(nèi)置功能。據(jù)谷歌聲稱(chēng),BigQuery將計(jì)算和存儲(chǔ)分離以增強(qiáng)擴(kuò)展的靈活性,并允許開(kāi)發(fā)人員使用采用熟悉編程語(yǔ)言(包括 Python、Java、JavaScript和Go)的客戶端庫(kù),以轉(zhuǎn)換和管理數(shù)據(jù)。
該解決方案還可以借助身份和訪問(wèn)管理工具,對(duì)數(shù)據(jù)和計(jì)算資源進(jìn)行集中管理。根據(jù) G2評(píng)價(jià)顯示,使用BigQuery的客戶聲稱(chēng)他們?cè)诮鉀Q方案的部署、使用和支持等方面遇到了問(wèn)題。
- IBM DB2
與谷歌一樣,IBM也提供完全托管的彈性云數(shù)據(jù)倉(cāng)庫(kù),通過(guò)其IBM DB2解決方案提供存儲(chǔ)和計(jì)算的獨(dú)立擴(kuò)展。該產(chǎn)品包括高度優(yōu)化的列式數(shù)據(jù)存儲(chǔ)、可操作的壓縮和內(nèi)存處理,以加速分析和機(jī)器學(xué)習(xí)。此外,它還能自動(dòng)執(zhí)行維護(hù)任務(wù),比如監(jiān)控、正常運(yùn)行時(shí)間檢查和備份。
該解決方案存在的問(wèn)題類(lèi)似谷歌的BigQuery,用戶報(bào)告他們?cè)诮鉀Q方案的設(shè)置、部署、使用和所提供支持的質(zhì)量等方面遇到了問(wèn)題。
- Microsoft Azure Synapse Analytics
Azure Synapse Analytics將數(shù)據(jù)集成、倉(cāng)儲(chǔ)和分析功能結(jié)合在一起,為企業(yè)提供統(tǒng)一的工作空間,以便為AI和商業(yè)智能(BI)等用例攝取、準(zhǔn)備、管理和提供大數(shù)據(jù)。
該解決方案使數(shù)據(jù)專(zhuān)業(yè)人員可以自由地使用無(wú)服務(wù)器資源或手動(dòng)配置的資源來(lái)查詢(xún)數(shù)據(jù)。由于存儲(chǔ)和計(jì)算資源幾乎可無(wú)限擴(kuò)展、深度集成的SQL引擎、直接與Power BI和Azure ML集成以及對(duì)數(shù)據(jù)控制的高級(jí)訪問(wèn),它也是該領(lǐng)域的領(lǐng)先者之一。
Walgreens、Co-op、Marks and Spencer和GE Aviation等領(lǐng)先企業(yè)目前都在使用Azure Synapse Analytics。根據(jù)Gartner評(píng)價(jià)顯示,存在的問(wèn)題主要是定價(jià)模型。
該類(lèi)別中其他值得注意的玩家是SAP、甲骨文、Yellowbrick、Cloudera和天睿。總體而言,DWaaS解決方案市場(chǎng)預(yù)計(jì)將從2020年的14.4億美元增長(zhǎng)到2026年的43億美元,增長(zhǎng) 20%。
據(jù)Mordor Intelligence聲稱(chēng),這種激增主要是由于公司越來(lái)越有興趣了解有關(guān)業(yè)務(wù)流程、產(chǎn)品、客戶和服務(wù)等方面的可用信息,以便牢牢抓住新的商機(jī)。
原文標(biāo)題:??What is data-warehouse-as-a-service (DWaaS)? Definition, key functions and solution providers???,作者:Shubham Sharma?