企業(yè)能否負(fù)擔(dān)得起大數(shù)據(jù)解決方案的成本?
人們?nèi)匀淮嬖诘囊粋€(gè)誤解是,只有大企業(yè)才能負(fù)擔(dān)得起采用大數(shù)據(jù)驅(qū)動(dòng)的解決方案的成本,它只適用于海量數(shù)據(jù),而且成本高昂。近年來(lái)的幾次革命性發(fā)展將會(huì)改變這種想法。
大數(shù)據(jù)技術(shù)的成熟度
第一次革命性發(fā)展與大數(shù)據(jù)的成熟度和質(zhì)量有關(guān)。毫無(wú)疑問(wèn),企業(yè)采用大數(shù)據(jù)技術(shù)需要付出一定的努力才能使其發(fā)揮作用。

圖1.技術(shù)正在成長(zhǎng)的階段
以往有很多來(lái)自開(kāi)發(fā)人員的故事,他們浪費(fèi)了80%的時(shí)間試圖用Spark、Hadoop、Kafka或其他方法來(lái)克服一些故障。如今,這些技術(shù)變得足夠可靠,并且在成長(zhǎng)階段學(xué)會(huì)了如何相互合作。
與捕獲內(nèi)部錯(cuò)誤相比,基礎(chǔ)設(shè)施出現(xiàn)故障的機(jī)會(huì)要多得多。在大多數(shù)情況下,即使是基礎(chǔ)設(shè)施出現(xiàn)問(wèn)題也可以容忍,因?yàn)榇蠖鄶?shù)的大數(shù)據(jù)處理框架設(shè)計(jì)都是容錯(cuò)的。此外,這些技術(shù)為計(jì)算提供了穩(wěn)定、強(qiáng)大、簡(jiǎn)單的抽象,并允許開(kāi)發(fā)人員專(zhuān)注于開(kāi)發(fā)的業(yè)務(wù)。
各種大數(shù)據(jù)技術(shù)
目前正在發(fā)生第二次革命,近年來(lái)涌現(xiàn)出許多開(kāi)源和專(zhuān)有技術(shù)——Apache Pino、Delta Lake、Hudi、Presto、Clickhouse、Snowflake、Upsolver、Serverless等等。數(shù)千名開(kāi)發(fā)人員的創(chuàng)造力和創(chuàng)意已轉(zhuǎn)化為大膽而卓越的解決方案,并具有巨大的協(xié)同作用。

圖2.大數(shù)據(jù)技術(shù)堆棧
以下介紹一個(gè)典型的分析數(shù)據(jù)平臺(tái)(ADP)。它包括四個(gè)主要層次:
•儀表板和可視化–分析數(shù)據(jù)平臺(tái)(ADP)的外觀,可將分析摘要提供給最終用戶。
•數(shù)據(jù)處理–驗(yàn)證、豐富數(shù)據(jù)并將數(shù)據(jù)從一種形式轉(zhuǎn)換為另一種形式的數(shù)據(jù)管道。
•數(shù)據(jù)倉(cāng)庫(kù)–存放組織良好的數(shù)據(jù)的地方,例如匯總和數(shù)據(jù)集市等。
•數(shù)據(jù)湖–用于存放純?cè)紨?shù)據(jù)的地方,是數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)。
每個(gè)層次都有足夠的選擇,可滿足任何需要和要求。這些技術(shù)中有一半是在過(guò)去5年內(nèi)出現(xiàn)的。
關(guān)于它們的重要一點(diǎn)是,技術(shù)的開(kāi)發(fā)旨在相互兼容。例如,典型的低成本小型分析數(shù)據(jù)平臺(tái)(ADP)可能包含Apache Spark作為處理組件的基礎(chǔ),AWS S3或類(lèi)似的數(shù)據(jù)湖,Clickhouse作為倉(cāng)庫(kù),OLAP用于低延遲查詢,而Grafana用于漂亮的儀表板(見(jiàn)圖3)。

圖3.典型的低成本小型分析數(shù)據(jù)平臺(tái)(ADP)
提供更強(qiáng)保證的更復(fù)雜的分析數(shù)據(jù)平臺(tái)(ADP)能夠以不同的方式組成。例如,將Apache Hudi和S3引入作為數(shù)據(jù)倉(cāng)庫(kù)可以確保更大的規(guī)模,而Clickhouse仍然可以低延遲地訪問(wèn)聚合數(shù)據(jù)(見(jiàn)圖4)。

圖4.更大規(guī)模的ADP具有更強(qiáng)的保障
成本效益
第三次革命性變化是由云層造成的。云計(jì)算服務(wù)成為真正的游戲規(guī)則改變者,它們將大數(shù)據(jù)作為即用型平臺(tái)(大數(shù)據(jù)即服務(wù))進(jìn)行處理,使開(kāi)發(fā)人員可以專(zhuān)注于功能開(kāi)發(fā),從而減少對(duì)云計(jì)算基礎(chǔ)設(shè)施的關(guān)注。
圖5展示了分析數(shù)據(jù)平臺(tái)(ADP)的另一個(gè)示例,該示例利用了無(wú)服務(wù)器技術(shù)從存儲(chǔ)、處理到表示層的強(qiáng)大功能。當(dāng)其技術(shù)被AWS公共云托管服務(wù)取代時(shí),它具有相同的設(shè)計(jì)思想。

圖5.典型的低成本無(wú)服務(wù)器分析數(shù)據(jù)平臺(tái)(ADP)
值得一提的是,這里的AWS云平臺(tái)只是一個(gè)例子,其他云計(jì)算提供商也可以構(gòu)建分析數(shù)據(jù)平臺(tái)(ADP)。
開(kāi)發(fā)人員可以選擇特定技術(shù)和無(wú)服務(wù)器。無(wú)服務(wù)器越多,其可組合性就越好,而越是被供應(yīng)商鎖定,就越是不利。采用特定的云計(jì)算提供商的服務(wù)和無(wú)服務(wù)器堆棧上的解決方案可以加快上市時(shí)間。在無(wú)服務(wù)器技術(shù)之間明智地選擇可使解決方案具有成本效益。
不過(guò),這種選擇對(duì)初創(chuàng)公司來(lái)說(shuō)并不十分有用,因?yàn)樗麄儍A向于利用典型的10萬(wàn)美元的云計(jì)算信用額度,并且在AWS、GCP和Azure之間進(jìn)行跳轉(zhuǎn)是一種很普遍的工作方式,必須提前弄清這個(gè)事實(shí)。
通常情況下,工程師區(qū)分以下成本:
- 開(kāi)發(fā)費(fèi)用
- 維修費(fèi)用
- 變更成本
以下一一進(jìn)行解答。
(1)開(kāi)發(fā)費(fèi)用
云計(jì)算技術(shù)無(wú)疑可以簡(jiǎn)化工程工作,它在幾個(gè)方面產(chǎn)生積極影響:
第一個(gè)是架構(gòu)和設(shè)計(jì)決策。無(wú)服務(wù)器堆棧提供了豐富的模式和可重用組件集,為解決方案的體系結(jié)構(gòu)提供了堅(jiān)實(shí)而一致的基礎(chǔ)。只有一個(gè)問(wèn)題可能會(huì)減慢設(shè)計(jì)階段:大數(shù)據(jù)技術(shù)本質(zhì)上是分布式的,因此在設(shè)計(jì)相關(guān)的解決方案時(shí)必須考慮可能的故障和中斷,以確保數(shù)據(jù)的可用性和一致性。另外,解決方案需要更少的努力來(lái)擴(kuò)展。
第二個(gè)是集成和端到端測(cè)試。無(wú)服務(wù)器堆棧允許創(chuàng)建獨(dú)立的沙盒、播放、測(cè)試、修復(fù)問(wèn)題,從而減少開(kāi)發(fā)回送和時(shí)間。
另一個(gè)優(yōu)勢(shì)是,云計(jì)算實(shí)現(xiàn)了解決方案部署過(guò)程的自動(dòng)化。而這個(gè)特性是任何成功團(tuán)隊(duì)的必備特性。
(2)維護(hù)費(fèi)用
云計(jì)算提供商聲稱(chēng)要解決的主要目標(biāo)之一是減少監(jiān)視和保持生產(chǎn)環(huán)境活動(dòng)的精力。他們?cè)噲D在幾乎沒(méi)有Devops參與的情況下構(gòu)建某種理想的抽象。
但是,實(shí)際情況有所不同。關(guān)于這個(gè)想法,通常維護(hù)工作仍然需要一些努力。下表顯示最突出的種類(lèi)。

但除此之外,在很大程度上取決于基礎(chǔ)設(shè)施和許可成本。設(shè)計(jì)階段是非常重要的,因?yàn)樗袡C(jī)會(huì)挑戰(zhàn)特定技術(shù)并提前估算其運(yùn)行成本。
(3)變更成本
大數(shù)據(jù)技術(shù)關(guān)注客戶的另一個(gè)重要方面——變更成本。經(jīng)驗(yàn)表明,大數(shù)據(jù)與任何其他技術(shù)之間沒(méi)有區(qū)別。如果解決方案不是過(guò)度設(shè)計(jì)的,那么變更成本就可以與非大數(shù)據(jù)堆棧完全媲美。大數(shù)據(jù)帶來(lái)了一個(gè)好處,大數(shù)據(jù)解決方案被設(shè)計(jì)為分離是很自然的。設(shè)計(jì)正確的解決方案看起來(lái)不像是整體解決方案,可以允許在需要時(shí)在短期內(nèi)應(yīng)用局部更改,并且影響生產(chǎn)的風(fēng)險(xiǎn)更小。
概要
總而言之,企業(yè)可以負(fù)擔(dān)得起采用大數(shù)據(jù)的成本。它向開(kāi)發(fā)人員提出了新的設(shè)計(jì)模式和方法,開(kāi)發(fā)人員可以利用它來(lái)組裝任何符合嚴(yán)格業(yè)務(wù)需求的分析數(shù)據(jù)平臺(tái),同時(shí)具有成本效益。
大數(shù)據(jù)驅(qū)動(dòng)的解決方案可能是快速成長(zhǎng)的初創(chuàng)公司的重要基礎(chǔ),這些初創(chuàng)公司希望變得靈活,其應(yīng)用可以快速更改。一旦企業(yè)需要更大的數(shù)據(jù)量,大數(shù)據(jù)驅(qū)動(dòng)的解決方案就可以與企業(yè)的業(yè)務(wù)一起擴(kuò)展。
大數(shù)據(jù)技術(shù)允許以各種規(guī)模實(shí)施近實(shí)時(shí)分析,而傳統(tǒng)解決方案則在性能上陷入困境。
云計(jì)算提供商已將大數(shù)據(jù)提升到了一個(gè)新的水平,從而提供了可靠、可擴(kuò)展以及隨時(shí)可用的功能。開(kāi)發(fā)具有快速交付的經(jīng)濟(jì)高效的分析數(shù)據(jù)平臺(tái)(ADP)從未如此容易,企業(yè)需要利用大數(shù)據(jù)技術(shù)提升其業(yè)務(wù)。